lordy
Bloody Newbie
|
Hi,
bin auf der suche nach einer Empfehlung für maximale Rechenleistung auf einem einzelnen Node (zwar mit MPI aber ohne Ethernet oder Infiniband). Dabei ist lediglich die CPU-leistung relevant. Hätte zb an eine 8-core Maschine gedacht, bei Geizhals bin ich leider nicht so richtig fündig geworden. Hat jemand Empfehlung oder Ideen für Vergleiche?
lg Lordy
|
Viper780
ElderEr ist tot, Jim!
|
was für rechnungen?
Wie gut skaliert das programm?
es kommen bald 6 Kern CPUs raus
und auch jetzt kannst du schon 4 Quadcores verbauen, teuer ist da meist der speicher
|
COLOSSUS
AdministratorGNUltra
|
Du meinst also ein nicht-Cluster-System, das aber SMP/NUMA sein darf? Gibt's preisliche Grenzen? Ist Eigenbau oder Schluesselfertig-Komplettloesung gefragt? Ich hab mal in einem "Gedankenexperiment" ein 8way-System zusammengestellt, das ich mir auch zuhause leisten koennte/wollte. Das hier ist dabei rausgekommen: http://geizhals.at/eu/?cat=WL-44318Die gewaehlten Opterons sind die Sparvariante; da kann man also durchaus noch Geld fuer ein paar Prozent Mehrleistung zusaetzlich rauspulvern.
|
.dcp
notamodbuthot
|
|
Viper780
ElderEr ist tot, Jim!
|
Du meinst also ein nicht-Cluster-System, das aber SMP/NUMA sein darf? Gibt's preisliche Grenzen? Ist Eigenbau oder Schluesselfertig-Komplettloesung gefragt?
Ich hab mal in einem "Gedankenexperiment" ein 8way-System zusammengestellt, das ich mir auch zuhause leisten koennte/wollte. Das hier ist dabei rausgekommen: http://geizhals.at/eu/?cat=WL-44318 Die gewaehlten Opterons sind die Sparvariante; da kann man also durchaus noch Geld fuer ein paar Prozent Mehrleistung zusaetzlich rauspulvern. schaut nett aus und die Integer einheit von AMD ist sogar stärker als die von Intel, aber mit 2,3GHz rechnest halt recht langsam. da fährst mit einem q9550 übertaktet auf 3,6GHz besser (auch mit nur halb sovielen Kernen)
|
COLOSSUS
AdministratorGNUltra
|
Uebertakten wird jemand mit Anspruechen auf 100%ig korrekte Berechnungen wohl hoffentlich nicht. Ich weisz nicht wie es derzeit mit Intel-Mehrsockelloesungen aussieht, aber in der Vergangenheit waren die halt immer emfpindlich teurer als die Einsockelangebote - nicht zuletzt auch wegen des XEON-Zwangs. Klar ist: Man kann auch fuer einen Opteron viel mehr ausgeben, und mit maximal 2.9GHz pro Kern gibt's da auch noch einen Spielraum von guten 20% moeglicher Mehrleistung. Die Frage ist halt, ob das wirklich den finanziellen Aufwand wert ist.
|
lordy
Bloody Newbie
|
also: - es handelt sich um das Programm Gromacs [1]. Bisher wird es auf Q9400@2.66GHz Quadcores betrieben. Es hat sich bei Parallelisierungsversuchen über Gigabit-Ethernet herausgestellt dass die Berechnungen sogar langsamer werden sobald mehr als eine physikalische Maschine beteiligt ist. Rechnet man jedoch auf vier statt auf einer CPU in der selben Maschine dann ist der Performancegewinn sehr deutlich. - schlüsselfertig wäre gefragt - preislich wäre eine Alternative zu 50 Quadcores a 700 Euro gesucht (also etwa 35k) - übertaktet soll nichts werden [1] http://www.gromacs.org/
|
Castlestabler
Here to stay
|
|
userohnenamen
leider kein name
|
Dell R900, der würde zumindest 4-Six-cores unterstützen allerdings is man mit vollbestückung von Six-Core Intel® Xeon® X7460; 2.6GHz, 16MB L3 cache, 1066MHz FSB, 130W TDP und 32gb ram auch schon auf 20k€
|
Pyros
fire walk with me
|
|
Castlestabler
Here to stay
|
|
Viper780
ElderEr ist tot, Jim!
|
also:
- es handelt sich um das Programm Gromacs [1]. Bisher wird es auf Q9400@2.66GHz Quadcores betrieben. Es hat sich bei Parallelisierungsversuchen über Gigabit-Ethernet herausgestellt dass die Berechnungen sogar langsamer werden sobald mehr als eine physikalische Maschine beteiligt ist. Rechnet man jedoch auf vier statt auf einer CPU in der selben Maschine dann ist der Performancegewinn sehr deutlich. - schlüsselfertig wäre gefragt - preislich wäre eine Alternative zu 50 Quadcores a 700 Euro gesucht (also etwa 35k) - übertaktet soll nichts werden
[1] http://www.gromacs.org/ Gromacs probieren wir auch, skaliert aber "extern" eher schwach wie ihr raus gefunden habt. Da wir aber nur mit 100MBit fahren war das nicht verwunderlich. Bei uns skaliert es auf 4 Knoten mit dem Faktor 3,92 (Q9550) was beachtlich ist. Auf wieviel rechnern habt ihr es probiert - bis ca. 10 Knoten sollte es auch über GBit nicht so schlecht skalieren? Hattet ihr sowas wie Coarsgraining oder Ewaldsumme aktiv? Ich würde auf alle Fälle höher getaktete Intellösungen nehmen, da Gromacs sehr gut mit dem Takt skaliert und hier einfach die Fließkommaarithmetik gefragt ist. Ein schneller (und ausreichend) Speicher schadet hier auch nicht.
|
lordy
Bloody Newbie
|
Ich es geht sogar soweit dass wenn wir 2 Rechner (jeweils 4 Cores) direkt mit Kabel verbinden und dann auf 8 Cores insgesamt rechnen, dass dann die Laufzeit länger ist als wenn wir nur einen mit 4 Cores verwenden. Der Lilli-Cluster der Uni-Linz kommt mit 32 verwendeten Cores (allerdings mit --disable-ia64-asm flag sonst lässt sich Gromacs dort nicht installieren) gerade einmal auf 65,6% der Laufzeit eines Quadcores. Also 4 mal so viele Cpus und gerade einmal 1/3 schneller (wobei die wahrscheinlich deutliche teurere Verkabelung als Ethernet verwenden ...) Ja PME ist aktiv - sonst kann man es sich wahrscheinlich gleich ganz vergessen. Deshalb hab ich mir gedacht dass man wahrscheinlich mit einzelnen Rechnern mit sehr vielen CPUs deutlich bessere Ergebnisse erzielt - aber beweisen kann ich es nicht ohne es ausprobiert zu haben.
lg
|
Viper780
ElderEr ist tot, Jim!
|
der Lilli hat doch nur GBit Ethernet abe rkenn leider niemand mehr aus dem ZID in Linz, kann nur von Wien sprechen. Versucht mal es ohne PME MeshedEwald ist durch die Fouriertransformation der killer von Clustern. Bei uns (Polymere) haben wir PME abgeschalten und rechnen auch Coulomb mit einem Groupbased Cut off (haben das von Material Studios abgeschaut). evtl geht bei Gromacs so wie bei charmed die FFT nur auf 1-2 Maschinen zu legen.
|
COLOSSUS
AdministratorGNUltra
|
Falls ihr es nicht ohnehin schon tut koennte es womoeglich auch einiges bringen, mit ICC statt GCC (oder generell irgendeinem anderen Compiler) zu kompilieren. Wenn ihr eh schon so viel fuer Hardware budgetiert, sollte sich eine Lizenz (es sei denn, das findet eh im akad. Umfeld statt - da sollte die Lizenz iirc gratis sein) dafuer auch noch ausgehen.
|