"We are back" « oc.at

Maximale CPU-Leistung ohne Netzwerkparallelisierung

lordy 27.05.2009 - 11:19 1735 22
Posts

lordy

Bloody Newbie
Registered: Jan 2002
Location: Österreich
Posts: 7
Hi,

bin auf der suche nach einer Empfehlung für maximale Rechenleistung auf einem einzelnen Node (zwar mit MPI aber ohne Ethernet oder Infiniband). Dabei ist lediglich die CPU-leistung relevant. Hätte zb an eine 8-core Maschine gedacht, bei Geizhals bin ich leider nicht so richtig fündig geworden. Hat jemand Empfehlung oder Ideen für Vergleiche?

lg
Lordy

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 50368
was für rechnungen?

Wie gut skaliert das programm?

es kommen bald 6 Kern CPUs raus

und auch jetzt kannst du schon 4 Quadcores verbauen, teuer ist da meist der speicher

COLOSSUS

Administrator
GNUltra
Avatar
Registered: Dec 2000
Location: ~
Posts: 12133
Du meinst also ein nicht-Cluster-System, das aber SMP/NUMA sein darf? Gibt's preisliche Grenzen? Ist Eigenbau oder Schluesselfertig-Komplettloesung gefragt?

Ich hab mal in einem "Gedankenexperiment" ein 8way-System zusammengestellt, das ich mir auch zuhause leisten koennte/wollte. Das hier ist dabei rausgekommen: http://geizhals.at/eu/?cat=WL-44318
Die gewaehlten Opterons sind die Sparvariante; da kann man also durchaus noch Geld fuer ein paar Prozent Mehrleistung zusaetzlich rauspulvern.

.dcp

notamodbuthot
Avatar
Registered: Jul 2002
Location: new
Posts: 8881
oder ein value server von dell:
http://www1.euro.dell.com/content/p...;l=de&s=bsd

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 50368
Zitat von COLOSSUS
Du meinst also ein nicht-Cluster-System, das aber SMP/NUMA sein darf? Gibt's preisliche Grenzen? Ist Eigenbau oder Schluesselfertig-Komplettloesung gefragt?

Ich hab mal in einem "Gedankenexperiment" ein 8way-System zusammengestellt, das ich mir auch zuhause leisten koennte/wollte. Das hier ist dabei rausgekommen: http://geizhals.at/eu/?cat=WL-44318
Die gewaehlten Opterons sind die Sparvariante; da kann man also durchaus noch Geld fuer ein paar Prozent Mehrleistung zusaetzlich rauspulvern.

schaut nett aus und die Integer einheit von AMD ist sogar stärker als die von Intel, aber mit 2,3GHz rechnest halt recht langsam.
da fährst mit einem q9550 übertaktet auf 3,6GHz besser ;) (auch mit nur halb sovielen Kernen)

COLOSSUS

Administrator
GNUltra
Avatar
Registered: Dec 2000
Location: ~
Posts: 12133
Uebertakten wird jemand mit Anspruechen auf 100%ig korrekte Berechnungen wohl hoffentlich nicht. :)

Ich weisz nicht wie es derzeit mit Intel-Mehrsockelloesungen aussieht, aber in der Vergangenheit waren die halt immer emfpindlich teurer als die Einsockelangebote - nicht zuletzt auch wegen des XEON-Zwangs. Klar ist: Man kann auch fuer einen Opteron viel mehr ausgeben, und mit maximal 2.9GHz pro Kern gibt's da auch noch einen Spielraum von guten 20% moeglicher Mehrleistung. Die Frage ist halt, ob das wirklich den finanziellen Aufwand wert ist.

lordy

Bloody Newbie
Registered: Jan 2002
Location: Österreich
Posts: 7
also:

- es handelt sich um das Programm Gromacs [1]. Bisher wird es auf Q9400@2.66GHz Quadcores betrieben. Es hat sich bei Parallelisierungsversuchen über Gigabit-Ethernet herausgestellt dass die Berechnungen sogar langsamer werden sobald mehr als eine physikalische Maschine beteiligt ist. Rechnet man jedoch auf vier statt auf einer CPU in der selben Maschine dann ist der Performancegewinn sehr deutlich.
- schlüsselfertig wäre gefragt
- preislich wäre eine Alternative zu 50 Quadcores a 700 Euro gesucht (also etwa 35k)
- übertaktet soll nichts werden




[1] http://www.gromacs.org/

Castlestabler

Here to stay
Registered: Aug 2002
Location: Wien
Posts: 3776
Z.B.: http://www.deltacomputer.de/produkt...el_server.shtml

Bei den Grossen habe ich auf die Schnelle keine Quad Socket Konfigurationen gefunden.

userohnenamen

leider kein name
Avatar
Registered: Feb 2004
Location: -
Posts: 15864
Dell R900, der würde zumindest 4-Six-cores unterstützen
allerdings is man mit vollbestückung von Six-Core Intel® Xeon® X7460; 2.6GHz, 16MB L3 cache, 1066MHz FSB, 130W TDP und 32gb ram auch schon auf 20k€

Pyros

fire walk with me
Avatar
Registered: Sep 2002
Location: Traun
Posts: 3094
Opteron bis 8 Prozessoren und 4 Cores

http://h10010.www1.hp.com/wwpc/at/d...23-3716072.html

Xeon bis 4 Prozessoren und 6 Cores

http://h10010.www1.hp.com/wwpc/at/d...22-3454575.html

Castlestabler

Here to stay
Registered: Aug 2002
Location: Wien
Posts: 3776
Die nächste Generation mit noch mehr Leistung braucht halt noch ein wenig, da ist dann die Sklaierbarkeit bei Intel wieder besser.
Bei AMD dauert es wohl auch nicht mehr ewig bis zur 6-Kern CPU.
http://www.computerbase.de/news/har...ils_nehalem-ex/

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 50368
Zitat von lordy
also:

- es handelt sich um das Programm Gromacs [1]. Bisher wird es auf Q9400@2.66GHz Quadcores betrieben. Es hat sich bei Parallelisierungsversuchen über Gigabit-Ethernet herausgestellt dass die Berechnungen sogar langsamer werden sobald mehr als eine physikalische Maschine beteiligt ist. Rechnet man jedoch auf vier statt auf einer CPU in der selben Maschine dann ist der Performancegewinn sehr deutlich.
- schlüsselfertig wäre gefragt
- preislich wäre eine Alternative zu 50 Quadcores a 700 Euro gesucht (also etwa 35k)
- übertaktet soll nichts werden


[1] http://www.gromacs.org/

Gromacs probieren wir auch, skaliert aber "extern" eher schwach wie ihr raus gefunden habt. Da wir aber nur mit 100MBit fahren war das nicht verwunderlich. Bei uns skaliert es auf 4 Knoten mit dem Faktor 3,92 (Q9550) was beachtlich ist.
Auf wieviel rechnern habt ihr es probiert - bis ca. 10 Knoten sollte es auch über GBit nicht so schlecht skalieren? Hattet ihr sowas wie Coarsgraining oder Ewaldsumme aktiv?

Ich würde auf alle Fälle höher getaktete Intellösungen nehmen, da Gromacs sehr gut mit dem Takt skaliert und hier einfach die Fließkommaarithmetik gefragt ist. Ein schneller (und ausreichend) Speicher schadet hier auch nicht.

lordy

Bloody Newbie
Registered: Jan 2002
Location: Österreich
Posts: 7
Ich es geht sogar soweit dass wenn wir 2 Rechner (jeweils 4 Cores) direkt mit Kabel verbinden und dann auf 8 Cores insgesamt rechnen, dass dann die Laufzeit länger ist als wenn wir nur einen mit 4 Cores verwenden.
Der Lilli-Cluster der Uni-Linz kommt mit 32 verwendeten Cores (allerdings mit --disable-ia64-asm flag sonst lässt sich Gromacs dort nicht installieren) gerade einmal auf 65,6% der Laufzeit eines Quadcores. Also 4 mal so viele Cpus und gerade einmal 1/3 schneller (wobei die wahrscheinlich deutliche teurere Verkabelung als Ethernet verwenden ...)
Ja PME ist aktiv - sonst kann man es sich wahrscheinlich gleich ganz vergessen.
Deshalb hab ich mir gedacht dass man wahrscheinlich mit einzelnen Rechnern mit sehr vielen CPUs deutlich bessere Ergebnisse erzielt - aber beweisen kann ich es nicht ohne es ausprobiert zu haben.

lg

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 50368
der Lilli hat doch nur GBit Ethernet abe rkenn leider niemand mehr aus dem ZID in Linz, kann nur von Wien sprechen.

Versucht mal es ohne PME ;)

MeshedEwald ist durch die Fouriertransformation der killer von Clustern. Bei uns (Polymere) haben wir PME abgeschalten und rechnen auch Coulomb mit einem Groupbased Cut off (haben das von Material Studios abgeschaut).

evtl geht bei Gromacs so wie bei charmed die FFT nur auf 1-2 Maschinen zu legen.

COLOSSUS

Administrator
GNUltra
Avatar
Registered: Dec 2000
Location: ~
Posts: 12133
Falls ihr es nicht ohnehin schon tut koennte es womoeglich auch einiges bringen, mit ICC statt GCC (oder generell irgendeinem anderen Compiler) zu kompilieren. Wenn ihr eh schon so viel fuer Hardware budgetiert, sollte sich eine Lizenz (es sei denn, das findet eh im akad. Umfeld statt - da sollte die Lizenz iirc gratis sein) dafuer auch noch ausgehen.
Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz