Legends never die: GPUPI

Garbage

Elder
The Wizard of Owls

Registered: Jul 2000
Location: GR.ch|TI.ch
Posts: 11467

21.02.2015 - 20:29

Danke für die Aufklärung.

Die letzte Frage die sich mir noch stellt, eigentlich müsste damit ja auch bei APUs die CPU u GPU gleichzeitig gehen.
Also genau das, was AMD ja mit OpenCL seit ewig bewirbt.

mat

Administrator
Legends never die

Registered: Aug 2003
Location: nö
Posts: 25649

21.02.2015 - 22:04

Es wäre möglich, auch mit Intel + NVIDIA. Nur habe ich es in die aktuelle Version nicht eingebaut und zwar aus 2 Gründen: Erstens verwende ich derzeit jeweils einen Thread pro Device, um die GPUs so ideal wie möglich zu versorgen. Wäre jetzt die CPU auch unter Volllast, würde die Performance wahrscheinlich unterm Strich schlechter ausfallen. Daher müsste einerseits der Scheduler mit mehreren OpenCL Contexts umgehen können, um mehrere Plattformen miteinander zu kombinieren, andererseits müsste per Fission-Extension die CPU in Subdevices aufgeteilt werden, damit nur spezielle Cores mit OpenCL beschäftigt sind, der Rest mit dem Scheduling der Rechenpakete. Das wäre eine sehr heikle Angelegenheit zur Konfiguration des Benchmarks und würde eher weniger Spaß machen. Der zweite Grund ist folglich, dass die CPU trotz all dem Aufwand kaum einen Geschwindigkeitsvorteil im Vergleich zu den GPUs bringen wird.

Vielleicht mach ichs trotzdem irgendwann mal. Speziell die Kombination AMD GPU und NVIDIA GPU (also mehrere OpenCL Plattformen) fände ich sexy.

mat

Administrator
Legends never die

Registered: Aug 2003
Location: nö
Posts: 25649

23.02.2015 - 13:36

Bin gerade auf eine neue, sehr interessante Sache bei GPUPI 2.0 draufgekommen. Es ist der erste Benchmark, der jede einzelne Grafikkarte getrennt ans Maximum treiben kann. Wenn man also zB 3x GTX 980 drinnen hat, dann kann jede auf ihrer maximalen Taktfrequenz betrieben werden und den Benchmark damit deutlich beschleunigen:

3x ASUS GTX 980 STRIX OC, wobei eine auf 1500 MHz läuft, die anderen auf Stock

mat

Administrator
Legends never die

Registered: Aug 2003
Location: nö
Posts: 25649

23.02.2015 - 13:47

Btw, Kommentar von Massman auf HWBot, ob ihr System überhaupt die neuen Möglichkeiten von GPUPI 2.0 unterstützt:

hwbot.org - View Single Post - GPUPI - SuperPI on the GPU

Yes, it will break HWBOT.

We looked at this issue in the past (remember Lucid Virtu) and it's technically very difficult to add multi-gpu options. This is mainly because how the database is structured and linked to features like the points. The system above would be categorized under 4x GTX 980.

As for points - it seems there aren't that many issues with the benchmark, so I don't see why we can't enable points for it. Maybe we should make work of a seamless integration between the benchmark and HWBOT so submission works as smoothly as XTU does.

Link: forum.hwbot.org

Außerdem ist aktuell wieder die Rede, ob der Benchmark nun offiziell Weltrekordpunkte bekommt. Das wäre ... :eek:

Error404

Dry aged

Registered: Mar 2006
Location: Kimosabe
Posts: 2980

23.02.2015 - 13:52

Naaa, da geht meine Freizeit!

mat

Administrator
Legends never die

Registered: Aug 2003
Location: nö
Posts: 25649

23.02.2015 - 13:58

Geht eh recht flott. Der Benchmark wehrt sich gleich, wenn die Grafikkarten nicht stabil sind. Quad-SLI ist aber sicher trotzdem mühsam, speziell wenn sie unter flüssigem Stickstoff sind. Das würde ich mal gerne sehen, oder muss ich es selbst machen. :cool:

Error404

Dry aged

Registered: Mar 2006
Location: Kimosabe
Posts: 2980

23.02.2015 - 14:13

Ja bitte Mat frier die 4 Karten selbst, dann bist sicher der Erste der einen Bench geschrieben hat UND Weltrekordhalter in einer Person ist! :eek:

Tequilaomega

Little Overclocker

Registered: Apr 2011
Location: Österreich Kär..
Posts: 68

23.02.2015 - 15:21

Hab jetzt auch mal mit meinen 2 290x testen müssen. Unter 10 ging es leider nicht. Doch 10.1 aber alles Invalid. Letzte Stabile waren 10,4.

Frag mich aber gerade ob ich was Falsch eingestellt habe das es Flotter als die 3 980er im letzten Screen von MAT war.

Bearbeitet von Mr. Zet am 05.03.2015, 14:28 (wenn ich auf einem 27" mit 2650x1440 horizontal scrollen muss, dann geht das gar nicht! )

mat

Administrator
Legends never die

Registered: Aug 2003
Location: nö
Posts: 25649

23.02.2015 - 15:43

AMD ist einfach deutlich besser in diesem Benchmark, daran gibt es nichts zu rütteln.

Wenn du jetzt noch mit Batch Size (zB 10M) herumspielst und vielleicht auch mal die Reduktion Sie höher stellst, werden die 10 Sekunden sicher fallen.

Obendrein kannst du noch die Karten einzeln übertakten. Eine der beiden schafft sicher mehr MHz!

Tequilaomega

Little Overclocker

Registered: Apr 2011
Location: Österreich Kär..
Posts: 68

24.02.2015 - 21:12

Hab heute noch einmal probiert die Karten einzeln zu Übertakten und etwas mit den verschiedenen Reduction Size probiert.

Ist das so erlaubt ?

Karten Takten derweil auf 10Mhz gleich Hoch. Viel mehr geht unter Luft nicht bzw mag nicht da morgen alle Teile für den Wakü umbau kommen sollten.

Hab auf jedenfall hier die diese Werte erreicht.

20M / 64 = 10,028 Sek.
20M / 128 = 9,775 Sek.
20M / 256 = 9,751 Sek.

Hier noch die Screen

Bearbeitet von Mr. Zet am 05.03.2015, 14:29 (image thumbs, just use it! )

mat

Administrator
Legends never die

Registered: Aug 2003
Location: nö
Posts: 25649

24.02.2015 - 22:10

Schöner Score! :shake:

Das Anpassen der Parameter ist ein erlaubter Tweak und lastet im Prinzip nur deine Grafikkarten besser aus.

sichNix

Here to stay

Registered: Nov 2014
Location: 1230
Posts: 1088

25.02.2015 - 19:19

gtx770 im werkszustand

eine frage aus technischer richtung: ist der cuda test für die(meine) grafikkarte mehr belastung als der openCL test?
wenn der cuda test ~ bei 50% ist, hab ich die selbe temperatur auf der grafikkarte wie am ende vom openCL test, sie beginnt zu fiepen und die lüfter drehen höher.

mat

Administrator
Legends never die

Registered: Aug 2003
Location: nö
Posts: 25649

25.02.2015 - 19:26

Interessante Beobachtung. Vielleicht hast du die Tests zu knapp hintereinander durchgeführt, sodass die Karte nicht mehr zurück zur Idle-Temperatur kehren konnte?

Ansonsten sollte der CUDA-Kernel (also die Berechnung) eine sehr ähnliche Last pro Core ergeben, auch wenn nicht 100% dieselbe. Unter Umständen ist dennoch die parallele Auslastung eine andere, weil CUDA wie im Screenshot ganz oben erkennbar eine genaue Angabe der Block- und Thread-Aufteilung zulässt und damit eine optimale Ausbeute der GPU zulässt. Bei OpenCL erfolgt dieser Teil automatisch über den Driver.

Tequilaomega

Little Overclocker

Registered: Apr 2011
Location: Österreich Kär..
Posts: 68

26.02.2015 - 08:05

Wann geht Version 2 auf HwBot Online?

mat

Administrator
Legends never die

Registered: Aug 2003
Location: nö
Posts: 25649

26.02.2015 - 08:33

Ich arbeite gerade an einer automatischen HWBot-Submission. Wenn das fertig ist, geht die Version offiziell online. Ich hoffe, dass das am Montag der Fall sein wird, kann es aber nicht versprechen.

Garbage Elder The Wizard of Owls Registered: Jul 2000 Location: GR.ch\|TI.ch Posts: 11467	21.02.2015 - 20:29 Danke für die Aufklärung. Die letzte Frage die sich mir noch stellt, eigentlich müsste damit ja auch bei APUs die CPU u GPU gleichzeitig gehen. Also genau das, was AMD ja mit OpenCL seit ewig bewirbt.
mat Administrator Legends never die Registered: Aug 2003 Location: nö Posts: 25649	21.02.2015 - 22:04 Es wäre möglich, auch mit Intel + NVIDIA. Nur habe ich es in die aktuelle Version nicht eingebaut und zwar aus 2 Gründen: Erstens verwende ich derzeit jeweils einen Thread pro Device, um die GPUs so ideal wie möglich zu versorgen. Wäre jetzt die CPU auch unter Volllast, würde die Performance wahrscheinlich unterm Strich schlechter ausfallen. Daher müsste einerseits der Scheduler mit mehreren OpenCL Contexts umgehen können, um mehrere Plattformen miteinander zu kombinieren, andererseits müsste per Fission-Extension die CPU in Subdevices aufgeteilt werden, damit nur spezielle Cores mit OpenCL beschäftigt sind, der Rest mit dem Scheduling der Rechenpakete. Das wäre eine sehr heikle Angelegenheit zur Konfiguration des Benchmarks und würde eher weniger Spaß machen. Der zweite Grund ist folglich, dass die CPU trotz all dem Aufwand kaum einen Geschwindigkeitsvorteil im Vergleich zu den GPUs bringen wird. Vielleicht mach ichs trotzdem irgendwann mal. Speziell die Kombination AMD GPU und NVIDIA GPU (also mehrere OpenCL Plattformen) fände ich sexy.
mat Administrator Legends never die Registered: Aug 2003 Location: nö Posts: 25649	23.02.2015 - 13:36 Bin gerade auf eine neue, sehr interessante Sache bei GPUPI 2.0 draufgekommen. Es ist der erste Benchmark, der jede einzelne Grafikkarte getrennt ans Maximum treiben kann. Wenn man also zB 3x GTX 980 drinnen hat, dann kann jede auf ihrer maximalen Taktfrequenz betrieben werden und den Benchmark damit deutlich beschleunigen: 3x ASUS GTX 980 STRIX OC, wobei eine auf 1500 MHz läuft, die anderen auf Stock
mat Administrator Legends never die Registered: Aug 2003 Location: nö Posts: 25649	23.02.2015 - 13:47 Btw, Kommentar von Massman auf HWBot, ob ihr System überhaupt die neuen Möglichkeiten von GPUPI 2.0 unterstützt: hwbot.org - View Single Post - GPUPI - SuperPI on the GPU Yes, it will break HWBOT. We looked at this issue in the past (remember Lucid Virtu) and it's technically very difficult to add multi-gpu options. This is mainly because how the database is structured and linked to features like the points. The system above would be categorized under 4x GTX 980. As for points - it seems there aren't that many issues with the benchmark, so I don't see why we can't enable points for it. Maybe we should make work of a seamless integration between the benchmark and HWBOT so submission works as smoothly as XTU does. Link: forum.hwbot.org Außerdem ist aktuell wieder die Rede, ob der Benchmark nun offiziell Weltrekordpunkte bekommt. Das wäre ...
Error404 Dry aged Registered: Mar 2006 Location: Kimosabe Posts: 2980	23.02.2015 - 13:52 Naaa, da geht meine Freizeit!
mat Administrator Legends never die Registered: Aug 2003 Location: nö Posts: 25649	23.02.2015 - 13:58 Geht eh recht flott. Der Benchmark wehrt sich gleich, wenn die Grafikkarten nicht stabil sind. Quad-SLI ist aber sicher trotzdem mühsam, speziell wenn sie unter flüssigem Stickstoff sind. Das würde ich mal gerne sehen, oder muss ich es selbst machen.
Error404 Dry aged Registered: Mar 2006 Location: Kimosabe Posts: 2980	23.02.2015 - 14:13 Ja bitte Mat frier die 4 Karten selbst, dann bist sicher der Erste der einen Bench geschrieben hat UND Weltrekordhalter in einer Person ist!
Tequilaomega Little Overclocker Registered: Apr 2011 Location: Österreich Kär.. Posts: 68	23.02.2015 - 15:21 Hab jetzt auch mal mit meinen 2 290x testen müssen. Unter 10 ging es leider nicht. Doch 10.1 aber alles Invalid. Letzte Stabile waren 10,4. Frag mich aber gerade ob ich was Falsch eingestellt habe das es Flotter als die 3 980er im letzten Screen von MAT war. Bearbeitet von Mr. Zet am 05.03.2015, 14:28 (wenn ich auf einem 27" mit 2650x1440 horizontal scrollen muss, dann geht das gar nicht! )
mat Administrator Legends never die Registered: Aug 2003 Location: nö Posts: 25649	23.02.2015 - 15:43 AMD ist einfach deutlich besser in diesem Benchmark, daran gibt es nichts zu rütteln. Wenn du jetzt noch mit Batch Size (zB 10M) herumspielst und vielleicht auch mal die Reduktion Sie höher stellst, werden die 10 Sekunden sicher fallen. Obendrein kannst du noch die Karten einzeln übertakten. Eine der beiden schafft sicher mehr MHz!
Tequilaomega Little Overclocker Registered: Apr 2011 Location: Österreich Kär.. Posts: 68	24.02.2015 - 21:12 Hab heute noch einmal probiert die Karten einzeln zu Übertakten und etwas mit den verschiedenen Reduction Size probiert. Ist das so erlaubt ? Karten Takten derweil auf 10Mhz gleich Hoch. Viel mehr geht unter Luft nicht bzw mag nicht da morgen alle Teile für den Wakü umbau kommen sollten. Hab auf jedenfall hier die diese Werte erreicht. 20M / 64 = 10,028 Sek. 20M / 128 = 9,775 Sek. 20M / 256 = 9,751 Sek. Hier noch die Screen Bearbeitet von Mr. Zet am 05.03.2015, 14:29 (image thumbs, just use it! )
mat Administrator Legends never die Registered: Aug 2003 Location: nö Posts: 25649	24.02.2015 - 22:10 Schöner Score! Das Anpassen der Parameter ist ein erlaubter Tweak und lastet im Prinzip nur deine Grafikkarten besser aus.
sichNix Here to stay Registered: Nov 2014 Location: 1230 Posts: 1088	25.02.2015 - 19:19 gtx770 im werkszustand eine frage aus technischer richtung: ist der cuda test für die(meine) grafikkarte mehr belastung als der openCL test? wenn der cuda test ~ bei 50% ist, hab ich die selbe temperatur auf der grafikkarte wie am ende vom openCL test, sie beginnt zu fiepen und die lüfter drehen höher.
mat Administrator Legends never die Registered: Aug 2003 Location: nö Posts: 25649	25.02.2015 - 19:26 Interessante Beobachtung. Vielleicht hast du die Tests zu knapp hintereinander durchgeführt, sodass die Karte nicht mehr zurück zur Idle-Temperatur kehren konnte? Ansonsten sollte der CUDA-Kernel (also die Berechnung) eine sehr ähnliche Last pro Core ergeben, auch wenn nicht 100% dieselbe. Unter Umständen ist dennoch die parallele Auslastung eine andere, weil CUDA wie im Screenshot ganz oben erkennbar eine genaue Angabe der Block- und Thread-Aufteilung zulässt und damit eine optimale Ausbeute der GPU zulässt. Bei OpenCL erfolgt dieser Teil automatisch über den Driver.
Tequilaomega Little Overclocker Registered: Apr 2011 Location: Österreich Kär.. Posts: 68	26.02.2015 - 08:05 Wann geht Version 2 auf HwBot Online?
mat Administrator Legends never die Registered: Aug 2003 Location: nö Posts: 25649	26.02.2015 - 08:33 Ich arbeite gerade an einer automatischen HWBot-Submission. Wenn das fertig ist, geht die Version offiziell online. Ich hoffe, dass das am Montag der Fall sein wird, kann es aber nicht versprechen.

Legends never die: GPUPI

Forum Index > Software > Number Crunching

Garbage

mat

mat

mat

Error404

mat

Error404

Tequilaomega

mat

Tequilaomega

mat

sichNix

mat

Tequilaomega

mat