"Christmas - the time to fix the computers of your loved ones" « Lord Wyrm

NVIDIA GPU Last plotten

GrandAdmiralThrawn 24.01.2023 - 08:19 2827 6
Posts

GrandAdmiralThrawn

XP Nazi
Avatar
Registered: Aug 2000
Location: BRUCK!
Posts: 3693
Morgen,

Ich wollte Mal fragen ob jemand einen einfachen Weg kennt, um GPU Auslastung aufzuzeichnen bzw. in einen Graphen zu plotten. Genauer geht es um NVIDIA Tesla Karten + time-shared und MIG Mode vGPUs mit GRID Treiber. Bisher habe ich qnvsm, nvtop und gpustat versucht. Die laufen zwar alle, aber haben ein zu enges, maximales Zeitfenster für die Aufzeichnung, z.B. 2 Stunden bei qnvsm. Ich würde gerne über mehrere Wochen aufzeichnen und plotten lassen können, z.B. ein Wert alle 10 oder alle 60 Sekunden, sowas.

Jetzt könnte ich mir das z.B. mit gpustat und sed/awk usw. selbst loggen und dann billig in's Libreoffice Calc reinziehen, aber ich wollte nur fragen, ob's was fertiges gibt. Das Grafana, das in unser RHV System integriert ist hat leider keine Funktionalität für's Monitoring unserer vGPUs dabei, sonst wär's ja perfekt gewesen. Aber grade das fehlt.

Kennt da jemand was simples?

Danke!

Viper780

Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 49996
Grafana ist ja nur die Anzeige - du kannst mal schauen ob du eins deiner Tools in Grafana einfach anbinden kannst.

Sprich du hast einen Agent welche die Daten in eine DB schreibt (meist InfluxDB oder Graphite) und Grafana stellt die Daten dar.


Ich habe mir mal was ähnliches für einen Kubernetes Cluster angeschaut und da hab ich den GPU Operator von nvidia genommen
https://github.com/NVIDIA/gpu-operator

Es gibt auch einen Prometheus exporter https://github.com/NVIDIA/dcgm-exporter

(sorry wenn ich bei der ursprünglichen Frage nicht helfen kann)

Edit fürs einfache Speichern und plotten wird als Quelle auch nvidia-smi aus dem Treiber reichen https://developer.nvidia.com/nvidia...ement-interface
Bearbeitet von Viper780 am 24.01.2023, 08:49

GrandAdmiralThrawn

XP Nazi
Avatar
Registered: Aug 2000
Location: BRUCK!
Posts: 3693
Ok, nvidia-smi habe ich natürlich drauf, das wäre dann in allen VMs mit vGPU sowieso dabei. Das bundled Grafana wollte ich eigentlich nicht unbedingt verändern, weil diese Änderungen wahrscheinlich weg sind, wenn man den Host bzw. die Management Engine vom RHV neu deployed / upgraded.

Werde ich wohl wirklich selber basteln müssen. Die anderen, genannten Komponenten schauen mir für das was ich gerne hätte ein bissl überkompliziert aus.

Bearbeitet von GrandAdmiralThrawn am 24.01.2023, 12:17

COLOSSUS

Administrator
GNUltra
Avatar
Registered: Dec 2000
Location: ~
Posts: 12073
Wenn du was hast, das dir die Last auf der CLI als Float oder Integer ausgibt, kannst du RRDtool innerhalb weniger Minuten deine Graphing-Loesung basteln. Es muss ja nicht immer Cloud-native O11y Hipstershit aus dem 4. Zukunftsjahrtausend sein.

GrandAdmiralThrawn

XP Nazi
Avatar
Registered: Aug 2000
Location: BRUCK!
Posts: 3693
Also Die Last kriege ich recht einfach raus. RRDTool kenne ich noch nicht, aber nachdem du "innerhalb weniger Minuten" gesagt hast, hast bei mir schon den richtigen Knopf gedrückt! :p

Das schaue ich mir Mal an!

charmin

Super Moderator
10x
Avatar
Registered: Dec 2002
Location: aut_sbg
Posts: 14601
ich verwende das da:
aber bei dir rennt nix im docker oder? bild mir aber ein dass netdata auch ganz normal die gpu last ohne docker auslesen kann.
es überwacht halt zusätzlich noch die laufenden docker instanzen iirc

GrandAdmiralThrawn

XP Nazi
Avatar
Registered: Aug 2000
Location: BRUCK!
Posts: 3693
Docker haben wir stellenweise in manchen VMs rennen, aber nicht bei den vGPU Deep Learning Instanzen. Ich würd's "ganz normal" machen, das RRDtool gibt's schon als Package im RHEL, das wir als VM Guests nutzen. Gut, netdata zwar auch, aber ich schau mir zuerst Mal RRDtool an. Kann ich eh auf meiner lokalen Maschine auch mit beidem rumspielen, weil da rennt's gleiche Betriebssystem wie auf den VMs.

Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz