NVIDIA GPU Last plotten
GrandAdmiralThrawn 24.01.2023 - 08:19 2827 6
GrandAdmiralThrawn
XP Nazi
|
Morgen,
Ich wollte Mal fragen ob jemand einen einfachen Weg kennt, um GPU Auslastung aufzuzeichnen bzw. in einen Graphen zu plotten. Genauer geht es um NVIDIA Tesla Karten + time-shared und MIG Mode vGPUs mit GRID Treiber. Bisher habe ich qnvsm, nvtop und gpustat versucht. Die laufen zwar alle, aber haben ein zu enges, maximales Zeitfenster für die Aufzeichnung, z.B. 2 Stunden bei qnvsm. Ich würde gerne über mehrere Wochen aufzeichnen und plotten lassen können, z.B. ein Wert alle 10 oder alle 60 Sekunden, sowas.
Jetzt könnte ich mir das z.B. mit gpustat und sed/awk usw. selbst loggen und dann billig in's Libreoffice Calc reinziehen, aber ich wollte nur fragen, ob's was fertiges gibt. Das Grafana, das in unser RHV System integriert ist hat leider keine Funktionalität für's Monitoring unserer vGPUs dabei, sonst wär's ja perfekt gewesen. Aber grade das fehlt.
Kennt da jemand was simples?
Danke!
|
Viper780
Er ist tot, Jim!
|
Grafana ist ja nur die Anzeige - du kannst mal schauen ob du eins deiner Tools in Grafana einfach anbinden kannst. Sprich du hast einen Agent welche die Daten in eine DB schreibt (meist InfluxDB oder Graphite) und Grafana stellt die Daten dar. Ich habe mir mal was ähnliches für einen Kubernetes Cluster angeschaut und da hab ich den GPU Operator von nvidia genommen https://github.com/NVIDIA/gpu-operatorEs gibt auch einen Prometheus exporter https://github.com/NVIDIA/dcgm-exporter (sorry wenn ich bei der ursprünglichen Frage nicht helfen kann) Edit fürs einfache Speichern und plotten wird als Quelle auch nvidia-smi aus dem Treiber reichen https://developer.nvidia.com/nvidia...ement-interface
Bearbeitet von Viper780 am 24.01.2023, 08:49
|
GrandAdmiralThrawn
XP Nazi
|
Ok, nvidia-smi habe ich natürlich drauf, das wäre dann in allen VMs mit vGPU sowieso dabei. Das bundled Grafana wollte ich eigentlich nicht unbedingt verändern, weil diese Änderungen wahrscheinlich weg sind, wenn man den Host bzw. die Management Engine vom RHV neu deployed / upgraded.
Werde ich wohl wirklich selber basteln müssen. Die anderen, genannten Komponenten schauen mir für das was ich gerne hätte ein bissl überkompliziert aus.
Bearbeitet von GrandAdmiralThrawn am 24.01.2023, 12:17
|
COLOSSUS
AdministratorGNUltra
|
Wenn du was hast, das dir die Last auf der CLI als Float oder Integer ausgibt, kannst du RRDtool innerhalb weniger Minuten deine Graphing-Loesung basteln. Es muss ja nicht immer Cloud-native O11y Hipstershit aus dem 4. Zukunftsjahrtausend sein.
|
GrandAdmiralThrawn
XP Nazi
|
Also Die Last kriege ich recht einfach raus. RRDTool kenne ich noch nicht, aber nachdem du "innerhalb weniger Minuten" gesagt hast, hast bei mir schon den richtigen Knopf gedrückt! Das schaue ich mir Mal an!
|
charmin
Super Moderator10x
|
ich verwende das da: aber bei dir rennt nix im docker oder? bild mir aber ein dass netdata auch ganz normal die gpu last ohne docker auslesen kann. es überwacht halt zusätzlich noch die laufenden docker instanzen iirc GitHub - D34DC3N73R/netdata-glibc: netdata with glibc package for use with nvidia-docker2netdata with glibc package for use with nvidia-docker2 - GitHub - D34DC3N73R/netdata-glibc: netdata with glibc package for use with nvidia-docker2 Link: github.com
|
GrandAdmiralThrawn
XP Nazi
|
Docker haben wir stellenweise in manchen VMs rennen, aber nicht bei den vGPU Deep Learning Instanzen. Ich würd's "ganz normal" machen, das RRDtool gibt's schon als Package im RHEL, das wir als VM Guests nutzen. Gut, netdata zwar auch, aber ich schau mir zuerst Mal RRDtool an. Kann ich eh auf meiner lokalen Maschine auch mit beidem rumspielen, weil da rennt's gleiche Betriebssystem wie auf den VMs.
|