"Christmas - the time to fix the computers of your loved ones" « Lord Wyrm

(Hardware) Fehler suchen und beheben unter Linux?

Viper780 05.09.2011 - 10:24 3499 18
Posts

Viper780

Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 49905
Grüß euch!

Da es für mich immer wichtiger wird hab ich da mal eine große Frage an euch.

Wie kommt man unter Linux im laufenden Betrieb am einfachsten einem Fehler auf die Schliche (zB Ram defekt, HDD hat zu viele defekte Sektoren,...), wie kann man sich da ganz sicher sein und welche Tools gibts dann dafür dass man zB von der HDD noch was retten kann oder ähnliches

GrandAdmiralThrawn

XP Nazi
Avatar
Registered: Aug 2000
Location: BRUCK!
Posts: 3692
Defekte Sektoren siehst normal mit dmesg, da sollte das System die Sector Remaps reinloggen, hats zumindest bei mir gemacht als eine Velociraptor begonnen hatte zu sterben. Ansonsten kannst die SMART Werte mit den smartmontools + cron periodisch auslesen z.B..

RAM is da schon schwerer, wennst ECC hast, solltest die Corrections ebenfalls im Systemlog sehen. Wenn nicht, hilft nur Memtest denke ich? Der läßt sich auch im laufenden System nebenher ausführen.

Was Datenwiederherstellung angeht, das hängt wohl stark vom Dateisystem ab. Aber da kenne ich mich nicht aus was OSS Dateisysteme angeht, da muß jemand anderer antworten..

Viper780

Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 49905
ok und gibts irgend ein indiz für speicherfehler?

Bei windows hast da ja die Bluescreens und einfach total unterschiedliche treibe rund speicher bereiche dies aufstellt.

EG

thinking with portals
Avatar
Registered: May 2004
Location: 11**
Posts: 3918
Für Datenrettung gibts unter Linux TestDisk.

hth

GrandAdmiralThrawn

XP Nazi
Avatar
Registered: Aug 2000
Location: BRUCK!
Posts: 3692
Symptome für defekten RAM? Nicht eindeutig reproduzierbare random Segmentation Faults, seltsamerweise mal korrupte und mal intakte Tarballs beim Entpacken, sonst auch seltsam korrumpierende Files, und im Extremfall kanns dann auch den Kernel aufstellen, wenns im Kernelspace was zammhaut. Dann hast Panic und die Kiste steht.

Würd aber beim geringsten Verdacht gleich Memtest anwerfen.

Vo

Legend
Editor from hell
Avatar
Registered: Jan 2007
Location: Brunn
Posts: 1016
Oh, ich hatte mal einen reproduzierbaren Effekt: Eine 500 MB große Datei hat sich mit scp nicht kopieren lassen und gescheitert ist es immer an der selben Stelle.

GrandAdmiralThrawn

XP Nazi
Avatar
Registered: Aug 2000
Location: BRUCK!
Posts: 3692
Aber wenn das ein RAM Problem wäre, ließe sich das sehr einfach nachweisen.

echo 3 >/proc/sys/vm/drop_caches
sync


Das haut deinen Filecache komplett weg (Read & Write). Dann probierst das nochmal, und wenns wieder an der selben Stelle kracht, dann ist für dieses aktuelle Problem Mal nicht mehr der RAM schuld.

COLOSSUS

Administrator
GNUltra
Avatar
Registered: Dec 2000
Location: ~
Posts: 12067
Den ECC-Status reporten die Kernelmodule der EDAC-Familie (Error Detection and Correction) via sysfs. Die sollten automatisch geladen werden, wenn Chipset und BIOS sich ueber den ECC-Support des Systems einig sind. `modprobe -l "edac*"` listet alle fuer den Kernel verfuegbaren Module. Es gibt ein Userspace-Utility zum Auslesen der Statusinformationen, nennt sich edac-util (und ist im wesentlichen ein duenner Wrapper um die sysfs-Files der edac-Treiber).

Viper780

Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 49905
klingt gut und gibts sowas in der art auch für non ECC Speicher?

GrandAdmiralThrawn

XP Nazi
Avatar
Registered: Aug 2000
Location: BRUCK!
Posts: 3692
Maximal für Parity, aber dann bleibt das Sys eh mit Kernelpanic stehen. Wenn der RAM aber gar keine Fehlerbehandlung durchführt, kann das System auch keine Fehler melden?!

COLOSSUS

Administrator
GNUltra
Avatar
Registered: Dec 2000
Location: ~
Posts: 12067
Zum Testen von non-ECC-Speicher gibt's auch das Programm memtester, das im Userspace laeuft. Fuer solche Systeme gibt es meines Wissens keine mit EDAC vergleichbare Infrastruktur.

Viper780

Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 49905
eine Infrastruktur hab ich mir eh nicht erwartet memtester sollte ganu das sein was ich suche und ein paar indikatoren hab ich jetzt schon mal danke :)

Gibts was ähnliches für die CPU wie prime95?

Lobo

Here to stay
Avatar
Registered: May 2002
Location: In da Oaschicht
Posts: 2557
mprime ?

Lukas

Here to stay
Avatar
Registered: Feb 2004
Location: ~
Posts: 1883
Für GNU/Linux heißt es mprime. ;)

e: owned by no refresh and Lobo :p

Viper780

Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 49905
*doh*

auf die idee hätt ich natürlich auch kommen können
Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz