Ich hoffe einige der Serveradmins und RAID-Gurus hier im Forum zu folgendem Problem Tipps geben.
Ich komm gerade von einem Freund heim, dessen Firmenserver sich heute vormittag verabschiedet hat. Vorab zum Setup: Es handelt sich um einen 0815 Server mit einem 3ware 9650 RAID-Controller (PCIe, 4xSATA), auf dem ein Ubuntu Server mit VMware Server läuft. In diesem wiederum leben eine SBS-Installation und eine WinXP-Installation. RAID ist Level 1, mit zwei 1TB-HDDs. Dateisystem ist ext3.
Nun hat sich in letzter Zeit der VMware Server immer wieder aufgehängt, bis heute nacht der ganze Server während dem Backup eingefroren ist und daraufhin neu gestartet wurde. Ubuntu ist immerhin noch hochgefahren, allerdings wollte keines der OS in der VMware mehr starten. Der Versuch, einmal ein Backup vom Iststand zu machen hat dann zu einem weiteren Freeze geführt, woraufhin dann auch Ubuntu die Mitarbeit verweigert hat. So weit meine Infos - leider weiß ich nichts von genauen Fehlermeldungen oder genaueren Beschreibungen.
Wir haben jetzt die Kiste mit Knoppix gebootet und versucht, die Platten im RAID zu mounten, was mit einer Warnung das FS betreffend quittiert wurde. Ein anschließendes fsck hat dann einen Haufen an Fehlern auf dem betreffenden Array aufgezeigt, konnte aber immerhin das FS retten und wir konnten das Array mounten. Momentan läuft ein Backup der Daten - ein ganzer Haufen ist allerdings im lost+found gelandet.
Leider bin ich ziemlich ratlos, was hier passiert sein könnte. Dass beide Platten gleichzeitig sterben kann ja wohl kaum sein. Ein Fehler _vor_ dem RAID-Controller (Software, andere Hardware) wird kaum das gesamte FS zerschießen. Eine Platte sollte ja auch nicht das ganze Array in den Abgrund reißen - bleibt für mich als einzige Fehlerquelle der RAID-Controller. Der scheint jetzt allerdings ja brav zu laufen...
Was glaub ihr, was hier passiert sein könnte? Lässt sich überprüfen, ob der Controller in Ordnung ist?
Die große Frage ist nämlich, wie man jetzt weiter vorgehen soll? Vermutlich wird morgen mal das System neu gestartet und dann geschaut, was passiert. Neu aufgesetzt wäre der zugrunde liegende Ubuntu Server ja schnell, und von den VMs sind (jetzt hoffentlich ganz aktuelle) Backups vorhanden. Laufen sollte die Kiste also ziemlich schnell wieder, nur wie verhindert man, dass sowas nochmal auftritt?
Wäre für jeden Input äußerst dankbar - tia jedenfalls