"We are back" « oc.at

Grobe Probleme (Server, 3ware RAID) - was könnts da haben?

jives 17.11.2009 - 23:33 1008 4
Posts

jives

And the science gets done
Avatar
Registered: Sep 2001
Location: Baden
Posts: 3548
Ich hoffe einige der Serveradmins und RAID-Gurus hier im Forum zu folgendem Problem Tipps geben.

Ich komm gerade von einem Freund heim, dessen Firmenserver sich heute vormittag verabschiedet hat. Vorab zum Setup: Es handelt sich um einen 0815 Server mit einem 3ware 9650 RAID-Controller (PCIe, 4xSATA), auf dem ein Ubuntu Server mit VMware Server läuft. In diesem wiederum leben eine SBS-Installation und eine WinXP-Installation. RAID ist Level 1, mit zwei 1TB-HDDs. Dateisystem ist ext3.

Nun hat sich in letzter Zeit der VMware Server immer wieder aufgehängt, bis heute nacht der ganze Server während dem Backup eingefroren ist und daraufhin neu gestartet wurde. Ubuntu ist immerhin noch hochgefahren, allerdings wollte keines der OS in der VMware mehr starten. Der Versuch, einmal ein Backup vom Iststand zu machen hat dann zu einem weiteren Freeze geführt, woraufhin dann auch Ubuntu die Mitarbeit verweigert hat. So weit meine Infos - leider weiß ich nichts von genauen Fehlermeldungen oder genaueren Beschreibungen.

Wir haben jetzt die Kiste mit Knoppix gebootet und versucht, die Platten im RAID zu mounten, was mit einer Warnung das FS betreffend quittiert wurde. Ein anschließendes fsck hat dann einen Haufen an Fehlern auf dem betreffenden Array aufgezeigt, konnte aber immerhin das FS retten und wir konnten das Array mounten. Momentan läuft ein Backup der Daten - ein ganzer Haufen ist allerdings im lost+found gelandet.

Leider bin ich ziemlich ratlos, was hier passiert sein könnte. Dass beide Platten gleichzeitig sterben kann ja wohl kaum sein. Ein Fehler _vor_ dem RAID-Controller (Software, andere Hardware) wird kaum das gesamte FS zerschießen. Eine Platte sollte ja auch nicht das ganze Array in den Abgrund reißen - bleibt für mich als einzige Fehlerquelle der RAID-Controller. Der scheint jetzt allerdings ja brav zu laufen...
Was glaub ihr, was hier passiert sein könnte? Lässt sich überprüfen, ob der Controller in Ordnung ist?

Die große Frage ist nämlich, wie man jetzt weiter vorgehen soll? Vermutlich wird morgen mal das System neu gestartet und dann geschaut, was passiert. Neu aufgesetzt wäre der zugrunde liegende Ubuntu Server ja schnell, und von den VMs sind (jetzt hoffentlich ganz aktuelle) Backups vorhanden. Laufen sollte die Kiste also ziemlich schnell wieder, nur wie verhindert man, dass sowas nochmal auftritt?

Wäre für jeden Input äußerst dankbar - tia jedenfalls ;)

jives

And the science gets done
Avatar
Registered: Sep 2001
Location: Baden
Posts: 3548
Wirklich niemand eine Idee?

Das Backup der Daten (530GB, vorgestern (!) um ca. 20:00 gestartet) läuft übrigens immer noch und spuckt ab und zu E/A-Fehler aus. Wir sollten heute eine ordentliche externe Platte (= eine die groß genug ist) bekommen und schaufeln dann noch zusätzlich die Daten mit dd rüber.

Neue Festplatten und neuer Controller sind jetzt unterwegs und sollten heute reinkommen, die alten wandern zur RMA. Die Frage ist nur, ob das reicht...

Crash Override

BOfH
Registered: Jun 2005
Location: Germany
Posts: 2951
Ich würd eher auf Ram tippen.
Läuft auf dem Ubuntu noch was ausser VMWare Server? Wenn nicht migrire besser gleich auf ESXi. Hat Starke Performancevorteile und ist auch stabiler.

schizo

Produkt der Gesellschaft
Avatar
Registered: Feb 2003
Location: Vienna
Posts: 2568
Zitat von Crash Override
Ich würd eher auf Ram tippen.
Läuft auf dem Ubuntu noch was ausser VMWare Server? Wenn nicht migrire besser gleich auf ESXi. Hat Starke Performancevorteile und ist auch stabiler.

Ich würde auch mal generell den Server testen.
Lass mal memtest drüberlaufen, ein Testrun mit stresslinux wär auch nicht verkehrt. Eventuell handelt es sich auch um Hitzeprobleme aufgrund verdreckten Kühlkörpern.

Ein ESX ist sicherlich praktisch, jedoch solltest du vor der Anschaffung die Kompatibilitätsliste durchschauen. Ein ESX rennt leider nicht mit jeder Hardware.

jives

And the science gets done
Avatar
Registered: Sep 2001
Location: Baden
Posts: 3548
Danke für die Tipps! Wir haben den Server zum laufen gebracht, die Platten und den Controller getauscht und das VM-Setup gekillt (WinXP wird nicht mehr benötigt). Es läuft jetzt nur noch der SBS 2008. Einen Speichertest werden wir trotzdem machen.

Hitzeprobleme kann ich praktisch ausschließen, außer bei den HDDs. Da sind alle vier (mein Fehler weiter oben - es ist ein RAID10 mit 4 500GB WD Server-Platten) in einem Käfig verbaut, und dementsprechend eng ist es dort. Ein 100mm-Lüfter wäre vorgesehen, wurde aber nie verbaut - warum auch immer. Das wird jetzt nachgeholt. Sonst ist in dem Tower nur der Controller verbaut und alle Kabel sauber verlegt. Der (Original-)CPU-Kühler ist frei von anderem Zeugs, und ein weiterer 120mm-Lüfter ist auch vorhanden.
Bearbeitet von jives am 21.11.2009, 18:22
Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz