Grobe Probleme (Server, 3ware RAID) - was könnts da haben? - Forum

jives

And the science gets done

Registered: Sep 2001
Location: Baden
Posts: 3548

17.11.2009 - 23:33

Ich hoffe einige der Serveradmins und RAID-Gurus hier im Forum zu folgendem Problem Tipps geben.

Ich komm gerade von einem Freund heim, dessen Firmenserver sich heute vormittag verabschiedet hat. Vorab zum Setup: Es handelt sich um einen 0815 Server mit einem 3ware 9650 RAID-Controller (PCIe, 4xSATA), auf dem ein Ubuntu Server mit VMware Server läuft. In diesem wiederum leben eine SBS-Installation und eine WinXP-Installation. RAID ist Level 1, mit zwei 1TB-HDDs. Dateisystem ist ext3.

Nun hat sich in letzter Zeit der VMware Server immer wieder aufgehängt, bis heute nacht der ganze Server während dem Backup eingefroren ist und daraufhin neu gestartet wurde. Ubuntu ist immerhin noch hochgefahren, allerdings wollte keines der OS in der VMware mehr starten. Der Versuch, einmal ein Backup vom Iststand zu machen hat dann zu einem weiteren Freeze geführt, woraufhin dann auch Ubuntu die Mitarbeit verweigert hat. So weit meine Infos - leider weiß ich nichts von genauen Fehlermeldungen oder genaueren Beschreibungen.

Wir haben jetzt die Kiste mit Knoppix gebootet und versucht, die Platten im RAID zu mounten, was mit einer Warnung das FS betreffend quittiert wurde. Ein anschließendes fsck hat dann einen Haufen an Fehlern auf dem betreffenden Array aufgezeigt, konnte aber immerhin das FS retten und wir konnten das Array mounten. Momentan läuft ein Backup der Daten - ein ganzer Haufen ist allerdings im lost+found gelandet.

Leider bin ich ziemlich ratlos, was hier passiert sein könnte. Dass beide Platten gleichzeitig sterben kann ja wohl kaum sein. Ein Fehler _vor_ dem RAID-Controller (Software, andere Hardware) wird kaum das gesamte FS zerschießen. Eine Platte sollte ja auch nicht das ganze Array in den Abgrund reißen - bleibt für mich als einzige Fehlerquelle der RAID-Controller. Der scheint jetzt allerdings ja brav zu laufen...
Was glaub ihr, was hier passiert sein könnte? Lässt sich überprüfen, ob der Controller in Ordnung ist?

Die große Frage ist nämlich, wie man jetzt weiter vorgehen soll? Vermutlich wird morgen mal das System neu gestartet und dann geschaut, was passiert. Neu aufgesetzt wäre der zugrunde liegende Ubuntu Server ja schnell, und von den VMs sind (jetzt hoffentlich ganz aktuelle) Backups vorhanden. Laufen sollte die Kiste also ziemlich schnell wieder, nur wie verhindert man, dass sowas nochmal auftritt?

Wäre für jeden Input äußerst dankbar - tia jedenfalls

jives

And the science gets done

Registered: Sep 2001
Location: Baden
Posts: 3548

19.11.2009 - 10:06

Wirklich niemand eine Idee?

Das Backup der Daten (530GB, vorgestern (!) um ca. 20:00 gestartet) läuft übrigens immer noch und spuckt ab und zu E/A-Fehler aus. Wir sollten heute eine ordentliche externe Platte (= eine die groß genug ist) bekommen und schaufeln dann noch zusätzlich die Daten mit dd rüber.

Neue Festplatten und neuer Controller sind jetzt unterwegs und sollten heute reinkommen, die alten wandern zur RMA. Die Frage ist nur, ob das reicht...

Crash Override

BOfH

Registered: Jun 2005
Location: Germany
Posts: 2951

19.11.2009 - 10:18

Ich würd eher auf Ram tippen.
Läuft auf dem Ubuntu noch was ausser VMWare Server? Wenn nicht migrire besser gleich auf ESXi. Hat Starke Performancevorteile und ist auch stabiler.

schizo

Produkt der Gesellschaft

Registered: Feb 2003
Location: Vienna
Posts: 2568

20.11.2009 - 10:59

Zitat von Crash Override
Ich würd eher auf Ram tippen.
Läuft auf dem Ubuntu noch was ausser VMWare Server? Wenn nicht migrire besser gleich auf ESXi. Hat Starke Performancevorteile und ist auch stabiler.

Ich würde auch mal generell den Server testen.
Lass mal memtest drüberlaufen, ein Testrun mit stresslinux wär auch nicht verkehrt. Eventuell handelt es sich auch um Hitzeprobleme aufgrund verdreckten Kühlkörpern.

Ein ESX ist sicherlich praktisch, jedoch solltest du vor der Anschaffung die Kompatibilitätsliste durchschauen. Ein ESX rennt leider nicht mit jeder Hardware.

jives

And the science gets done

Registered: Sep 2001
Location: Baden
Posts: 3548

21.11.2009 - 18:20

Danke für die Tipps! Wir haben den Server zum laufen gebracht, die Platten und den Controller getauscht und das VM-Setup gekillt (WinXP wird nicht mehr benötigt). Es läuft jetzt nur noch der SBS 2008. Einen Speichertest werden wir trotzdem machen.

Hitzeprobleme kann ich praktisch ausschließen, außer bei den HDDs. Da sind alle vier (mein Fehler weiter oben - es ist ein RAID10 mit 4 500GB WD Server-Platten) in einem Käfig verbaut, und dementsprechend eng ist es dort. Ein 100mm-Lüfter wäre vorgesehen, wurde aber nie verbaut - warum auch immer. Das wird jetzt nachgeholt. Sonst ist in dem Tower nur der Controller verbaut und alle Kabel sauber verlegt. Der (Original-)CPU-Kühler ist frei von anderem Zeugs, und ein weiterer 120mm-Lüfter ist auch vorhanden.

Bearbeitet von jives am 21.11.2009, 18:22

jives And the science gets done Registered: Sep 2001 Location: Baden Posts: 3548	17.11.2009 - 23:33 Ich hoffe einige der Serveradmins und RAID-Gurus hier im Forum zu folgendem Problem Tipps geben. Ich komm gerade von einem Freund heim, dessen Firmenserver sich heute vormittag verabschiedet hat. Vorab zum Setup: Es handelt sich um einen 0815 Server mit einem 3ware 9650 RAID-Controller (PCIe, 4xSATA), auf dem ein Ubuntu Server mit VMware Server läuft. In diesem wiederum leben eine SBS-Installation und eine WinXP-Installation. RAID ist Level 1, mit zwei 1TB-HDDs. Dateisystem ist ext3. Nun hat sich in letzter Zeit der VMware Server immer wieder aufgehängt, bis heute nacht der ganze Server während dem Backup eingefroren ist und daraufhin neu gestartet wurde. Ubuntu ist immerhin noch hochgefahren, allerdings wollte keines der OS in der VMware mehr starten. Der Versuch, einmal ein Backup vom Iststand zu machen hat dann zu einem weiteren Freeze geführt, woraufhin dann auch Ubuntu die Mitarbeit verweigert hat. So weit meine Infos - leider weiß ich nichts von genauen Fehlermeldungen oder genaueren Beschreibungen. Wir haben jetzt die Kiste mit Knoppix gebootet und versucht, die Platten im RAID zu mounten, was mit einer Warnung das FS betreffend quittiert wurde. Ein anschließendes fsck hat dann einen Haufen an Fehlern auf dem betreffenden Array aufgezeigt, konnte aber immerhin das FS retten und wir konnten das Array mounten. Momentan läuft ein Backup der Daten - ein ganzer Haufen ist allerdings im lost+found gelandet. Leider bin ich ziemlich ratlos, was hier passiert sein könnte. Dass beide Platten gleichzeitig sterben kann ja wohl kaum sein. Ein Fehler _vor_ dem RAID-Controller (Software, andere Hardware) wird kaum das gesamte FS zerschießen. Eine Platte sollte ja auch nicht das ganze Array in den Abgrund reißen - bleibt für mich als einzige Fehlerquelle der RAID-Controller. Der scheint jetzt allerdings ja brav zu laufen... Was glaub ihr, was hier passiert sein könnte? Lässt sich überprüfen, ob der Controller in Ordnung ist? Die große Frage ist nämlich, wie man jetzt weiter vorgehen soll? Vermutlich wird morgen mal das System neu gestartet und dann geschaut, was passiert. Neu aufgesetzt wäre der zugrunde liegende Ubuntu Server ja schnell, und von den VMs sind (jetzt hoffentlich ganz aktuelle) Backups vorhanden. Laufen sollte die Kiste also ziemlich schnell wieder, nur wie verhindert man, dass sowas nochmal auftritt? Wäre für jeden Input äußerst dankbar - tia jedenfalls
jives And the science gets done Registered: Sep 2001 Location: Baden Posts: 3548	19.11.2009 - 10:06 Wirklich niemand eine Idee? Das Backup der Daten (530GB, vorgestern (!) um ca. 20:00 gestartet) läuft übrigens immer noch und spuckt ab und zu E/A-Fehler aus. Wir sollten heute eine ordentliche externe Platte (= eine die groß genug ist) bekommen und schaufeln dann noch zusätzlich die Daten mit dd rüber. Neue Festplatten und neuer Controller sind jetzt unterwegs und sollten heute reinkommen, die alten wandern zur RMA. Die Frage ist nur, ob das reicht...
Crash Override BOfH Registered: Jun 2005 Location: Germany Posts: 2951	19.11.2009 - 10:18 Ich würd eher auf Ram tippen. Läuft auf dem Ubuntu noch was ausser VMWare Server? Wenn nicht migrire besser gleich auf ESXi. Hat Starke Performancevorteile und ist auch stabiler.
schizo Produkt der Gesellschaft Registered: Feb 2003 Location: Vienna Posts: 2568	20.11.2009 - 10:59 Zitat von Crash Override Ich würd eher auf Ram tippen. Läuft auf dem Ubuntu noch was ausser VMWare Server? Wenn nicht migrire besser gleich auf ESXi. Hat Starke Performancevorteile und ist auch stabiler. Ich würde auch mal generell den Server testen. Lass mal memtest drüberlaufen, ein Testrun mit stresslinux wär auch nicht verkehrt. Eventuell handelt es sich auch um Hitzeprobleme aufgrund verdreckten Kühlkörpern. Ein ESX ist sicherlich praktisch, jedoch solltest du vor der Anschaffung die Kompatibilitätsliste durchschauen. Ein ESX rennt leider nicht mit jeder Hardware.
jives And the science gets done Registered: Sep 2001 Location: Baden Posts: 3548	21.11.2009 - 18:20 Danke für die Tipps! Wir haben den Server zum laufen gebracht, die Platten und den Controller getauscht und das VM-Setup gekillt (WinXP wird nicht mehr benötigt). Es läuft jetzt nur noch der SBS 2008. Einen Speichertest werden wir trotzdem machen. Hitzeprobleme kann ich praktisch ausschließen, außer bei den HDDs. Da sind alle vier (mein Fehler weiter oben - es ist ein RAID10 mit 4 500GB WD Server-Platten) in einem Käfig verbaut, und dementsprechend eng ist es dort. Ein 100mm-Lüfter wäre vorgesehen, wurde aber nie verbaut - warum auch immer. Das wird jetzt nachgeholt. Sonst ist in dem Tower nur der Controller verbaut und alle Kabel sauber verlegt. Der (Original-)CPU-Kühler ist frei von anderem Zeugs, und ein weiterer 120mm-Lüfter ist auch vorhanden. Bearbeitet von jives am 21.11.2009, 18:22

Grobe Probleme (Server, 3ware RAID) - was könnts da haben?

Forum Index > Hardware > Komponenten > Storage & Memory

jives

jives

Crash Override

schizo

jives