FireGuy am Abend der 2. Downtime
Wenn wirklich 2 Raptoren kaputt sind, dann können genauso auch gleich alle Raptoren im Oa*** sein. Wenn das wirklich so is, dann nehm ich das ganze Klumpat und hau's weg. Dann schei** ma in Zukunft auf den Server. Dann lass mas bleiben!
So, oder so in etwa klangen die Worte von Fg als ich ihm die aktuelle Lage um unseren Server erklärt habe. Die ganze Sache war nicht ganz so einfach, deshalb muss ich noch ausholen und am ersten Tag beginnen:
Es ist Donnerstag Abend, alles verläuft nach Plan! Das liegt allerdings daran, dass wir gerade erst in das Auto einsteigen. Nun, wir sind bestens ausgerüstet und begeben uns ins Interxion im 21. Bezirk, wo der o.v.e.r.clockers.at Server steht. Wir wollen endlich das
Mainboard austauschen, dass uns schon seit einiger Zeit ärger bereitet und immer wieder 5-minütige Downtimes und ein Software Raid inklusive ein paar unheimlichen "
Seek-Errors" bei den Platten beschert.
Vo beim Riddick Look-a-like Contest
Gesagt getan, wir bauen statt unserem Asus K8N-DL ein brandneues Tyan K8HM ein. Technisch überhaupt kein Problem, wir sind ja schliesslich geübt im Umgang mit Hardware, auch wenn die Bedingungen in einem Rechenzentrum nicht unbedingt die vorteilhaftesten sind - nein, dort ist es nicht LAUT!
Gleich anschliessend geht es an die Umbettung unseres treuen Debian Sarge. Nachdem wir bis jetzt ja nur ein Software Raid hatten, beim Asus streikt der Raidcontroller, wollen wir diesmal alles, und bereiten gleich einmal ein Hardware Raid 1 mit 2x 74 GB Raptoren vor. Wer denkt die Geschichte hätte jetzt gleich ein Ende, der verkalkuliert sich (ähnlich wie wir es getan haben). Das Raid wird, egal was wir tun, nicht erkannt. Der Treiber für den Controller - nie wieder Broadcom & SATA - lässt sich auf neueren Kernels nicht kompilieren und wird eigentlich gar nicht mehr offiziell unterstützt. Juhu!
Nach langem Kampf entscheiden wir uns wieder für ein Software Raid per mdadm und verlassen das Rechenzentrum. Es ist bereits 8h früh..
Neuer Tag, neues Glück. Ich wache mit dem Anruf auf, dass oc.at wieder down ist. "Spitzenmäßig", denk ich mir, "denn ich habe heute ohnehin nichts vor!". Also, wieder ab ins Rechenzentrum, diesmal hab ich unseren oc.at Member Jackinger im Schlepptau. Beim Server angekommen riecht es schon richtig nach Plattenfehlern - Uncorrectable Seek-Error.. auch hier darf das passende "Juhu" nicht fehlen!
Nun gut, wieder eine Platte kaputt? Wieder der Controller schuld? Keine Ahnung, wir wissen es nicht. Nach langem Rumspielen beschliessen wir die Kiste einzupacken und die Sache in Ruhe anzugehen. Auf die schnelle können wir jetzt kein stabiles System mehr basteln.
..obwohl es eigentlich nichts zu lachen gab
Neuer Tag, altes Leiden. Der Server sitzt neben mir und fadisiert sich stromlos. Ich glaube er fühlt sich bei mir nicht daheim. Wir beschliessen einen ordentlichen SATA-Controller zu kaufen, kurz nachdem wir erkannt haben, dass wir kein Intel Quadcore Serversystem am Samstag erstehen können. Es wird also nur der 3-ware Escalator, aber die teure Version mit 128 MB ECC. Ramsch haben wir ja mittlerweile schon genug in den Server eingebaut, wenn ich noch einmal an die letzten Mainboards erinnern darf.
So, wir bauen die Karten ein und testen. Super, Raid wird erkannt. Dann einfach nur mehr die gesicherten Daten draufspielen und das wäre es. Doch auch das will man uns nicht gönnen. Es hilft kein fdisk, kein tune2fs und auch kein fsck - es schaut schlecht aus, das Backupimage können wir nicht mittels "dd" auf das Raid spielen ohne nachher dieselben Lesefehler wie zuvor zu bekommen. Wir fragen uns was da wohl los sein kann.
Nach unzähligen Versuchen die Daten richtig zu übernehmen, entdecken wir seltsame Zahlen in der Partitionstabelle der zuletzt benutzten Platte. Nun war es leicht zu erkennen, dass wir seit einiger Zeit mit einer kaputten Partitionstabelle online waren. Die Swap-partition war quasi komplett ausserhalb des physischen Bereichs der Platte. Warum genau das so ist, wissen wir nicht. Wir vermuten das Software Raid und/oder zwei unterschiedlich große 74 GB Raptoren als Wurzel allen Übels. Wie auch immer - eine Lösung muss her!
Ich tu noch immer nur so!
Mittlerweile befinde ich mich in einer gewissen Trance, das Keyboard bedient sich teilweise von selbst. Zumindest fühlt es sich so an währenddessen ich Debian Etch auf dem Hardware Raid 1 aufsetze, um danach die neu installierte Rootpartition mit der alteingesessenen zu tauschen. Ein haariges Unterfangen, aber mit einigem Zeitaufwand gelingt es sogar. Das Ende scheint nahe, auf zurück ins Rechenzentrum - diesmal meine Mutter im Gepäck, der Server ist leider nicht der leichteste.
Mit diesen Worten breche ich einen neuen Rekord:
3 Tage hintereinander im Interxion! Nach dem kurzen Hochgefühl geht es an den Einbau - es ist übringens 2:30; aber das 2:30, das zweieinhalb Stunden nach Mitternacht auf der Uhr steht. Ok, auf der Digitaluhr würde es stehen..
Bevor wir heimfahren können, müssen schnell noch ein paar Probleme mit der Netzwerkkarte gefixt werden. "Connection timed out" mit einer statischen IP schon mal erlebt? Wir hiermit schon. Währenddessen ich an dem Problem arbeite, kommt mir seltsamerweise immer wieder der Spruch "
Linux is free if your time is worthless" in den Sinn. Dieser fiel übrigens in den letzten Tagen häufiger. Um 5 Uhr früh verlasse ich mit meiner Mutter das Rechenzentrum. Der Server läuft wieder..
» Beitrag diskutieren (217 Kommentare)