Hardwarefehler: Offline, ohne Downtime
Redundanz mittels Hot-Standby-Konzept vermeidet unnötige Downtime bei Hardwarefehlern.
Ein System Management Board meldete den Ausfall eines Lüfters auf einem unserer Server. Aufgrund redundanter Auslegung der Lüfter handelte es sich um eine Störung, aber keinen Notfall. Der Lüfter wurde nach Zusendung des per SLA abgesicherten Ersatzteils von unserem Rechenzentrumsteam in Kooperation mit unseren Admins ausgetauscht, der Server muss für den Austausch offline sein.
Dank unserer [Hot-Standby-Technik](« ref “features/hochverfuegbare-infrastruktur.md” ») konnte der Austausch des Lüfters ohne
Beeinträchtigung der gehosteten Angebote unserer Mitglieder und
Endkunden erfolgreich gelöst werden.
Ablaufprotokoll zum Austausch des Lüfters
- 23.07.2015 20:30 Uhr
- Zwei Admins migrieren alle virtuellen Maschinen mittels Live Migration auf den dem Produktiv-System zugeordneten Hot-Standby Host.
- 23.07.2015 21:00 Uhr
- Das Rechenzentrumsteam trifft im Rechenzentrum ein. Per Chat wird die Verbindung zum Admin-Team aufgenommen.
- 23.07.2015 21:30 Uhr
- Das Rechenzentrumsteam hat den Host identifiziert und sich vorbereitet, d.h. Arbeitsmaterial zum Rack transportiert. Die Admins fahren das Produktiv-System herunter.
- 23.07.2015 21:45 Uhr
- Die Verkabelung wurde entfernt und der Host aus dem Rack entnommen. Die defekte Komponente wird identifiziert und ausgetauscht.
- 23.07.2015 21:55 Uhr
- Der Host befindet sich wieder im Rack und ist verkabelt. Während der Host bootet, beginnt das Admin-Team mit der Überprüfung des Systems via Remote Management: Ist der Fehler beseitigt? Sind durch die Maßnahme neue Fehler aufgetreten?
- 23.07.2015 22:05 Uhr
- Der Fehler ist beseitigt, Folgefehler sind nicht aufgetreten. Der Host hat erfolgreich gebootet und zeigt keinerlei Software-Probleme. Die Echtzeitreplikation hat innerhalb von zwei Minuten (über 10 GBE) die Synchronisation vollzogen. Das Rechenzentrumsteam verlässt den Schauplatz.
- 23.07.2015 22:10 Uhr
- Die Rückmigration der virtuellen Maschinen per Live Migration läuft.
- 23.07.2015 22:15 Uhr
- Die Rückmigration ist abgeschlossen.
Fazit
Hardwarefehler sind früher oder später zu erwarten. Ohne eine interne Redundanz besteht für den Austausch des Lüfters ein Notfall (hier evtl. Überhitzung), der mit einem Ausfall aller Dienste von ca. 2 Stunden verbunden ist.
Aufgrund der von der Hostsharing eG vorgehaltenen internen Redundanz auf verschiedenen Ebenen werden Beeinträchtigungen der Mitglieder, Kunden und Nutzer der gehosteten Angebote vermieden.
Das Hot-Standby-Konzept der Hostsharing eG vermeidet den Ausfall der von den Mitgliedern und deren Kunden gehosteten Angebote, außerplanmäßige Wartungsfenster werden vermieden.