Guten Tag,
gestern Nachmittag und bis spät in die Nacht hatten wir einen Zwischenfall, der 20% der RPS Kunden betroffen hat.
Es handelt sich um ein Problem mit der Stromversorgung von 8 SANs. Vor einer Woche haben unsere Teams in dem Saal mit den SANs an einem der beiden elektrischen Eingänge gearbeitet (um neue SANs hinzuzufügen). Insgesamt haben wir in diesem Saal 40 SANs in Produktion, und Platz für 120. Für diese Arbeiten wurde einer der Stromeingänge unterbrochen, aber nach Abschluss der Arbeiten wurde ein menschlicher Fehler beim Wiederanschluss von 8 SANs gemacht. Gestern sind dann während des Tests der Stromaggregate die 8 schlecht angeschlossenen SANs vom Strom getrennt worden und ausgefallen. Der Fehler wurde schnell korrigiert, aber es dauert mehrere Stunden, bis die SANs die Dienste wieder zur Verfügung stellen können. Das Problem mit der Dauer liegt an einem Bug unter Solaris, der die Zeit für die Rückkehr zum Betrieb eines SAN auf 2 bis 12 Stunden erhöht (je nachdem wie viele Filesysteme gemountet werden müssen und ob mit oder ohne Snapshot). Wir arbeiten mit SUN zusammen an der Verbesserung der Dauer des Neustarts eines SAN, aber im Moment haben wir noch diesen Bug. Kurz gesagt, 18% der RPS waren für 2 Stunden ausgefallen, und 2% für 12 Stunden (ein SAN hat sehr lange gebraucht, um wieder hochzufahren). Wir prüfen auch, wie wir diese Art von dummen aber menschlich möglichen Fehlern verhindern können.
Alle von diesem Problem betroffenen Kunden werden 1 kostenlosen Monat für Ihren RPS bekommen. Spätestens am Dienstag werden sie eine E-Mail diesbezüglich erhalten.
Wir möchten uns für diesen Zwischenfall aufrichtig bei Ihnen entschuldigen.
Um mehr zu erfahren:
http://forum.ovh.de/showthread.php?t=5658
http://forum.ovh.de/showthread.php?t=5671
Mit freundlichen Grüssen
Octave