OVH Community, your new community space.

RPS Zwischenfall vom 22. Januar


delphi
24.01.09, 11:49
Aye, gut zu wissen. War entsetzt, als plötzlich der Server nicht mehr da war und ich nicht wusste wieso, seit wann und wie lange noch .. vor allem hatte ich kurz vorher ein wenig rumgebastelt und befürchtet, ich hätte es kaputt gemacht. Aber dann ging's ja plötzlich wieder

Und der eine Gratismonat ist auch eine schöne Entschädigung - danke schonmal!

filewalker
24.01.09, 08:42
Die Solaris-Storage-Server erzeugen ja dank ZFS täglich einen Snapshot:
Code:
miramis:/.zfs/snapshot# pwd
/.zfs/snapshot
miramis:/.zfs/snapshot# ls -la
insgesamt 2
dr-xr-xr-x  3 root root  3 2009-01-19 13:38 .
dr-xr-xr-x  3 root root  3 2009-01-19 13:38 ..
drwxr-xr-x 21 root root 21 2009-01-19 14:19 2009-01-23
Meinte im Forum/auf der Mailingliste mal gelesen zu haben, das geplant ist diese Snapshots auch gleich als Backups vorzuhalten.

@OVH: Gibt es in dieser Richtung etwas Neues?

aPollO
23.01.09, 09:48
kann das mal bitte einer übersetzen der das versteht? google kann mir zwar sagen das es was mit der stromversorgung zu hat und das 8 SAN betroffen sind und das es menschliches versagen war aber wirklich verstehen tu ich den zusammenhand nicht.

trotzdem danke für den hionweis und find ich gut das es eine entschädigung gibt. jetzt bin ich doch wieder posotiv überrascht von ovh

kann nur sagen weiter so jungs, ich deke ihr leistet das gute arbeit ;-)

oder das einzige wort was ich wohl in französisch kann

continuez ;-) OVH

Doridian
23.01.09, 09:09
Dank Google Translator kann ich das sogar etwas verstehen.
Hauptsache es bzw. mein Server läuft bald wieder.
Aber der 1 Monat gratis ist wirklich nett.

baldi
23.01.09, 09:05
wow, das ist nett von ovh

obwohl solche fehler _nicht_ passieren sollte, aber die techniker sind auch nur menschen *g*

oles@ovh.net
23.01.09, 08:30
Guten Tag,

gestern Nachmittag und bis spät in die Nacht hatten wir einen Zwischenfall, der 20% der RPS Kunden betroffen hat.

Es handelt sich um ein Problem mit der Stromversorgung von 8 SANs. Vor einer Woche haben unsere Teams in dem Saal mit den SANs an einem der beiden elektrischen Eingänge gearbeitet (um neue SANs hinzuzufügen). Insgesamt haben wir in diesem Saal 40 SANs in Produktion, und Platz für 120. Für diese Arbeiten wurde einer der Stromeingänge unterbrochen, aber nach Abschluss der Arbeiten wurde ein menschlicher Fehler beim Wiederanschluss von 8 SANs gemacht. Gestern sind dann während des Tests der Stromaggregate die 8 schlecht angeschlossenen SANs vom Strom getrennt worden und ausgefallen. Der Fehler wurde schnell korrigiert, aber es dauert mehrere Stunden, bis die SANs die Dienste wieder zur Verfügung stellen können. Das Problem mit der Dauer liegt an einem Bug unter Solaris, der die Zeit für die Rückkehr zum Betrieb eines SAN auf 2 bis 12 Stunden erhöht (je nachdem wie viele Filesysteme gemountet werden müssen und ob mit oder ohne Snapshot). Wir arbeiten mit SUN zusammen an der Verbesserung der Dauer des Neustarts eines SAN, aber im Moment haben wir noch diesen Bug. Kurz gesagt, 18% der RPS waren für 2 Stunden ausgefallen, und 2% für 12 Stunden (ein SAN hat sehr lange gebraucht, um wieder hochzufahren). Wir prüfen auch, wie wir diese Art von dummen aber menschlich möglichen Fehlern verhindern können.

Alle von diesem Problem betroffenen Kunden werden 1 kostenlosen Monat für Ihren RPS bekommen. Spätestens am Dienstag werden sie eine E-Mail diesbezüglich erhalten.

Wir möchten uns für diesen Zwischenfall aufrichtig bei Ihnen entschuldigen.

Um mehr zu erfahren:

http://forum.ovh.de/showthread.php?t=5658
http://forum.ovh.de/showthread.php?t=5671

Mit freundlichen Grüssen

Octave