We are in the process of migrating this forum. A new space will be available soon. We are sorry for the inconvenience.

Random Reboots


TF_SChw@rZl!cht
21.06.15, 03:14
Hardware/Netzwerk = OVH
Software (auch OS) = Kunde

Auch wenn OVH das image bereitstellt, handelt es sich hierbei um eine Komfortlösung. Letztlich bist dennoch DU ganz alleine für alle Softwaretechnischen Belange verantwortlich und dazu zählt auch das Betriebssystem. Wenn du sowas nicht akzeptieren kannst, dann musst du einen Managed-Server mieten.
Dein Vergleich ist hier also absolut falsch.
Bei dem hier genannten Problem handelt es sich nunmal um einen Treiberkonflikt der von dem im Linuxkernel verwendeten Treiber ausgeht. Dafür kann dein Serverprovider aber nichts.

as1x
21.06.15, 01:53
Zitat Zitat von TF_SChw@rZl!cht
Also ich gehe noch immer davon aus das es dieses realtec Treiber-Problem ist. Wenn dem so ist, dann ist es allerdings nicht so ganz OVHs schuld. Das Tickets nicht beantwortet werden ist natürlich schlecht naja.
[...]
Du findest also, das SYS/OVH nicht für ein ordentliches Image verantwortlich ist?
Es war ja keine custom from scratch Installation, sondern ein Standard Image...

Ich weiss, vergleiche hinken immer etwas. Aber müsste ich auch mit einem Neuwagen vom Hof des Autohauses zur nächsten Werkstatt fahren, um ihn dort durchchecken und eventuelle Reparaturen durchführen zu lassen, weil der Hersteller geschludert hat?

Du merkst schon, ich sehe die Schuld sehr wohl bei SYS/OVH.

Davon abgesehen, habe ich den Server diese Woche auslaufen lassen und weine ihm keine Träne nach

Allen anderen hier im Thread die vom selben oder ähnlichen Problemen geplagt sind, wünsche ich noch viel Glück

TF_SChw@rZl!cht
16.06.15, 07:38
Also ich gehe noch immer davon aus das es dieses realtec Treiber-Problem ist. Wenn dem so ist, dann ist es allerdings nicht so ganz OVHs schuld. Das Tickets nicht beantwortet werden ist natürlich schlecht naja.

Was man allerdings auch noch versuchen könnte .... Es hört sich ja so an, als ob du mehrere Server hast. Logge doch mal auf einen externen Server. ggfls. steht deshalb nichts in den Logs, weil er es nicht mehr schafft auf die HDD zu schreiben, bevor Ende ist und er neu startet. Also mit Syslog (via UDP!) einfach auf einem anderen Server loggen. Ich habe das damals auch leider versäumt zu machen und zu testen aber es wär mal ein Versuch etwas mehr Informationen zu bekommen.

as1x
15.06.15, 22:59
Zitat Zitat von gentlemon
@as1x: Wenn es dich nicht kümmert, lass Ihn auslaufen oder ruf täglich beim Support an und mach da Druck.
[...]
Dazu muss ich etwas ausholen:

Ich war jahrelang (überwiegend zufriedener) Kunde bei OVH. Mit den größeren und teureren Servern bei OVH habe ich beides erlebt: sehr guten sowie auch einfach miserablen Support.
Mit dem Wachstum von OVH und der Masse an Servern die stetig dazugekommen sind, wurde der Support immer schlechter (da vermutlich auch ausgelasteter).
Ist natürlich mein subjektiver Eindruck, vielleicht hatte ich auch einfach Pech mit dem ein oder anderen Ticket.

Aus diversen Gründen bin ich dann komplett von OVH weg zu einem anderen Hoster gegangen.
Jetzt habe ich allerdings ein Anwendungsszenario, zu dem ein kleiner SYS Server perfekt gepasst hätte.
Daher wollte ich es nochmals mit OVH bzw. SYS versuchen und habe diesen Server geordert.

Was mir auch noch negativ aufgefallen ist: im Gegensatz zu OVH besteht bei SYS nicht die Möglichkeit die Techniker im RZ direkt zu kontaktieren?
Jedenfalls bekam ich (ebenfalls seit mehreren Wochen) keine Antwort auf die Frage, warum denn nur 2 von 4 RAM Riegeln getauscht wurden bzw. den Hinweis, dass das Problem dadurch nicht behoben wurde.
Wäre bei Tickets, bei denen es zu einem Eingriff kam, doch recht nützlich finde ich.

Das dieses Experiment nun in 3 Tagen wieder zuende gehen wird, brauche ich wohl nicht zu sagen.
Ich habe wieder Zeit noch Lust "täglich beim Support anzurufen und Druck machen zu müssen", das ein Fehler der augenscheinlich nicht durch den Kunden oder dessen Software verursacht wird, endlich mal behoben wird.
Vielleicht versuche ich morgen nochmal mein Glück, ansonsten darf der nächste Kunde den Server übernehmen und damit Freude haben

PlayMan
15.06.15, 12:54
Das ist nähmlich das Problem, da steht nichts in dem syslog. Ich habe alle logs durch geforscht und gar nichts gefunden.
Ich denke aber das es trotzdem nur ein Mainboard tausch helfen könnte.
Ich habe den Server noch 2 Monate, dann werde ich den auslaufen lassen, natürlich nicht wegen dem Problem, sondern ich brauche schnellere Platten als nur HDD. Bin schon warten, bis der SSD4 frei wird.

Trotzdem vielen dank für eure Hilfe hier, habe das zu schätzen.

gentlemon
15.06.15, 12:42
@as1x: Wenn es dich nicht kümmert, lass Ihn auslaufen oder ruf täglich beim Support an und mach da Druck.

@PlayMan: Du hast ein anderes Problem, in deinem syslog steht bestimmt kurz bevor der Server nicht mehr erreichbar ist, dass das Netzwerk getrennt wurde und dann hilft nur noch ein Hardreboot weiter.
Soweit ich mich erinnern kann, hilft hier nur der Austausch des Mainboards. Frage unbedingt nach dem Intel Board, oder das Asus mit der neuesten Bios Version / Rev.
Schreibe dem Support, dass du dich auf diesen Thread hier beziehst: https://forum.ovh.co.uk/showthread.p...8168B-crashing

PlayMan
15.06.15, 09:27
Gut zu wissen dass man nicht alleine ist.

Ich habe mich bei dem support nocht nicht gemeldet.
Bis jetzt habe ich nur den Treiber installiert, wie hier beschrieben ist - http://wiki.hetzner.de/index.php/Ins...r8168-Treibers.
Es hat aber nichts gebracht, der server lief 10 Tage, dann aber kamm der Reboot wieder.

as1x
13.06.15, 14:13
Den Server habe ich jetzt ziemlich genau 2 Monate.
Seit dem hat er manchmal mehrere Reboots am Tag, manchmal hält er aber auch einige Tage durch (Rekord liegt hier bei knappen 7 Tagen Uptime).

Als OS habe ich XEN Server 6.5 im Einsatz, mit je 2 Windows und Linux VMs. Die haben eigentlich keine sonderlich große Last.

Zum Zeitpunkt der Reboots ist nichts im Log zu finden, einfach "Strom aus - Strom an", bspw.:
Jun 10 19:12:45 nsXXXXXXX xenstored: D2 write data/meminfo_free 5217020
Jun 10 19:12:45 nsXXXXXXX xenstored: A360 w event /local/domain/2/data/meminfo_free /local/domain/2/data/meminfo_free
Jun 10 19:12:47 nsXXXXXXX xenstored: D1 write data/meminfo_free 5610356
Jun 10 19:12:47 nsXXXXXXX xenstored: A360 w event /local/domain/1/data/meminfo_free /local/domain/1/data/meminfo_free
Jun 10 19:44:15 nsXXXXXXX syslogd 1.4.1: restart.
Jun 10 19:44:15 nsXXXXXXX kernel: klogd 1.4.1, log source = /proc/kmsg started.
Jun 10 19:44:15 nsXXXXXXX kernel: [ 0.000000] Initializing cgroup subsys cpuset
Jun 10 19:44:15 nsXXXXXXX kernel: [ 0.000000] Initializing cgroup subsys cpu
Jun 10 19:44:15 nsXXXXXXX kernel: [ 0.000000] Initializing cgroup subsys cpuacct
Tests im Rescue waren alle ergebnislos. Damit so ein Reboot auftritt, müssen wohl mehrere Ereignisse zusammenkommen, die sich nicht durch einzelne Tests nachstellen lassen.

Durch Monitoring Tickets wurde zwischenzeitlich der "power connector" (Netzteil?) und 2 von 4 RAM Riegeln getauscht (warum auch immer).
Tickets beim deutschen Support sind seit genau 7 Wochen (!) unbeantwortet.

Wollte den Server jetzt eigentlich in 4 Tagen auslaufen lassen, bevor ich den Thread hier gesehen habe.

gentlemon
13.06.15, 13:21
Hatte mich dafür beim Support gemeldet, die haben die dann hochgeschraubt - um wieviel weiß ich nicht mehr.

Edit: Wie lange hast du den Server denn schon? Und stehen im syslog irgendwelche auffälligen Einträge um die Zeit in den er abschmiert?

as1x
13.06.15, 13:08
Zitat Zitat von gentlemon
Welches Mainboard ist bei dir verbaut? Ich hatte vor einiger Zeit mal ein ähnliches Fehlerbild, da lag es am Board.

Asus ... - musste die vcore leicht erhöht werden, dann lief alles wieder stabil.
Ich befürchte, ich habe dasselbe Problem mit meinem E3-SAT-3.
Dieselben Symptome und dasselbe Mainboard:
Product Name: System Product Name
Product Name: P8H77-M PRO

Wie hast du denn den VCore angepasst und auf wieviel?

gentlemon
01.06.15, 13:59
http://ark.intel.com/de/products/657...Cache-3_40-GHz

Max. Turbo-Taktfrequenz 3.8 GHz

PlayMan
01.06.15, 13:49
ok, habe mein Fehler erkannt, diese Info hat er wahrscheinlich während ein Kern höcher getaktet war gespeichert und zeigt nun falsch an.

PlayMan
01.06.15, 13:46
ich habe greade die CPU Geschwindigkeit überprüft und mir ist folgendes aufgefallen:

processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 58
model name : Intel(R) Xeon(R) CPU E3-1245 V2 @ 3.40GHz
stepping : 9
microcode : 0x17
cpu MHz : 3602.539
cache size : 8192 KB
physical id : 0
siblings : 8
core id : 0
cpu cores : 4
apicid : 0
initial apicid : 0
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm pcid sse4_1 sse4_2 x2apic popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm ida arat epb xsaveopt pln pts dtherm tpr_shadow vnmi flexpriority ept vpid fsgsbase smep erms
bogomips : 6799.45
clflush size : 64
cache_alignment : 64
address sizes : 36 bits physical, 48 bits virtual
power management:
Ich frage mich warum habe ich Intel(R) Xeon(R) CPU E3-1245 V2 @ 3.40GHz aber die geschwindigkeit ist auf 3612.898 MHz.

gentlemon
01.06.15, 13:40
Das müsste es sein. Reboots sind bei mir meist aufgetreten, wenn der Load für eine bestimmte Zeit relativ hoch war.

PlayMan
01.06.15, 13:16
Mein Board ist
ASUSTeK COMPUTER INC. P8H77-M PRO

gentlemon
01.06.15, 13:03
Welches Mainboard ist bei dir verbaut? Ich hatte vor einiger Zeit mal ein ähnliches Fehlerbild, da lag es am Board.

Asus ... - musste die vcore leicht erhöht werden, dann lief alles wieder stabil.

PlayMan
01.06.15, 09:39
Leider hat das Update auf das neue Kernel kein Erfolg gebracht, der Server hat sich wieder automatisch rebooted an einem Tag 2 mal.
Bin wirklich ahnungslos was ich noch machen könnte.

PlayMan
26.05.15, 09:26
Danke für den Vorschlag,
bin gerade dabei, update durchgeführt, starte den server neu.
Hoffe das wird mir helfen, war wirklich ahnungslos, was ich machen kann.
Da ich auch nur kvm benutze, ist openvz support nicht relevant für mich.

TF_SChw@rZl!cht
26.05.15, 09:13
hmmm habe ich noch gar nicht geschaut (muss zugeben dass ich selber kein openvz nutze sondern nur kvm only von daher hatte ich dem nie Beachtung geschenkt)

Jedoch hören sich seine Symptome wie meine damals an und ich konnte das nur mit einem kernel 3+ beheben.

EvilMoe
26.05.15, 09:11
Zitat Zitat von TF_SChw@rZl!cht
ich vermute du verwendest den 2.6er Kernel ....
Upgrade auf den 3.10er ausm repo ... der 2.6 hat ein Bug bzgl. der RealTec NIC was zu diesen Abstürzen führen kann.
Gibts den 3er mittlerweile schon mit OpenVZ Unterstützung?
Ansonsten hilft nur ein downgrade.

EvilMoe
26.05.15, 09:10
Im rescue booten und den CPU/RAM testen. HDD prüfen könnte auch hilfreich sein (smart).

TF_SChw@rZl!cht
26.05.15, 09:10
ich vermute du verwendest den 2.6er Kernel ....
Upgrade auf den 3.10er ausm repo ... der 2.6 hat ein Bug bzgl. der RealTec NIC was zu diesen Abstürzen führen kann.

PlayMan
26.05.15, 08:28
Hallo,

ich habe manchmal (wirklich sporadisch), kann 2 mal am Tag oder einmal in 10 Tagen passieren, dass mein Server rebooted wird. In den logs syslog, boot, messages, kern.log konnte ich nichts Auffälliges finden. Der Server funktioniert einwandfrei und dann kommt einfach der reboot.

Server Informationen:
Prozessor Intel Xeon E3 1245v2
Cores / Threads 4 Cores / 8 Threads
Taktfrequenz 3.4 GHz+
RAM 32GB DDR3
Festplatten 2x 2 TB SATA
RAID Soft
Betriebsystem VPS Proxmox VE 3.4 (64bits)

Haben Sie einen Vorschlag wo ich noch schauen könnte und das Problem zu finden und ggf. dann auch Beseitigen?