@Felix
Ich vermute die Ursache bei der AMD Hardware an sich und nicht bei euch. Ich erwarte nicht, dass ihr mir bei dem Problem irgendwie helft. Meine Lösung heißt: AMD Server kündigen und auf Intel umsteigen, sobald ich dafür Zeit habe.
Die Zeiten der Hard-Reboots haben nichts mit den eigentlichen Abstürzen zu tun, da der Server nach dem Absturz weiterhin gepingt hat und dem Monitoring nicht aufgefallen ist. Auch hat der Apache generell leere Seiten mit 200-Status Code ausgeliefert, weshalb auch das HTTP Monitoring nicht angeschlagen hat. Deshalb ist leider immer ein wenig Zeit vergangen, bis mir der Absturz aufgefallen ist und ich einen Hard-Reboot durchführen konnte. Ich habe das System jetzt geändert. Mein Server sendet selbstständig ein Lebenszeichen und wenn der Zeitabstand zum Lebenszeichen zu hoch, wird Alarm geschlagen. So funktioniert wenigstens das Monitoring richtig.
Was Cronjobs angeht, ich habe einen der wird alle 15 Minuten ausgeführt. Das passiert aber auf jedem meiner Server und diese Abstürze tauchen nur bei den AMD Systemen auf. Auch passiert in diesem Cronjob nicht wirklich viel.
Aber wo du mir schon anbietest, in ein Ticket zu schauen: Bitte werfe doch mal einen Blick in #848836. Das ist weitaus kritischer. Viele meiner Server (wenn nicht sogar alle) haben sporadisch leichten oder richtig hohen Packet-Loss. Das ganze sieht dann so aus:
Link zu einem Bild.