clero92
Goto Top

CentOS 6 Crash - wie Fehler analysieren?

Hallo,

mein Root-Server crashed seit ein paar Tagen immer wieder (Zeitraum: immer nach ~ 2 Tagen).

OS: CentOS6
Updates: up-to-date
Anbieter: Strato

Das System lief einwandfrei. Ich habe qemu mit einer VM am laufen, diese nutzt 6 von 8 Cores des Hosts.

Wie kann ich jetzt analysieren, wie diese Crash's zustande kommen?

Welche Log-Dateien kann ich da durchsuchen?

Nach einem Crash kann ich über den Strato-Kundenservicebereich einen Hardware-Test anstarten. Laut Infobox dauert dieser 2h. Nach 4h habe ich abgebrochen und das System rebootet. Anschließend kann ich wieder normal arbeiten. Ob der Test überhaupt lief, weiß ich nicht.

Temperatur von CPU liegt bei ~50-60°. Anzeige über Paket "lm_sensors".

Warte z.Z. auf Antwort von Strato.

Habt ihr noch Tipps für mich? Ich bin ratlos.....

MfG Hannes

Content-Key: 238653

Url: https://administrator.de/contentid/238653

Printed on: April 26, 2024 at 20:04 o'clock

Member: AndiEoh
AndiEoh May 21, 2014 at 06:33:51 (UTC)
Goto Top
Hallo,

generell alles unter /var/log/ durchsuchen. Wenn es sich allerdings um einen Hardware Fehler handelt was nach deiner Beschreibung eher wahrscheinlich ist dann kann es sein das dort nur die Einträge vom Neustart zu finden sind. Im allgemeinen ist es meistens so das wenn die Maschine "stehenbleibt" der Fehler eher im I/O System zu suchen ist, wenn die Kiste neu startet eher im RAM. Ein weiterer Punkt ist das grob geschätzt nur die Hälfte der Hardware Fehler tatsächlich auch von den Diagnose Routinen entdeckt werden.


Viel Erfolg

Andi
Member: Lochkartenstanzer
Lochkartenstanzer May 21, 2014 at 08:34:36 (UTC)
Goto Top
Zitat von @Clero92:

Wie kann ich jetzt analysieren, wie diese Crash's zustande kommen?

Du könntest, falls vorhanden, die Core-dumps untersuchen. das sind dateien, die "core" heißen und die das System schreibt, wenn es abschmiert.

Welche Log-Dateien kann ich da durchsuchen?

/var/log/messages oder /var/log/syslog, je nachdem was da vorhanden ist.


lks
Member: Clero92
Clero92 May 25, 2014 at 12:58:33 (UTC)
Goto Top
Moin,
also in den Logs steht nichts. Es ist quasi so, als ob in dieser Zeit ein Schnitt wäre. Ab Server Crash --> keine Logs.
Die Core-Dumps konnte ich nicht finden. Befehl "/ *core*" lieferte nicht die gewünschten Dateien.

Der Hardwaretest lief durch und es wurde keine defekte HW gefunden.

Ich habe jetzt noch 3 Möglichkeiten, warum der Server crashed:

1.) Ich starte die VM alle 24h neu. Länger als 48h an = Crashursache?
2.) Ein Programm, das in der VM lief, versuchte über 100 Logeinträge in einer Sekunde auf dem Host-System (CentOS). = Crashursache?
3.) Wenn über 40 Spieler auf den Gameserver in der VM connecten = Crashursache? (konnte ich nach dem Hardwaretest noch nicht überprüfen).

Mal schauen was die Zeit ergibt. Könnten das mögliche Absturzursachen sein? Bis jetzt läuft der Server ohne Crash durch (*3 mal auf Holz klopfen* ).

MfG