xet9fi2
Goto Top

IBM x3250 M4 - Plötzlicher Shutdown

Hallo Zusammen

Bin gerade an einem sehr merkwürdigen IBM X3250 M4 geraten. Das Gerät war bereits Monate in Betrieb und letzt Woche hat sich der Server das erste mal verabschiedet. Genau, "Hard-Shutdown" resp. gleich wie wenn das Kabel gezogen würde.

Nun gut, Server wieder gestartet - lief auch sofort wieder an. Und direkt einmal die Logs durchforstet. Allerdings nichts aussergewöhnliches feststellen können. Der Server lief danach weitere ca. 3 Stunden und wieder das gleiche Ergebnis. Nur diesmal, lässt sich das Gerät nicht mehr starten. Bzw. nach ca. 20 Versuchen, kommt der Server kurz an, mal 20 Sekunden, mal 30, mal nur ein paar Sekunden und ist gleich wieder weg. Mit ein bisschen Glück läuft er auch mal kurz eine Minute.

Ich würde direkt einmal auf das Netzteil tippen, allerdings wird bei diesem z.B. die "Error-LED" welche rot leuchten sollte - nicht aktiv.

Mögliche Gedanken / Inputs von eurer Seite her bzgl. möglichen defekten Parts?

Content-Key: 310829

Url: https://administrator.de/contentid/310829

Printed on: April 24, 2024 at 01:04 o'clock

Member: Chonta
Chonta Jul 25, 2016 at 10:15:05 (UTC)
Goto Top
Hallo,

RAM futsch.
Wenn Der PC nicht nach dem aus gleich wieder eingeschaltet wird, sondern einige Minuten gewartet wird gehts oder?

Tempproblem.
CPU Problem.
MB Problem.

Wenn das Netzteil was weg hat muss die Kontroll LED nicht umbedingt leuchten, kommt drauf an was defekt ist.

Gruß

Chonta
Member: Yannosch
Yannosch Jul 25, 2016 at 10:15:41 (UTC)
Goto Top
Hey!

ich muss zu meiner Schande gestehen - ich weiß nicht wie sich Hardware/Temperaturfehler in den Serverlogs wiederspiegeln.
Ich hatte allerdings einmal ein ähnliches Verhalten bei einem Towerrechner feststellen müssen.

Bei diesem PC war der CPU-Kühler im inneren abgebrochen.
So ist er beim ersten Hochfahren auch so 2-3 Stunden gelaufen & danach einfach ausgegangen.
Nach erneutem Hochfahren direkt wieder aus...

Je mehr Zeit vergangen war umso läger lief er dann wieder ( wegen der entstandenen Hitze ).

Schau mal welche Temperatur die CPU anzeigt wenn du ihn nochmal hochgefahren bekommst.

Liebe Grüße!
Member: xet9fi2
xet9fi2 Jul 25, 2016 at 10:24:09 (UTC)
Goto Top
Hi

Danke dir für dein Feedback - hatte bisher keinen Einfluss wie lange ich zwischen den "Start-Versuchen" gewartet habe. Dachte somit evt. Temp. Probleme ausgeschlossen.
Member: Yannosch
Yannosch Jul 25, 2016 at 11:23:42 (UTC)
Goto Top
Hi,

teste es doch einmal ... lass ihn einfach mal längere Zeit aus. Wenn er dann wieder hochfährt und auch etwas länger "an" bleibt, dann ist es ein Indiz auf ein Temp. Problem.
Member: xet9fi2
xet9fi2 Jul 25, 2016 at 11:39:55 (UTC)
Goto Top
Falls es die Zeit zulässt werde ich dies heute Abend direkt noch einmal versuchen. Der Server wäre dann mehr wie 24h nicht im Rack und am Netz angeschlossen. (Somit kalt face-smile )
Member: Yannosch
Yannosch Jul 25, 2016 at 11:44:45 (UTC)
Goto Top
genau!.. wenn er dann wieder zwischen 1-2 Stunden brummt & aus geht - nochmal einschalten wenn er dann direkt wieder ausgeht ist es mit ziemlicher Sicherheit ein Temp. Problem.

Nicht vergessen, wenn er dann wieder oben - versuch mal die CPU Temp auszulesen ...

Liebe Grüße !
Member: mathu
mathu Jul 25, 2016 at 16:09:38 (UTC)
Goto Top
Mal nur so ne Frage, wieso muss die Error-LED leuchten als Beweis, dass das Netzteil kaputt ist.
Vielleicht weiss das Power Supply selber gar nicht dass es kaputt ist? face-wink
Member: Yannosch
Yannosch Jul 26, 2016 at 07:16:43 (UTC)
Goto Top
@xet9fi2

Gibt es schon neue Erkenntnisse?
Member: xet9fi2
xet9fi2 Jul 27, 2016 at 05:18:46 (UTC)
Goto Top
Mahlzeit

Also ich komme mir aktuell ein bisschen dämlich vor...

Montag Abend den Server wieder gestartet. Beim ersten Start hat er nach einigen Sekunden wieder abgebrochen bzw. ging wieder aus. Beim zweiten Anlauf normal gestartet. Temperaturen geprüft - bei ca. 44grad. (Intel Xeon...)

Gut, mal direkt einige HyperV's verschoben und einige Daten wegkopiert. Auslastung stieg kurzzeitig bisschen an - kaum nennenswerte Änderungen bei den Temperaturen.

Aktuell läuft er noch immer... ? (Also nicht, dass ich mich beklagen möchte - trotzdem wäre das herausfinden der Ursache doch sehr gut... kann ja sein, dass der Morgen wieder nicht mehr läuft...)
Member: xet9fi2
xet9fi2 Jul 27, 2016 at 05:19:51 (UTC)
Goto Top
Nein, klar muss die LED nicht leuchten als Beweis.
Member: Chonta
Chonta Jul 27, 2016 at 07:20:12 (UTC)
Goto Top
HyperV's verschoben
Also VMs vom Server auf einen anderen Server verlegt.
Das bedeutet RAM der früher benutzt wurde ist jetzt frei und wird nicht benutzt.
CPU kerne werden nun auch weniger belastet.

Hatte bei einem P4 mit HT mal gehabt, das der Rechne rimmer wegbrach, wenn Operationen bei denen daten gepackt/entpackt wurden abgeschmiert ist.
Nachdem HT deaktiviert wurde lief es.

Es gibt viele mögliche Ursachen. Entweder gezielt stresstesten das Teil und oder alle möglichen Komponenten, angefangen beim Netzteil auf Verdacht tauschen.
Ein defektes Netztel kann einem ja noch mehr in den Tod reißen.

Gruß

Chonta
Member: xet9fi2
xet9fi2 Jul 27, 2016 at 07:38:10 (UTC)
Goto Top
Hi Chonta

Ich habe nur aktuelle Stände zusätzlich gesichert (Nebst Replika etc.) die VM's laufen noch auf dem gleichen Server. Am System hat sich nichts geändert von dem Zeitpunkt des "Ich stell einfach ab weil keinen Bock mehr..."

Am kommenden WE werde ich wirklich mal einen Stresstest starten in der Hoffnung, eine mögliche Fehlerquelle zu entdecken.