tweety2007
Goto Top

HP Server - Unerwarteter Restart - Kernel Power EventID 41

Hallo Zusammen,

ich habe ein kleines Problem mit einem Hardware Server (HP) bei mir in der Infrastruktur.

Das Betriebssystem startet jeden Tag den Server unkontrolliert neu.
Im Event-Log mit der ID 41 - Kernel Power.

Habe mich jetzt ein wenig eingelesen, aber noch nicht wirklich eine Idee..
Es handelt sich um ein Windows 2012 R2 Server mit allen Patches.

Der Server zeigt bei der Hardware keinen Fehler an, das Netzteil ist redundant ausgelegt.


Ich habe Euch mal im Anhang zwei Bilder beigefügt.
Der Restart erfolgt immer zu unterschiedlichen Zeiten, aber wirklich jeden Tag!


bildschirmfoto 2017-05-17 um 21.24.17
bildschirmfoto 2017-05-17 um 21.24.12


Bin Euch für jeden Tipp dankbar.

Liebe Grüße
Jochen face-smile

Content-Key: 338109

Url: https://administrator.de/contentid/338109

Ausgedruckt am: 19.03.2024 um 02:03 Uhr

Mitglied: BassFishFox
BassFishFox 17.05.2017 um 23:10:47 Uhr
Goto Top
Halloele

Wenn es ein Fujitsu RX waere hatte ich gesagt, dass die Netzteile und/oder der RAM einen Knacks weg haben.

Nix zu sehen im Eventlog kurz bevor die Kiste abraucht?

BFF
Mitglied: tweety2007
tweety2007 17.05.2017 um 23:22:44 Uhr
Goto Top
Ich bin das ganze EventLog durch, nichts wirklich zu sehen.
Wo würdest Du eher suchen? System oder Anwendung?

Der Server hat zwei Netzteile, beide rennen ohne Probleme.

Es ging vor einer Woche los, davor ist der Server ohne Probleme gelaufen.
Und jetzt wird zu unterschiedlichen Zeiten, aber jeden Tag ein Reboot ausgelöst..

Sehr komisch
Mitglied: BassFishFox
BassFishFox 17.05.2017 aktualisiert um 23:35:23 Uhr
Goto Top
Nichts wirklich ist wirklich nicht viel.
Was lief zuletzt bevor der Absturz kam?
Irgendwas in den Logs im BIOS?
RAM testen/tauschen, Netzteile tauschen, Platten checken/tauschen.
Temperatuen im Gehaeuse ok?
MainBoard pruefen ob eventuell Kondensatoren Mainzelmaennchen spielen.
Nase ans Gehaeuse und schnuppern. Ja man kann riechen ob irgendwas zu heiss wurde.

BFF
Mitglied: gifox
gifox 18.05.2017 um 06:50:58 Uhr
Goto Top
Ich hatte ein vergleichbares Problem auf meinem HP DL380 G7 (red. Netzteil á 700 Watt).
Bei mir wars die USV (APC 1500VA), die hatte ich überhaupt nicht in Verdacht, weil sie die Serverlast problemlos stützen
konnte. Es fiel mir nur zufällig folgendes auf:
Das Ding macht regelmäßig einen Check zur Beurteilung der Akku-Qualität. Dazu schaltet sie für einige Sekunden
auf Akku um. Manchmal war die Umschaltzeit ein klein wenig zu lange, sodass die Netzteile das nicht überbrücken konnten und der Server
neu startete. Es kann sich dabei nur um wenige Millisekunden gehandelt haben. Hab nicht schlecht geschaut, gerade ein Servernetzteil
sollte eigentlich mehr am Kasten haben... vor allem wenn ohnehin 2 drinstecken.

Das Problem hab ich dann dadurch gelöst, dass ich den Server auf eine mittlerweile 23 Jahre alte Emmerson Select 2000 gehängt habe (die Akkus sind natürlich nicht 23 Jahre alt gggg) und das alte Monsterteil ist halt noch russische Qualität und seitdem gabs keine Probleme mehr.

Von der APC 1500 hab ich drei Stück (alle Akkus ziemlich neu) bei allen gleiches Problem.
Mitglied: Ausserwoeger
Ausserwoeger 18.05.2017 aktualisiert um 14:01:59 Uhr
Goto Top
Hi

Was sagen den die HP Agents ? Was steht dem in IML (ILO Managment LOG) ?

Hat das Teil keine Garantie mehr ? Wenn doch warum machst du keinen Call bei HP auf ? (Gratis Hilfe bzw. austausch von Hardwareteilen)

LG
Mitglied: tweety2007
tweety2007 21.05.2017 um 22:41:33 Uhr
Goto Top
Danke für Eure Hilfe und Tipps!

Ich habe gestern mal die USV herausgenommen und den Server direkt angeschlossen.
Leider hat es nicht geklappt und heute ist der Server wieder mit dem gleichen Fehler abgestürzt.

Im Event-Log stehen wirklich keine Fehler und keine Auffälligkeiten.

Wo seht ihr die Wahrscheinlichkeit höher, Netzteil oder RAM?
Dann würde ich mal ein Netzteil ausbauen oder eben den RAM zurückbauen.

Der Server hat leider keine Garantie mehr.

Auf dem Server habe ich keine HP Agents installiert.
Mitglied: BassFishFox
BassFishFox 21.05.2017 aktualisiert um 23:05:38 Uhr
Goto Top
Hallo,

Das hier kennst Du?
http://h20564.www2.hpe.com/hpsc/doc/public/display?docId=emr_na-c035276 ...

Und schau Dir das MainBoard an. Nicht das da ein paar Kondensatoren Huete (ausgebeult sind) haben.

BFF
Mitglied: Ausserwoeger
Ausserwoeger 22.05.2017 um 08:49:11 Uhr
Goto Top
Zitat von @tweety2007:

Auf dem Server habe ich keine HP Agents installiert.

Hi

Das würde ich ändern über die bekommst du genauere Infos was mit deinem Server nicht stimmt. Wenn das zb. der ASR (Automatic Server recovery) ist dann wird der neustart durchgeführt weil der Server nicht mehr reagiert.

https://community.hpe.com/t5/ProLiant-Servers-ML-DL-SL/ASR-Automatic-Ser ...

LG
Mitglied: tweety2007
tweety2007 27.05.2017 um 16:15:39 Uhr
Goto Top
Hallo Zusammen,

ich habe jetzt mal die USV getrennt und den Server direkt an den Strom gehängt.
Das noch das neuste SPP installiert.

Leider ohne Erfolg.. Im Event-Log ist nichts zu sehen..

Im ILO wird folgender Fehler angezeigt:
ASR Detected by System ROM

Jetzt gehen mir langsam die Ideen aus.
bildschirmfoto 2017-05-27 um 16.15.06
Mitglied: BassFishFox
BassFishFox 27.05.2017 aktualisiert um 16:34:15 Uhr
Goto Top
Hallo,

Netzteile?

Ein Tipp war ja mal, das ASR zu deaktivieren weil dann der Server beim Blue Screen stehen bleibt.

https://community.hpe.com/t5/ProLiant-Servers-ML-DL-SL/quot-ASR-Detected ...

Vielleicht siehst Du per Blue Screen mehr?

BFF
Mitglied: tweety2007
tweety2007 28.05.2017 aktualisiert um 17:59:23 Uhr
Goto Top
Also ich habe jetzt mal ASR deaktiviert und der Server hängt sich wirklich auf.
aber ohne BlueScreen.

Alles reagiert extrem langsam, Programme öffnen sich nicht, ich konnte aus
der Windows-Ebene zwar Neustarten, aber das System hat sich dann nicht beendet.

Habt Ihr eine Idee?
Könnte es der RAM sein? Die Netzteile schließe ich eigentlich aus.
Mitglied: 114685
114685 28.05.2017 aktualisiert um 21:22:41 Uhr
Goto Top
Hi,

hast dur mal die korrekte Funktionalität der Lüfter im Server und in den Netzteilen überprüft?
Ich könnte mir vorstellen, dass da eine Abschaltautomatik zuschlägt.

Gruß
Mitglied: BassFishFox
BassFishFox 28.05.2017, aktualisiert am 29.05.2017 um 21:36:15 Uhr
Goto Top
Hallo,

Das Du das Mainboard mal nach defekten Kondensatoren optisch pruefen solltest hab ich schon gesagt.

Mal einen Temperaturwaechter mitlaufen lassen waere ne Idee.
Ist das OS auf einem RAID? RAID-Kontroller pruefen, Platten pruefen, RAID-Log pruefen.

Und ich wuerde dennoch die Netzteile ansehen. Wenn die gut sind ist ok.

Haengt das Teil eigentlich immer nach einer bestimmten Zeit?

BFF
Mitglied: Ausserwoeger
Ausserwoeger 29.05.2017 um 07:58:11 Uhr
Goto Top
Zitat von @tweety2007:

Also ich habe jetzt mal ASR deaktiviert und der Server hängt sich wirklich auf.
aber ohne BlueScreen.

Alles reagiert extrem langsam, Programme öffnen sich nicht, ich konnte aus
der Windows-Ebene zwar Neustarten, aber das System hat sich dann nicht beendet.

Habt Ihr eine Idee?
Könnte es der RAM sein? Die Netzteile schließe ich eigentlich aus.

Moin

Warum gehst du den von einem Hardwareproblem aus ? Das könnte auch ein Softwareproblem sein.
Wurden möglicherweise Updates installiert ? Ich würde erstmal das neueste Servicepack for Proliant installieren (SPP)
Damit kriegst du die neuesten treiber inkl Firmware. Dann würde ich nochmal Testen.

Wenn das Problem dann immer noch besteht würde ich einen Prozess Explorer starten um bei dem hängenbleiben zu sehen ob die Maschine überlastet ist bzw. welcher Prozess das verursacht oder ob nichts zu sehen ist.

LG
Mitglied: tweety2007
tweety2007 29.05.2017 um 21:17:31 Uhr
Goto Top
Hey face-smile

Ist natürlich nur eine Vermutung mit der Hardware, kann auch ein Softwareproblem sein.

Windows-Updates wurden installiert.
Der Server ist komplett aktuell.

Das neuste SPP habe ich schon installiert und durchrennen lassen.
Hier sind jetzt alle Daten aktuell, leider ist das Problem aber noch vorhanden.

Was komisch ist, dass alle Windows eigenen Programme. (Explorer, Computerverwaltung,..) noch starten.
Nur dritt Programme wie VMWare, der IE oder auch die HP eigenen Programme starten nicht.

Es hilft dann wirklich nur ein Hardreset, die Maschine bootet wieder und hat das Problem nach ca. 19/20 Stunden wieder.
Mitglied: 114685
114685 29.05.2017 um 21:38:10 Uhr
Goto Top
Hi,

wenn du mal nicht Nutzer hast, die gerne mal spielen und in der Wildnis umhersurfen:

Dateiname killt Windows

Probiere doch in einer "stillen Stunde" mal aus, ob der Server anfällig ist. Du musst allerdings nach dem Test mindestens 10 Minuten, evtl. länger warten!

Gruß
Mitglied: BassFishFox
BassFishFox 29.05.2017 um 21:42:08 Uhr
Goto Top
Hallo,

Was komisch ist, dass alle Windows eigenen Programme. (Explorer, Computerverwaltung,..) noch starten.
Nur dritt Programme wie VMWare, der IE oder auch die HP eigenen Programme starten nicht.

Diese Erkenntnis kommt reichlich spaet. face-wink Und was meint "noch starten"?

Welches OS hat der Server? Von einer aelteren Version "upgegradet"?

BFF
Mitglied: tweety2007
tweety2007 29.05.2017 um 21:47:41 Uhr
Goto Top
Dein habe ich damals komplett frisch aufgesetzt:
Windows 2012 R2 Standard

Noch starten heißt, die Programme gehen auf und ich kann damit normal arbeiten.
Dateien kopieren, rechte Maustaste Eigenschaften, etc.
Mitglied: 114685
114685 29.05.2017 um 21:49:32 Uhr
Goto Top
Zitat von @BassFishFox:
Welches OS hat der Server? Von einer aelteren Version "upgegradet"?

Es handelt sich um ein Windows 2012 R2 Server mit allen Patches.
Steht in der Frage.

@tweety2007

Meinst du nicht dass es mal Zeit wird, uns das Ergebenis der mehrfach vorgeschlagenen Überprüfung deiner Hardwarekomponenten mitzuteilen? Mit deinen Vermutungen kommst du nicht weiter!
Mitglied: BassFishFox
BassFishFox 29.05.2017 aktualisiert um 21:54:12 Uhr
Goto Top
Ok,

Und VMWare, IE etc. hinterlassen wirklich nix im Eventlog?

Das OS ist ein RAID? Was fuer eins? Platten wirklich i.O.?
Denn Tipp von @Ausserwoeger solltest Du beachten und tun.

BFF
Mitglied: tweety2007
tweety2007 29.05.2017 um 21:55:57 Uhr
Goto Top
Vermutungen, sind relativ - es gibt einfach nichts handfestes.
Das Event-Log zeigt nichts an, im ILO-Log steht auch nichts,...
Mir bleibt nichts anderes übrig als Vermutungen anzustellen, siehst Du mein Problem?!

Ich bin morgen wieder im Haus und tausche mal den RAM und das Netzteil.
Hier aber nur aus verdacht..

Mainboard ist alles in Ordnung.
Die Lüfter laufen alle.
RAM und Netzteile zeigen aber keine Fehler am Server an.
Mitglied: 114685
114685 29.05.2017 aktualisiert um 22:33:16 Uhr
Goto Top
Ich sehe nur das Problem, dass du auf konkrete Hinweise keine konkreten Feedbacks lieferst.
Dir wurde doch genau beschrieben, was du prüfen solltest. Alles in Ordnung ist kein Feedback, mit dem man was anfangen kann.

Ich bin raus.
Mitglied: SamvanRatt
SamvanRatt 31.05.2017 um 21:59:04 Uhr
Goto Top
Hi
was hast du genau für eine Serie (DL365Gen7.......)? Ich habe mir für meine drei "Workstations" mehrere Mainboards auf Lager gelegt. Bei den Gen8 sind die Power Backplanes teils recht schlecht und ein Hotplug hat da auch schon zum Versagen des OS (ESXi5.1) geführt, was ja eine Redundanzauslgeung gerade verhindern sollte. Der ilo (ILM) sollte da dein bester Freund sein und nach 25 Jahren Compaq verlasse ich mich da blind darauf. RAM Fehler würde der ilo auch via SMB mitbekommen; CPU/Chipsatz Fehler eher weniger. Auf die Win Fehlermeldung würde ich nett gesagt wenig geben...
Gruß
Sam
Mitglied: tweety2007
tweety2007 05.06.2017 um 18:58:22 Uhr
Goto Top
Hallo Zusammen,

ich konnte die letzten Tage mal wieder etwas weiter am Server testen:

Also es handelt sich um einen DL380 G7.
Es läuft ein RAID-System: RAID1 für OS und RAID5 für die zweite Partition.
Der Array-Controller zeigt keine Fehler an.

Habe auch den RAM und die Netzteile der Maschine getauscht, leider hat es den Fehler nicht behoben.

Im Board sieht und riecht alles gut, hier ist nichts auffällig.

--

Den Tipp von @Ausserwoeger habe ich versucht, SPP ist aktuell.
Den ProzessExplorer kann ich leider nicht mehr starten, wenn der Fehler auftritt.

--

Genießt Euren Abend
Mitglied: SamvanRatt
SamvanRatt 05.06.2017 um 19:36:21 Uhr
Goto Top
Hi
einen DL380G7 habe ich auch als ColdSpare hier. Wenn du willst könnte ich ein Image von dir bei mir einspielen und damit mal testen ob der dauerhaft läuft?!
Was sagt denn das IML beim Fehlerzeitpunkt? Da wird jeder Fehler abgefangen und protokolliert. Ansonsten würde ich eher auf SW Fehler tippen (Treiber). Kannst du den Fehler reproduzieren oder forcieren?
Gruß
Sam
Mitglied: Ausserwoeger
Ausserwoeger 06.06.2017 um 07:49:18 Uhr
Goto Top
Zitat von @tweety2007:
Den Tipp von @Ausserwoeger habe ich versucht, SPP ist aktuell.
Den ProzessExplorer kann ich leider nicht mehr starten, wenn der Fehler auftritt.


Hi

Ja is klar deswegen würde ich den Prozessexplorer vor dem fehler starten und geöffnet lassen dann solltest du ihn ja verwenden können oder nicht ?

LG Andy
Mitglied: SamvanRatt
SamvanRatt 08.06.2017 um 08:24:50 Uhr
Goto Top
Wenn ich das Topic lese: "startet unerwartet neu" hilft dir im Bestenfall ein Kerneldebugger (via OHCI/RS232) im Hintergrund, doch keine Ring0 App wenn ein NMI (der Logeintrag macht dies eher unwahrscheinlich) oder Kernel Trap (meine Vermutung; Ring0 Treiber) ausgelöst wurde (und damit auch Ring0 angehalten wurde) der dann zum Neustart führt....

@to: hast du schon mal den "Neustart bei Fehler" rausgenommen damit du den Moment aufgenommen hast?