lcer00
Goto Top

Spontanabschaltung HP Proliant ml350p gen 8 Fehlersuche

Hallo zusammen,

gestern war unser ProLiant ml350p gen8 spontan ausgeschaltet. Wieder eingeschaltet, läuft bis jetzt fehlerfrei.

Das Problem ist: ich finde keinen Grund dafür. Im Grunde sieht es so aus, als sei der Strom plötzlich weg gewesen, aber die USV hat nichts mitgeloggt und der Server hat 2 redundante Netzteile.

Unauffällig bisher:
  • iLO Logs
  • iLO Status
  • Windows Logs: System, Anwendung
  • USV Logs
  • Kibana: keine Auffälligen Leistungsdaten

Vor dem Abschalten ist nichts außergewöhnliches geloggt.

Wo kann ich weitersuchen (außer dass jetzt Gen10 aktuell wäre).

Der Server dient als HyperV Host, sonst ist nichts weiter drauf installiert (außer Treiber, Datensicherung, Antivirus, icinga2 Agent, Elastic-metricbeat)

Grüße

lcer

Content-Key: 390474

Url: https://administrator.de/contentid/390474

Printed on: April 18, 2024 at 16:04 o'clock

Member: Lochkartenstanzer
Lochkartenstanzer Oct 24, 2018 at 05:46:31 (UTC)
Goto Top
Zitat von @lcer00:

Wo kann ich weitersuchen (außer dass jetzt Gen10 aktuell wäre).

Frag die Putzfrau, ob sie eine Steckdose für den Staubsauger gebraucht hat. face-smile

lks

PS: Vielleicht hat einer einfach den Ausschalter umgelegt/gedrückt und sich nicht getraut, das zu sagen.
Member: StefanKittel
StefanKittel Oct 24, 2018 at 06:23:46 (UTC)
Goto Top
Moin,

was sind denn die letzen Einträge im iLO-Log?
Steht da gar nichts zum shutdown?

Dann blieben aus meiner Sicht nur 2 Möglichkeiten:
1. Kein Strom (von der USV)
2. Elektrischer Fehler im NT/Mainboard

Viel Spass beim suchen.
Aber das klingt nicht gut.

Stefan
Member: SachsenHessi
SachsenHessi Oct 24, 2018 at 06:30:16 (UTC)
Goto Top
Zitat von @Lochkartenstanzer:

Frag die Putzfrau, ob sie eine Steckdose für den Staubsauger gebraucht hat. face-smile

Frotzle nicht face-smile das mit der Putzi habe ich wirklich erlebt !
Zitat der Putzi "...das mache ich doch schon seit Jahren, weil das Kabel nicht für die Flursteckdose reicht...".
Das da plötzlich ein Stecker drin war.... ### drauf...
Und keiner wusste, das ihr Schlüssel auch für den Serverraum passte face-sad

SH
Member: keine-ahnung
Solution keine-ahnung Oct 24, 2018 updated at 06:37:13 (UTC)
Goto Top
Moin,
Wo kann ich weitersuchen
wenn Du noch eine maintenance auf der Büchse hast, schick den Bulgaren das active health system log der letzten Woche zu, das ist deutlich umfassender als das ILO event log.

LG, Thomas
Member: StefanKittel
StefanKittel Oct 24, 2018 at 06:35:33 (UTC)
Goto Top
Zitat von @SachsenHessi:
Frotzle nicht face-smile das mit der Putzi habe ich wirklich erlebt !
Unser Azubi hat damals den Serverraum gesaugt und dabei den Sauger direkt an der USV angeschlossen weil sonst nix mehr frei war.
Member: keine-ahnung
keine-ahnung Oct 24, 2018 at 06:38:42 (UTC)
Goto Top
und dabei den Sauger direkt an der USV angeschlossen
Da ich mir die teuren DYSON-Akkusauger nicht leisten kann, betreibe ich meine Aldi-Sauger nur via USV. Man hat da einfach das Gefühl, auch reich und schön zu sein ...
Member: Lochkartenstanzer
Lochkartenstanzer Oct 24, 2018 at 06:38:58 (UTC)
Goto Top
Zitat von @SachsenHessi:

Zitat von @Lochkartenstanzer:

Frag die Putzfrau, ob sie eine Steckdose für den Staubsauger gebraucht hat. face-smile

Frotzle nicht face-smile das mit der Putzi habe ich wirklich erlebt !

Auch wenn ich das etwas ironisch schrieb, ist es doch ein ernstgemeinter Rat. Ich habe auch schon oft genug erlebt, daß jemand mal schnell eine freie Steckdose brauchte.

lis
Member: Penny.Cilin
Penny.Cilin Oct 24, 2018 at 06:51:29 (UTC)
Goto Top
Zitat von @keine-ahnung:

und dabei den Sauger direkt an der USV angeschlossen
Da ich mir die teuren DYSON-Akkusauger nicht leisten kann, betreibe ich meine Aldi-Sauger nur via USV. Man hat da einfach das Gefühl, auch reich und schön zu sein ...
Den kannst Du doch von der Steuer absetzen, Betriebsausgaben... face-wink

Gruss Penny.
Member: StefanKittel
StefanKittel Oct 24, 2018 at 07:22:46 (UTC)
Goto Top
Die meisten Sauger killen so ziemlich jede USV da sie einfach zu viel Leistung ziehen.
Member: falscher-sperrstatus
Solution falscher-sperrstatus Oct 24, 2018 updated at 07:54:50 (UTC)
Goto Top
Und keiner wusste, das ihr Schlüssel auch für den Serverraum passte

auch der muss sauber sein!

Zur Frage: ILO checken, Logs prüfen, wenn das nichts erbringt: USV Testen, dann eskalieren lassen -> HP Support
Member: shadynet
shadynet Oct 24, 2018 at 08:26:32 (UTC)
Goto Top
Habs gerade erst bei einem DL380 G5 hinter mir...da wars das VRM für eine CPU, das spontan Fehler macht. War im ILO-Log nicht ersichtlich, da war nur der Shutdown zu sehen. Erst als es kurz darauf wieder aufgetreten ist bin ich zum Server hin und sah die Lämpchen, die mich auf den Fehler hinwiesen. Ergo: nicht alles steht klar im Log, lieber beim (hoffentlich nicht auftretenden) nächsten Mal vorm Anschalten am Server gucken, ob was leuchtet.
Member: Penny.Cilin
Penny.Cilin Oct 24, 2018 at 08:47:16 (UTC)
Goto Top
Zitat von @shadynet:

Habs gerade erst bei einem DL380 G5 hinter mir...da wars das VRM für eine CPU, das spontan Fehler macht. War im ILO-Log nicht ersichtlich, da war nur der Shutdown zu sehen. Erst als es kurz darauf wieder aufgetreten ist bin ich zum Server hin und sah die Lämpchen, die mich auf den Fehler hinwiesen. Ergo: nicht alles steht klar im Log, lieber beim (hoffentlich nicht auftretenden) nächsten Mal vorm Anschalten am Server gucken, ob was leuchtet.
Hm, erinnert mich an die IBM Netfinity 4500 in den 90er. Da haben wir im Rechenzentrum von der IBM eine ganze Kiste mit VRMs bekommen, weil diese damals reihenweise ausgestiegen / kaputt gegangen sind.

Gruss Penny.
Member: chgorges
chgorges Oct 24, 2018 updated at 10:53:27 (UTC)
Goto Top
Zitat von @lcer00:
aber die USV hat nichts mitgeloggt und der Server hat 2 redundante Netzteile.
Hi,

ich gehe doch stark davon aus, dass du nicht den Fehler gemacht und beide Netzteile auf die eine USV gehängt hast?

Der Server dient als HyperV Host, sonst ist nichts weiter drauf installiert (außer Treiber, Datensicherung, Antivirus, icinga2 Agent, Elastic-metricbeat)

Nein, ein Host ist ein Host ist ein Host. Keine Backup-Software und kein AV haben da etwas zu suchen. Und wieso 2 Monitoring Agents?

Ansonsten, HP bringt immer SPPs für Pre-Gen9-Server raus, zieh mal prophylaktisch die neuesten Firmware-Updates drauf.
Member: Penny.Cilin
Penny.Cilin Oct 24, 2018 at 10:59:39 (UTC)
Goto Top
Zitat von @chgorges:

Hi,

ich gehe doch stark davon aus, dass du nicht den Fehler gemacht und beide Netzteile auf die eine USV gehängt hast?
Wenn er nur eine USV hat, bleibt ihm nichts anderes übrig.

Der Server dient als HyperV Host, sonst ist nichts weiter drauf installiert (außer Treiber, Datensicherung, Antivirus, icinga2 Agent, Elastic-metricbeat)

Nein, ein Host ist ein Host ist ein Host. Keine Backup-Software und kein AV haben da etwas zu suchen. Und wieso 2 Monitoring Agents?
Nunja, Virenscanner auf einem Host. Da müsste er die Verzeichnisse der VMs auf die Ausnahmeliste setzen. Das macht dann keinen Sinn.
Und zwei Monitoring Agents ist wie zwei Virenscanner. Denn mit wenn der erste nixx findet, findet vielleicht der zweite was. face-wink

Gruss Penny.
Member: Lochkartenstanzer
Lochkartenstanzer Oct 24, 2018 updated at 11:02:16 (UTC)
Goto Top
Zitat von @Penny.Cilin:

Wenn er nur eine USV hat, bleibt ihm nichts anderes übrig.

Falsch. dann hängt man ein Netzteil direkt ans Netz und eines an die USV!

lks

PS: Ich gehe davon aus, daß die zwei Netzteile wegen der Redundanz und nicht wegen der Last drin sind.
Member: chgorges
chgorges Oct 24, 2018 at 11:05:37 (UTC)
Goto Top
Zitat von @Lochkartenstanzer:

Falsch. dann hängt man ein Netzteil direkt ans Netz und eines an die USV!

Korrekt, genau darum geht es. Wenn man beide Netzteile auf ein und dieselbe USV hängt, kann man auch gleich 1 Netzteil ausbauen, die Redundanz ist damit hinüber.

Im Idealfall hat man zwei USVs an zwei unterschiedlichen Sicherungen, was man aber in der Realität fast nirgendwo antrifft.
Member: lcer00
lcer00 Oct 24, 2018 at 11:37:27 (UTC)
Goto Top
Hallo

iLO Event Log
Server power removed.
Brown-out: System configured to always remain off after power is restored.

Das Active Health System Log werde ich dann mal HPE zukommen lassen.

Die Putzfrau kann ich übrigens ausschließen, die war zu dem Zeitpunkt nicht da. Auch hätte die 2 Steckdosen für den Doppelt-aufgeladenen Turbo-Staubsauger nutzen müssen, damit der Server stromfrei wäre. Und die USV selbst zeigt keine Probleme im Log an.

Komische Lämpchen leuchten auch keine.

Grüße

lcer
Member: lcer00
lcer00 Oct 24, 2018 at 11:39:55 (UTC)
Goto Top
Zitat von @Lochkartenstanzer:

Zitat von @Penny.Cilin:

Wenn er nur eine USV hat, bleibt ihm nichts anderes übrig.

Falsch. dann hängt man ein Netzteil direkt ans Netz und eines an die USV!

lks

PS: Ich gehe davon aus, daß die zwei Netzteile wegen der Redundanz und nicht wegen der Last drin sind.

Kann ich ja dann so machen, aber ich würde das als Ursache ausschließen. An der USV hängen auch andere Systeme und die sind zufrieden.

Grüße

lcer
Member: lcer00
lcer00 Oct 24, 2018 at 11:43:59 (UTC)
Goto Top
Hallo,

Zitat von @Penny.Cilin:

Der Server dient als HyperV Host, sonst ist nichts weiter drauf installiert (außer Treiber, Datensicherung, Antivirus, icinga2 Agent, Elastic-metricbeat)

Nein, ein Host ist ein Host ist ein Host. Keine Backup-Software und kein AV haben da etwas zu suchen. Und wieso 2 Monitoring Agents?
Nunja, Virenscanner auf einem Host. Da müsste er die Verzeichnisse der VMs auf die Ausnahmeliste setzen. Das macht dann keinen Sinn.
Und zwei Monitoring Agents ist wie zwei Virenscanner. Denn mit wenn der erste nixx findet, findet vielleicht der zweite was. face-wink

Off-Topic:

Das ist auch nur vorübergehend so, ich stelle gerade von PRTG auf Elasticsearch/kibana für die Logs und icinga2 für die aktive Abfragen um. Wer dann die Leistungsdaten übertragen darf ist noch nicht entschieden, das ging über elasticsearch wesentlich scheller zu implementieren. Das ist aber ein anderes Thema.

lcer

Grüße

lcer
Member: chgorges
chgorges Oct 24, 2018 at 13:53:17 (UTC)
Goto Top
Zitat von @lcer00:
Kann ich ja dann so machen, aber ich würde das als Ursache ausschließen. An der USV hängen auch andere Systeme und die sind zufrieden.

Ok, wenn die Geräte keine Stromabschaltung in dem Zeitraum geloggt haben, bleiben eigentlich nur noch die Firmwareupdates vor Hardwaredefekt.
Member: lcer00
lcer00 Oct 25, 2018 at 08:08:18 (UTC)
Goto Top
Hallo,

iLO Event Log
> Server power removed.
> Brown-out: System configured to always remain off after power is restored.
> 

Das Active Health System Log werde ich dann mal HPE zukommen lassen.
Hab ich so gemacht. Auswertung war, dass eine nicht durch die Hardware ausgelöste Stromverbrauchsspitze einen "brownout" ausgelöst hatte und der Server abgeschaltet hat. Die Ursache für die verstärkte Spannungsanforderung soll ich in Betriebssystem oder Anwendungssoftware suchen. Und den Power Regulator Mode soll ich von "HP Dynamic Power Savings Mode " in "Maximum Performance" ändern.

Wir hatte zu dem Zeitpunkt eine etwas höhere Auslastung des Systems durch parallele Kopiervorgänge vom NAS auf den Server (die liefen aber auf einer VM). Ist das eine denkbare Ursache?

Grüße

lcer
Member: falscher-sperrstatus
falscher-sperrstatus Oct 25, 2018 at 08:11:55 (UTC)
Goto Top
Möglich ist es, würde HPE mal prüfen lassen, ob die Konfiguration Netzteil -> Hardware passt.
Member: StefanKittel
StefanKittel Oct 25, 2018 at 09:19:23 (UTC)
Goto Top
Hallo,

nur so halb.
Ein Brown-Out ist ein "Kurzzeitige Spannungsabsenkung infolge von Überlastung aufgrund unvorhergesehener Ereignisse".
Quelle: https://de.wikipedia.org/wiki/Stromausfall#Einteilung

Also wenn der Server mehr Strom braucht als die USV liefern kann.
Aber dann hätte die USV das protokollieren müssen.

Mehr Sinn macht der Hinweis von certifiedit.net
Der Effekt würde auch auftreten wenn der Server mehr Strom braucht als das Netzteil liefern kann.
Dann würde die USV davon nichts mitbekommen.

Stefan
Member: Lochkartenstanzer
Lochkartenstanzer Oct 25, 2018 updated at 09:23:29 (UTC)
Goto Top
Zitat von @lcer00:

Wir hatte zu dem Zeitpunkt eine etwas höhere Auslastung des Systems durch parallele Kopiervorgänge vom NAS auf den Server (die liefen aber auf einer VM). Ist das eine denkbare Ursache?

Funktionieren noch beide Netzteile? ggf. mal testen, indem man jeweils nur ein Netzteil mal abschaltet.

Zumindest scheinen sie unterdimensioniert für die Spitzenlast zu sein.

lks
Member: lcer00
lcer00 Oct 25, 2018 at 09:31:33 (UTC)
Goto Top
Hallo,

Habe nochmal bei HP nachgefragt, knackige Aussage: Ursache ist die BIOS-Einstellung "HP Dynamic Power Savings Mode" und alles wird gut wenn ich auf "maximum performance" stelle.

Ich werde das mit den Netzteilen trotzdem mal testen.

Grüße

lcer
Member: Lochkartenstanzer
Lochkartenstanzer Oct 25, 2018 at 09:33:41 (UTC)
Goto Top
Zitat von @lcer00:

Hallo,

Habe nochmal bei HP nachgefragt, knackige Aussage: Ursache ist die BIOS-Einstellung "HP Dynamic Power Savings Mode" und alles wird gut wenn ich auf "maximum performance" stelle.

Es ist aber trotzdem ein Unding, daß der Server sich abschaltet, statt einfach die Netzteile hochzufahren. Denn ein wenig ,ehr Strom ist nie wichtiger als die Kudendaten.

lks
Member: chgorges
chgorges Oct 25, 2018 at 09:58:07 (UTC)
Goto Top
Zitat von @Lochkartenstanzer:
Es ist aber trotzdem ein Unding, daß der Server sich abschaltet, statt einfach die Netzteile hochzufahren.

Wieso Unding?
Zum Glück macht er das bevor die Kiste in Flamme aufgeht. Wir kennen ja auch die Konfiguration des Servers nicht, aber wenn er 24 HDDs, 2 CPUs, zig GB Ram und nur 2x 500Watt Netzteile hat, ist auch die Physik irgendwann am Ende, da gibt es dann nichts mehr zum Hochfahren...

Was die Aussage vom HP Support angeht, versuch das mit Maximum Power, Best Practise bei Virtualisierung (zumindest VMWare) ist eigentlich OS Control.
Member: lcer00
lcer00 Oct 25, 2018 at 10:03:01 (UTC)
Goto Top
Zitat von @chgorges:

Wieso Unding?
Zum Glück macht er das bevor die Kiste in Flamme aufgeht. Wir kennen ja auch die Konfiguration des Servers nicht, aber wenn er 24 HDDs, 2 CPUs, zig GB Ram und nur 2x 500Watt Netzteile hat, ist auch die Physik irgendwann am Ende, da gibt es dann nichts mehr zum Hochfahren...

na so dazwischen:

2x460 Watt bei 2 CPU, 8 Platten, 64GB Ram und eine Netzwerkkarte mit 2xSFP+ 10Gbit

Grüße

lcer
Member: Lochkartenstanzer
Lochkartenstanzer Oct 25, 2018 updated at 11:19:24 (UTC)
Goto Top
Zitat von @chgorges:

Zitat von @Lochkartenstanzer:
Es ist aber trotzdem ein Unding, daß der Server sich abschaltet, statt einfach die Netzteile hochzufahren.

Wieso Unding?
Zum Glück macht er das bevor die Kiste in Flamme aufgeht. Wir kennen ja auch die Konfiguration des Servers nicht, aber wenn er 24 HDDs, 2 CPUs, zig GB Ram und nur 2x 500Watt Netzteile hat, ist auch die Physik irgendwann am Ende, da gibt es dann nichts mehr zum Hochfahren...


Wenn die BIOS-Einstellugen helfen, die Kiste am laufen zu halten, heißt das, daß die Netzteile genug Leistung haben auch bei Hochlast weiterzuarbeiten. Das ist genauso, wie wenn Dein schlaues Auto Dich auf Null runterbremst, weil Du als Geschwindigkeitsbegrenzung 130 angegeben hast und kurz zum überholen 150 fahren wolltest.

lks

Zitat von @lcer00:

2x460 Watt bei 2 CPU, 8 Platten, 64GB Ram und eine Netzwerkkarte mit 2xSFP+ 10Gbit

PS: Zweimal 450Watt für so eine Kiste finde ich etwas untertrieben. Ich hätte da mindestens zwei 750er, eher 1000er verbaut. Um redundante Netzteile sinnvoll einzusetzen benötigt man welche, die die Last auch alleine stemmen können.
Member: lcer00
lcer00 Oct 25, 2018 at 11:39:50 (UTC)
Goto Top
Vielleicht verstehen wir das alle auch nur falsch:

iLO Advanced license not installed
For the ultimate remote management experience, extend the capabilities of iLO with the iLO Advanced license. The iLO Advanced license provides a number of unique capabilities, including the ability to improve power efficiency.
Reduce power consumption and reclaim trapped power and cooling capacity with power regulation and Dynamic Power Capping: 
Capture average and peak power consumption as well as ambient inlet temperature to more accurately budget power and cooling resources.
Automatically regulate power consumption to reduce power usage during light workloads and provide maximum performance under heavy workloads.

Klarer Fall, man braucht die iLO Advanced Lizenz. face-smile

Grüße

lcer
Member: keine-ahnung
keine-ahnung Oct 25, 2018 at 11:50:15 (UTC)
Goto Top
Moin,
Zweimal 450Watt für so eine Kiste finde ich etwas untertrieben.
ich auch.
IMHO hat HPE damals bis auf eine Standardkonfiguration alle anderen mit 2 CPU bestückten Büchsen auch mit 2 800W Netzteilen vertickt. Aber eine gab es mit 2x 460W tatsächlich ab Werk.

LG, Thomas
Member: Penny.Cilin
Solution Penny.Cilin Oct 25, 2018 at 11:51:30 (UTC)
Goto Top
@icer00

Die iLO Advanced Testlizenzen kann man soweit ich weiß bei HP runterladen. Diese sind 30 bzw. 60 Tage gültig. Weiß ich jetzt nicht mehr ganz genau, das liegt 4 Jahre zurück.

Ansonsten eine/oder mehrere iLO Advanced Lizenz(en) kaufen, wenn man es benötigt.

Gruss Penny.
Member: lcer00
lcer00 Oct 25, 2018 at 11:55:27 (UTC)
Goto Top
Danke, gibt's immer noch.

Grüße

lcer
Member: Penny.Cilin
Penny.Cilin Oct 25, 2018 at 11:58:27 (UTC)
Goto Top
Dann hast Du somit wenigstens die Möglichkeit zu testen. Wir hatten damals glaube ich 10 Testlizenzen.

Gruss Penny.