remiko
Goto Top

DL585 G2 startet nicht mehr, LED 2 blinkt rot

Hallo Zusammen,

ich hatte bis gestern einen funktionierenden HP DL585 G2 als ESXi laufen. Seit ich heute versucht habe die 4 CPU (Opteron 8218HE) gegen 4x Opteron 8435 zu tauschen, will er einfach nicht mehr bis zum BIOS laufen. Selbst nach Rückbau auf die Originalen CPU, bleibt es beim selben Fehlerbild:
Er lässt mitten im Selbstcheck die "Internal system health LED" rot blinken und piept dazu im Takt. In diversen Foren spricht man von Fehlercodes, aber wo soll ich diesen ablesen? die LED blinkt konstant. Es gibt leider kein Bild am Monitor, so dass ich quasi blind bin.
Er scheint parallel den Selbstcheck fortzuführen, denn die Festplatten-LEDs leuchten und flackern als wenn sie eine nach der anderen geprüft werden. Irgendwann geht der Server dann einfach aus, schaltet sich selbst wieder ein (piept nicht mehr) und macht einen kurzen Startversuch, geht aber erneut aus und diese Reboot-Schleife schient endlos. Alles ohne Monitorsignal...

Kennt sich jemand mit diesem Dinosaurier aus oder kann von neueren Modellen Rückschlüsse auf diesen ziehen? Sind mir die VRMs durchgebrannt oder wie kann ich das Fehlerhafte Teil finden OHNE eine Hardwareschlacht zu inszenieren?

vielen Dank im Voraus für Eure Ideen

Content-Key: 307375

Url: https://administrator.de/contentid/307375

Ausgedruckt am: 19.03.2024 um 07:03 Uhr

Mitglied: Kraemer
Kraemer 16.06.2016 aktualisiert um 16:43:49 Uhr
Goto Top
Hier kannst du die beispielsweise "ablesen"
Keine Ahnung was deine Kiste für ein Bios hat.
Mitglied: keine-ahnung
keine-ahnung 16.06.2016 um 16:45:14 Uhr
Goto Top
Moin,
Selbst nach Rückbau auf die Originalen CPU, bleibt es beim selben Fehlerbild
ist puttgespielt? Ich bau doch auch keinem 110jährigen mehr ein Herztransplantat ein??

Versuch zu gucken, was ILO sagt, wenn es das (1)585 schon gab. Ansonsten beim Metallsammler Deines Vertrauens abwerfen.

LG, Thomas
Mitglied: 119944
119944 16.06.2016 aktualisiert um 17:41:49 Uhr
Goto Top
Moin,

hast du dabei vielleicht irgendwelche Pins auf dem Board zerstört?
Ansonsten kann es bei Servern welche schon ewig durchlaufen auch zu Problemen kommen wenn diese ausgeschalten werden und z.B. die Kondensatoren beschädigt sind.

Warum schraubst du auch noch an dem alten Ding rum? Den sollte man höchstens in Rente schicken...
Aktuell ist G9!

VG
Val
Mitglied: RemiKo
RemiKo 16.06.2016 um 18:02:56 Uhr
Goto Top
Danke schon mal für die schnellen Antworten.

"hast du dabei vielleicht irgendwelche Pins auf dem Board zerstört?"
die CPU´s haben hier keine echten PINs mehr, das sind nur Kontakte die auf dem Sockel aufliegen.

"Ansonsten kann es bei Servern welche schon ewig durchlaufen auch zu Problemen kommen wenn diese ausgeschalten werden und z.B. die Kondensatoren beschädigt sind."
Solche Probleme sind mir bewusst, allerdings möchte ich nicht blind Geld für Ersatzteile ausgeben, ohne zu wissen welches defekt ist. Das ist ja genau die Frage von mir. Wie kann ich dem Ding mehr Infos über die Ursache der Arbeitsverweigerung entlocken?

"Warum schraubst du auch noch an dem alten Ding rum? Den sollte man höchstens in Rente schicken... Aktuell ist G9!"
jep, aber es ist eben billiger für nur 100,- € einen Dinosaurier aufzurüsten, als einen neuen G9 mit gleicher Ausbaustufe zu kaufen? Ich glaube die neuen Server kosten dann hohe 4-stellige Beträge oder mehr.

Aktuell gebe ich noch nicht auf den Dino zu retten face-wink
Mitglied: RemiKo
RemiKo 16.06.2016 um 18:08:54 Uhr
Goto Top
"Versuch zu gucken, was ILO sagt, wenn es das (1)585 schon gab."
hm, ich glaube den Port habe ich, nur habe ich keine Ahnung wie ich den nutzen kann. Muss ich erst mal recherchieren (Tools, Einstellungen etc.) oder kannst Du mir das aus dem Kopf sagen?
Mitglied: Vision2015
Vision2015 16.06.2016 aktualisiert um 18:40:30 Uhr
Goto Top
hm..
keine Ahnung vom Server...
kein Geld über für einen Neuen...
und das Manual ist wohl schon zu staub verfallen...
wer hat den die ILO config erstellt ?
Frank
Mitglied: keine-ahnung
keine-ahnung 16.06.2016 um 18:54:07 Uhr
Goto Top
hm, ich glaube den Port habe ich
??? Lass mich raten ... der Port ist bestimmt :443 face-wink? Besser wäre für Dich zu wissen, was der NIC für eine Adresse hat ... dann könnte man mit einem IE darauf zugreifen face-smile

LG, Thomas
Mitglied: clSchak
clSchak 17.06.2016 um 08:46:51 Uhr
Goto Top
... mit einer sehr alten Java Version und dem IE max v9 oder im Kompatibilitätsmodus laufen lassen ... face-smile.

Wir haben hier auch noch ein paar so alte Schätzchen, ich hoffe für den TO das es kein produktives System ist.

Ansonsten: http://h10032.www1.hp.com/ctg/Manual/c00778937 evtl. im Gehäuse nach weitere LEDs schauen, der scheint intern ein paar mehr zu haben.
Mitglied: RemiKo
RemiKo 18.06.2016 um 10:11:32 Uhr
Goto Top
@Frank: ja, keine Ahnung habe ich, sonst würde ich mich ja hier nicht nach Wissenden umschauen. Ich habe in meinem ganzen Leben noch nie einen ILO Port benutzt. Allerdings habe ich bereits mit IMM oder RSA gearbeitet. Ich wusste nur nicht wie man den ILO konfiguriert (BIOS, extern, Zusatzmodule etc.) und dass er scheinbar das gleiche ist.

@thomas und @clschark: Danke, ich habe nun mit Wireshark die IP raus bekommen, scheitere jetzt aber am Benutzer und Passwort. Der Standard ist es nicht mehr, was man auch an der komischen IP-Adresse erahnen konnte. Diese Maschine habe ich mal vor ein paar Jahren geschenkt bekommen. Leider über 3 Ecken, so das ich jetzt versuchen muss den Admin zu erreichen. Nur wenn die alle Ihre Maschinen mit gleichem Account versehen sollten, wird er mir diesen nicht verraten.

Ich sehe im Moment 3 Chancen, welche ich am Montag versuche zu beleuchten:
1.) Account für ILO ermitteln
2.) SNMP-Trap der ILO auseinander nehmen in der Hoffnung auf Details
3.) den Reset der ILO durchführen (sofern ohne Bildausgabe/BIOS möglich)

Info am Rande: Es ist kein Produktivsystem, aber ein Testsystem welches nach und nach zu einem Produktivsystem mutiert (durch Gewohnheit und Arbeitserleichterung). Im Moment habe ich für meine Kollegen einen deutlich kleineren Ersatzserver aufgesetzt in dem die wichtigsten VMs laufen können. Somit habe ich mehr Zeit für die Analyse und Rettung des Originals.

Danke allen schon mal für die Unterstützung, ich halte Euch auf dem laufenden face-smile Auch wenn ich hier gefühlt für die ein oder andere Belustigung zu sorgen scheine. Naja, wer den Schaden hat... face-wink
Mitglied: keine-ahnung
keine-ahnung 18.06.2016 um 12:10:40 Uhr
Goto Top
Moin,
Ich sehe im Moment 3 Chancen, welche ich am Montag versuche zu beleuchten:
pass aber auf, dass Du Dir die Augen nicht verblitzt face-smile!
Es ist kein Produktivsystem, aber ein Testsystem welches nach und nach zu einem Produktivsystem mutiert
Der Oppa im Pflegeheim muss jetzt nicht täglich arbeiten, über kurz oder lang soll er aber schon regelmässig neue smartphones entwerfen ...

LG, Thomas
Mitglied: RemiKo
RemiKo 20.06.2016 um 13:01:01 Uhr
Goto Top
Also jetzt mal der Zwischenstand. Ich habe Dank Eurer Hinweise den Server mal aus dem Schrank gezerrt und geöffnet.

Im Fehlerfall wird der Code 42 angezeigt und die 8 Bänke der CPU 1 leuchten fröhlich. Auch wenn ich nur 2 RAM-Riegel je CPU stecke, kommt dieses Fehlerbild. CPUs habe ich zwischen 1 und zwei auch schon durchgetauscht, wobei es mit dem Teufel zugehen müsste, wenn die Originalen (auch) defekt wären.
Wenn er dann das erste mal selbständig abschaltet, kommt noch die LED für "I/O BD" dazu. Diese scheint auf die Systemplatine zu verweisen. Ich vermute mal das damit mein CPU-Memory Board gemeint ist. Denn die andere Platine hat ja nur die Power und die Erweiterungsslots.

Was mich an der ILO2 weiter gebracht hat, war eine deutsche Anleitung aus dem Netz, welche mir den Systemwartungsschalter beschrieben hat. Mit dem Schalter kann man das Passwort der ILO abschalten face-smile und dann so ohne weiteres sich einloggen.

Aber mehr kann ich trotzdem nicht erkennen. In den Menüs der ILO sind keine Informationen über Störungen zu finden und wegen dem dauernden Aus und An des Servers kann vermutlich die ILO auch keine echten Prüfungen vornehmen...
img_0579_small
Mitglied: Kraemer
Kraemer 20.06.2016 um 14:04:59 Uhr
Goto Top
Angenommen meine Informationen stimmen, müsste die 42 auf Fehler mit dem Arbeitsspeicher hinweisen.

Da blieben 3 Möglichkeiten:
- die Riegel sitzen nicht richtig
- du verwendest defekte Riegel
- die Solts / das Board ist im Eimer

Theoretisch könnte auch noch die Spannungsversorgung vom Netzteil zu Gering sein - dabei sollte er aber eigentlich einen anderen Fehler anzeigen.

Einfach mal den RAM komplett ausbauen und 2 Riegel wieder sauber einstecken.
Wenn das nicht klappt 2 andere Riegel testen.

Gruß Krämer
Mitglied: keine-ahnung
keine-ahnung 20.06.2016 um 14:21:34 Uhr
Goto Top
Moin,
- die Riegel sitzen nicht richtig
- du verwendest defekte Riegel
8 am Stück?
Einfach mal den RAM komplett ausbauen und 2 Riegel wieder sauber einstecken.
Aber Handbuch ziehen --> die Bestückung erfolgt dann nicht beliebig (ist zumindest bei den neueren Modellen so)!
Auch wenn ich nur 2 RAM-Riegel je CPU stecke, kommt dieses Fehlerbild
Wenn die Teile korrekt positioniert sind, wird es wohl das Bord partiell zerschossen haben ...

LG, Thomas
Mitglied: Kraemer
Kraemer 20.06.2016 aktualisiert um 14:26:10 Uhr
Goto Top
Zitat von @keine-ahnung:

Moin,
- die Riegel sitzen nicht richtig
- du verwendest defekte Riegel
8 am Stück?
Es muss / braucht nur einer defekt sein / nicht richtig sitzen...

Krämer
Mitglied: keine-ahnung
keine-ahnung 20.06.2016 um 16:44:36 Uhr
Goto Top
Es muss / braucht nur einer defekt sein / nicht richtig sitzen...
keine-ahnung ... face-smile! Das Schiff stammt noch aus einer Zeit, als HP richtig durchdachte Server gebaut hat. Warum sollten die jeder RAM-Bank eine LED sponsern, wenn sie das dann nicht ausdiskriminiert bekommen? Aber wie gesagt ... keine-ahnung face-smile.

LG, Thomas
Mitglied: Kraemer
Kraemer 20.06.2016 um 16:46:16 Uhr
Goto Top
1 Wort: Kurzschluß face-smile
Mitglied: RemiKo
RemiKo 21.06.2016 um 23:24:23 Uhr
Goto Top
@Kraemer: so hatte ich es leider bereits ohne Erfolg getestet (Riegel von CPU 3). Auch mit 2 je CPU, dennoch leuchten 8 LEDs?!
Da beim Abschalten die "I/O Bd"-LED dazu kommt, vermute ich auch, dass der Server hin ist.

Ich hatte auch gestern Abend ein Gespräch mit einem Admin einer anderen Firma. Diese setzen ebenfalls HP DL58x Server ein. Er sagte mir, dass sie auch nach dem Ausschalten eines solchen Server diese Fehlersymptome gehabt hatte (Piept, zeigt Health LED am Frontpanel, schaltet sich selbst aus und wieder an). Allerdings haben die einen Wartungsvertrag und der HP-Techniker tauschte das Board und alles lief wieder...
Kann jetzt das gleiche Problem sein, muss es aber nicht.

@thomas: Der Oppa braucht keine Smartphones mehr entwickeln, er geht auch nicht in Rente, vermutlich wird er der Organspende zugeführt face-wink

Da das Ende nun relativ sicher scheint, muss ich meine Diagnose auch einstellen und wieder produktiv arbeiten. Wie wir mit der Lücke umgehen ist zur Zeit noch in Klärung.

Ich danke Euch allen für die Anregungen und Hilfestellungen! Sollte sich noch eine Lösung ergeben, poste ich es natürlich.

Gruß
Rico