flo5780
Goto Top

Server stürzt nach Firmwareupdate alle 3-4 Stunden ab!

DELL Poweredge 2950 (Win Server 2003) stürzt nach Firmwareupdate alle 3 - 4h ab. (Bildschirm friert ein, keine HDD - Zugriffe mehr).
Im Ereignisprotokoll sind keine Fehler eingetragen. Hardware ist in Ordnung.

Hallo zusammen.

Ich habe ein massives Problem mit zwei DELL PowerEdge Servern (PE2950).
Diese werden zur Archivierung von Produktionsdaten in einem industriellen Werk verwendet.
Das Archivierungssystem ist redundant aufgebaut, sodass bei Ausfall / Wartung, o.ä die Daten vom
2.Server weiterhin archiviert werden und sich gegenseitig im Betrieb abgleichen.
Die Server laufen seit fast drei Jahren ohne je ein Problem gehabt zu haben.

Angefangen hat alles mit dem Wunsch des Kunden den integrierten PERC 5i RAID Controller
um einen weiteren RAID 5 - Verbund zwecks HDD-Speichererweiterung aufzurüsten und in
diesem Schritt den Arbeitsspeicher von 2GB auf 4 GB zu erhöhen.

Vor Ort angekommen habe ich zuerst via OpenManage Administrator das System auf Fehler überprüft
und siehe da, bei beiden wurde gemeldet dass der Akku des RAID-Controllers fehlerhaft sei.
Was machen in einer solchen Situation: Den Support anrufen!
Anstatt die Batterien zum Austausch zu senden wird bei DELL allerdings nichts
unternommen so lange die Firmware nicht auf dem neusten Stand ist.

Step 1: Via Server Update Utility die Updates auf den Server gespielt.
Step 2: DELL sieht nun auch ein das die Akkus defekt sind und schickt diese zu!
Step 3: Akkus werden vor Ort getauscht und siehe da: Fehler ist weg.

Der 2. RAID Verbund sowie der Arbeitsspeicher ist mittlerweile auch installiert und
als neue Partition im Betriebssystem angelegt. Alles ohne Probleme, Fehlermeldungen, o.ä.!

Seit dem Update der Firmware (BIOS, RAID-Ctr., Netzwerkkarten, usw.) friert mir nun alle 3-4h
der Bildschirm ein. Die LEDs der Festplatten leuchten noch (Spannung) allerdings wird auf
die Festplatten nicht mehr zugegriffen. Der Server ist Stromseitig noch an, reagiert aber auf nichts mehr!
Einzige Lösung in diesem Zustand: Hardware-Reset.
Nach dem Neustart des Servers ist jedoch rein gar nichts im Ereignisprotokoll zu erkennen.

Also DELL Support erneut kontaktieren. Für den Support Mitarbeiter den gewünschten Hardware-Report
erstellt, worauf man als Antwort bekommt: Die Hardware ist vollkommen in Ordnung, Support Anfrage abgeschlossen!

Wer kann mir weiterhelfen?? Dringend!

Danke im Vorraus!

Content-Key: 139386

Url: https://administrator.de/contentid/139386

Printed on: April 19, 2024 at 22:04 o'clock

Member: wiesi200
wiesi200 Mar 29, 2010 at 10:32:38 (UTC)
Goto Top
Schon mal versucht wieder eine alte Firmware drauf zu spielen?
Member: flo5780
flo5780 Mar 29, 2010 at 10:37:16 (UTC)
Goto Top
Nein!

Wollte diese Möglichkeit umgehen da ansonsten der Support für die Server nicht mehr greift!
(Wobei ich in diesem Fall bemerken musste das der Support auch nicht alles ist!)
Member: wiesi200
wiesi200 Mar 29, 2010 at 10:41:33 (UTC)
Goto Top
Also mir währs zuerst wichtig das der Server wieder läuft. Und wenn's dann geht kann man ja dem Support sagen das die neue FW Version Schrott ist.
Bzw. du erkennst zumindest ob's die Firmware ist (solage hoffentlich nicht alles schlimmer wird).
Member: flo5780
flo5780 Mar 29, 2010 at 10:50:57 (UTC)
Goto Top
...eben!

Wo habe ich das Gewähr das hinterher noch alles läuft! (..also nicht schlimmer wird!)
Noch dazu ist die neue Firmware auch schon 2 Monate veröffentlicht.

Denke bei einer fehlerhaften Firmware hätten die schon von einigen Anwendern mehr die
Hölle heiß gemacht bekommen. Ich habe immer mehr das Gefühl dass das OS den
Absturz verursacht. Denn 3-4h hätte eine fehlerhafte Firmware den Server nicht am Leben gehalten,
oder was meinst Du?

PS: nen Tipp wie ich die FW wieder downgraden kann?
Member: wiesi200
wiesi200 Mar 29, 2010 at 10:58:26 (UTC)
Goto Top
Gewähr hast du nur wenn du das machst was dir der Support sagt.
Ich würd sagen das die Firmware mit den Teibern nicht zusammen passt.

Wie du es downgraden kannst kann ich nicht sagen da ich DELL seit einiger Zeit nicht mal mehr mit der Kneifzange anfassen würde.
Member: flo5780
flo5780 Mar 29, 2010 at 11:07:47 (UTC)
Goto Top
Das habe ich dem Supportler auch gesagt!

Jedoch ist für "DELL-Mitarbeiter" diese Vorstellung ausgeschlossen, da die Firmware
für das Betriebssystem freigegeben ist!

Habe allerdings eben Feedback der Firma die unsere Server als Archivierungssystem nutzt erhalten.
Seit dem SP 2 (am Samstag Mittag) installiert wurde, ist der Server erst 1 Mal abgestürzt!

Komisch! Davor war das Zeitintervall fast immer gleich.
Hast Du ne Erklärung? Klar könnte es sein das hier an den Treibern
was geändert wurde aber wieso tritt es trotzdem "sporadisch" auf??

Bin mim Latein am Ende!
Member: Kekskiller
Kekskiller Mar 29, 2010 at 11:09:53 (UTC)
Goto Top
Moin.

Habt ihr den bestehenden RAM denn mit exakt baugleichen Komponenten erweitert, wenn möglich vom gleichen Hersteller?

Gibt es zeittechnisch für Dich die Möglichkeit, eine (Last)Test des Speichers durchzuführen?

Was sagen denn die Temperaturwerte des Systems?

Die BBU läuft wirklich ohne Fehler? Das "riecht" nach einem Absturz des Controllers. Schonmal in die Logs des Controllers geschaut? Ist da irgend etwas zu finden?

Gruß
Member: Phalanx82
Phalanx82 Mar 29, 2010 at 11:20:02 (UTC)
Goto Top
Hi,

wenn du die Möglichkeit hast, lass doch mal einen Memtest ein paar Stunden laufen.
Vielleicht liegts am neuen RAM den ihr nachgerüstet habt.
Zudem würde ich nachsehen ob die Bausteine vom gleichen Hersteller und vom gleichen
Modell sind.
ggf. mal die alten RAMs alle in einen der Server und die neuen RAMs in den 2. Server
und dann nochmal laufen lassen incl. Memtest.

Wenn das nichts hilft kannst du immernoch die Firmware downgraden oder das SP2 deinstallieren.
aber diese Schritte würde ich als letztes in Betracht ziehen.


Mfg.
Member: flo5780
flo5780 Mar 29, 2010 at 11:20:32 (UTC)
Goto Top
Hallo Kekskiller!

Die Hardwarekomponenten wurden mit Angabe der "ServiceTag"
bei DELL geordert. RAM ist identisch (Bauart und Hersteller)!
Speichertest wurde durchgeführt - ohne Fehler!

Temperaturwerte sind ok! (Serverschrank mit Klimagerät)

Die Logs des RAID-Controllers habe ich bei jedem Report des sogenannten DSET (DELL System E-support Tool)
ausgelesen. Und da kam nie ein Fehler zum vorschein! - Muss fast schon sagen - leider! (Den sonst könnte ich wieder etwas enger einkreisen!)


Noch als Anmerkung: Es sind 2 baugleiche Server die nun beide das Problem haben!
Wäre komisch wenn bei beiden der RAID Ctr das Problem (hardwareseitig) wäre, ausser: Produktionsfehler, oder?
Member: Kekskiller
Kekskiller Mar 29, 2010 at 11:43:34 (UTC)
Goto Top
Ok, dann dürfen/sollten wir RAM-Probleme mal ausschließen können (wobei - alles ist möglich).

Wenn keiner der Lüfter ausgefallen ist, sollten die Innentemperaturen auch ok sein.

Bliebe also nur der Controller und/oder die HDDs... Die Treiber des Controllers hast Du in Windows ebenfalls aktualisiert? Bei den DELLs habe ich fast immer nach dem Firmware-Update auch die Treiber aktualisieren müssen (früher ebenfalls PowerEdge-Server im Einsatz gehabt, momentan jedoch nur noch HP).

Ansonsten fiele mir nur noch ein: HDD (RAID) Stresstest außerhalb der Produktivzeit. Tools wären u.a. Everest, HeavyLoad, HD Tune, HDDScan...

Post scriptum: bei einem PE 2550 mit verbautem PERC 3D/i und U320 SCSI HDDs hatte ich mal ein ähnliches Problem. Da half nur ein murksiges Aufspielen der vorletzten Firmware.
Member: flo5780
flo5780 Mar 29, 2010 at 11:56:28 (UTC)
Goto Top
Kleine Frage an Kekskiller:

Wie hast Du das Firmware - Downgrade gemacht?
Member: Kekskiller
Kekskiller Mar 29, 2010 at 12:00:16 (UTC)
Goto Top
@flo5780: das ging nicht aus Windows heraus, sondern nur mittels Boot-Floppy. Zum Ausführen und Erzwingen des "Down"grades mußten einige Switches gesetzt werden, welche kann ich Dir aber nicht mehr sagen, das ist schon einige Jährchen her face-sad

Ohne Floppy bzw. aus Windows heraus verweigerte das FlashTool das Aufspielen.
Member: flo5780
flo5780 Mar 29, 2010 at 12:19:57 (UTC)
Goto Top
Na da sträuben sich mir gleich die Nackenhaare!!
Juhu sag ich da nur!

Bezüglich der Treiber für Windows so DELL: Werden über das Update Utility mit auf den Server gespielt!

Dann bin ich mal gespannt ob der Server nochmal abschmiert, denn dann ist der Stresstest dran!
Angeblich (So Betreiber vor Ort) wären heute morgen ca. 30 Updates vom WSUS aufgelaufen.
Hoffe das hier vielleicht was nützliches dabei war.

Ansonsten muss der RAID-Ctr dran glauben.
Ob es wohl zu viele Zugriffe für den Controller sind?
Er muss auf 5 HDDs (pro Server) zugreifen.

RAID-Controller (PERC5/i)
- RAID-Konnektor 1: 3x 73GB SAS (davon eine als Hot Spare, OS und Datenarchivierungsprogramm)
- RAID-Konnektor 2: 3x300GB SAS (kein Hot Spare, Produktionsdaten des Archivierungsprogramms)
Member: mrtux
mrtux Mar 29, 2010 at 14:49:52 (UTC)
Goto Top
Hi !

Ich weiss, das hilft dir in deiner Situation nicht weiter aber glaube nicht immer was an den Hotlines der Hersteller so verzapft wird.. Ich mach den Job ja jetzt schon 20 Jahre und was mir da schon für Blödsinn unter gekommen ist, da könnte ich einen Roman drüber schreiben....

Erst letzte Woche hatte ich einen ähnlichen Fall mit einem anderen namhaften Hersteller. Es ging um einen Server mit Vor-Ort Service, der hatte einen (für mich sofort und klar ersichtlichen) Mainboardschaden. Der Mitarbeiter an der Hotline meinte, ich solle erstmal das OS neu installieren (Hä? Kopfkratz...)...Nach einer kleinen Diskussion über Fachkompetenz und einem 105 Dezibel-Schrei ins Telefon, lies er sich dann doch dazu bewegen, den Vor-Ort-Service mit einem Mainboard rauszuschicken. Der Vor-Ort Techniker brauchte ebenfalls keine fünf Minuten um festzustellen, dass der Fehler nur vom Mainboard kommen kann und wechselte es ohne eine weitere Diskussion aus. Der Server läuft seitdem wieder absolut stabil!

Und die Moral von der Gschicht: Glaube der Hotline nicht, zumindest nicht immer... face-smile An den Hotlines kannst Du Glück oder eben auch Pech haben und meiner Erfahrung nach überwiegt eher das Pech... Wie gesagt, der Fall oben ist nur ein Fall von vielen, zu vielen....face-sad

Ich an deiner Stelle hätte auf einer Lieferung der Akkus für den Raidkontroller bestanden, notfalls eben wieder mit 105 Dezibel und gut...

mrtux
Member: flo5780
flo5780 Mar 29, 2010 at 15:09:10 (UTC)
Goto Top
Danke für die Anteilnahme!

Das war mir auch eine Lehre! Das nächste Mal werde ich mich auch
nicht auf solche Dinge einlassen.

Es ist einfach nur soooo etwas von enttäuschend wenn Du als "Kunde"
genötigt wirst ein laufendes System das noch nie Schwierigkeiten gemacht hat
in der Firmware rumzuschrauben und wenn dann nix mehr geht:

"Da haben Sie wohl ein Softwareproblem denn in dem Hardwarereport ist alles ok!"

Zum kot.....!

Und wirst dann einfach abgespeist mit den Worten: Wir würden uns über ein gutes Feedback
in der Kundenzufriedenheitsumfrage freuen!!!