joscha14
Goto Top

DELL Power Edge 2800 crasht ohne sichtbaren Grund

Hallo an die Experten,

wir haben einen gut 4 Jahre alten Power Edge 2800 von DELL, welcher als Oracle Datenbankserver und virtueller Host (Microsoft Virtual Server) läuft.
Das BS ist Win2003 R2 und wird von mir betriebssystemseitig auf dem aktuellen Stand gehalten.
Der Server lief bislang stabil und ohne Probleme durch.
Seit vergangene Woche zickt er rum. Urplötzlich ein Absturz in der Nacht. Früh stand er im Bios beim Raid-Controller mit:

memory/battery problems were detected.
The adapter has recovered, but cached data was lost.
Press any key to continue.

Die Meldung kommt immer nach einem Crash, beim normalen Booten nicht, was bedeutet, das er durch den harten Absturz nicht alle Daten auf die Platte schreiben konnte.
Eine Oracle-Instanz mußte wiederhergestellt werden.
Keine Einträge in den Protokollen.

Nächsten Tag wieder das gleiche.

Mit dem DELL-Support alle Firmwareversionen aktualisiert, Hardwaretests durchgeführt alles o.k. - Donnerstag lief er durch, aber Freitag Abend das gleiche Spiel wieder.

Ich weiß gar nicht, wo ich noch ansetzen soll.
In den letzten 3 Wochen nichts installiert, geupdatet oder verändert.
Sieht eigentlich nach einem Hardwarefehler aus, aber auch die DELL-Tools finden keine Probleme. Ich habe zwar noch 1 Jahr Gold-Support bei DELL, aber die wollen nicht auf gut Glück irgendwelche Komponenten tauschen.
Hat jemand eine Idee?

Danke.

Jörg

Content-Key: 153646

Url: https://administrator.de/contentid/153646

Printed on: April 25, 2024 at 09:04 o'clock

Member: simsons
simsons Oct 24, 2010 at 14:14:36 (UTC)
Goto Top
Verfügt der Server über eine Redundante Stromversorgung ?
Wenn nicht, schon mal die USV gecheckt?

mfg
Member: joscha14
joscha14 Oct 24, 2010 at 14:41:21 (UTC)
Goto Top
Hallo Simsons,

ja, redundante Stromversorgung und Lüfter, Raid 5 für die Daten und Spiegelung des Systems.
USV ist eine große 30KVA-Anlage, welche die komplette EDV versorgt. Die anderen Server bzw. PC's laufen stabil. USV wurde auch erst vor ein paar Wochen gewartet und die Batterien alle erneuert...

Anwendungs- und Systemprotokoll sehen mustergültig aus. Keine Fehler oder Warnungen.

Die Crash's traten auch zu unterschiedlichen Zeiten auf. Ich kann keine Zusammenhänge zu bestimmten Aktionen oder Belastungen (z.B. Datensicherung) erkennen.

Man bin ich ratlos...


Jörg
Member: simsons
simsons Oct 24, 2010 at 14:57:44 (UTC)
Goto Top
1) Lässt sich feststellen wann die Ausfälle genau waren ( Uhrzeit )
Was sagt das Ereignisprotokoll?
2) Wann kommt bei euch die Putzfrau mit dem Staubsauger?

3) Tut mir leid, viel mehr fällt mir von hier aus nicht ein.

mfg
Member: joscha14
joscha14 Oct 24, 2010 at 15:29:15 (UTC)
Goto Top
Ja, es gibt ja die Einträge im Systemprotokoll, wann das System unerwartet beendet wurde. Habe ich jetzt aber nicht auf die Minute im Kopf, muß ich morgen mal schauen (Server ist gerade wieder mal down).

Die Putzfrau kommt alle 14 Tage Mittwoch bei mir mal reingeschneit und hat aber die Order nicht die roten Dosen für ihren Sauger zu nehmen face-wink
Der Hausmeister ist da auch immer dabei und schaut da mit hin.

Trotzdem, viele Dank und schönes Restwochenende.


Jörg
Member: joscha14
joscha14 Nov 25, 2010 at 10:35:21 (UTC)
Goto Top
Hallo zusammen,

schnell noch die Lösung: Raid-Controller defekt

Nach einer Änderung an der Auslagerungsdatei (von "vom System verwaltet" auf "feste Größe") war 14 Tage lang Ruhe. Prima, dachte ich, Problem gelöst.
Dann erneuter Absturz. Diesmal fand er den internen Raidcontroller nicht mehr.
Austausch durch den Service - jetzt läuft er wieder.
Der Ausfall hat sich also scheinbar vorher bereits angekündigt, leider haben die Diagnosetools versagt.
Vielen Dank.

Jörg