Top-Themen

AppleEntwicklungHardwareInternetLinuxMicrosoftMultimediaNetzwerkeOff TopicSicherheitSonstige SystemeVirtualisierungWeiterbildungZusammenarbeit

Aktuelle Themen

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit
GELÖST

Server stürzt nach Firmwareupdate alle 3-4 Stunden ab!

Frage Microsoft Windows Server

Mitglied: flo5780

flo5780 (Level 1) - Jetzt verbinden

29.03.2010 um 12:27 Uhr, 6010 Aufrufe, 15 Kommentare

DELL Poweredge 2950 (Win Server 2003) stürzt nach Firmwareupdate alle 3 - 4h ab. (Bildschirm friert ein, keine HDD - Zugriffe mehr).
Im Ereignisprotokoll sind keine Fehler eingetragen. Hardware ist in Ordnung.

Hallo zusammen.

Ich habe ein massives Problem mit zwei DELL PowerEdge Servern (PE2950).
Diese werden zur Archivierung von Produktionsdaten in einem industriellen Werk verwendet.
Das Archivierungssystem ist redundant aufgebaut, sodass bei Ausfall / Wartung, o.ä die Daten vom
2.Server weiterhin archiviert werden und sich gegenseitig im Betrieb abgleichen.
Die Server laufen seit fast drei Jahren ohne je ein Problem gehabt zu haben.

Angefangen hat alles mit dem Wunsch des Kunden den integrierten PERC 5i RAID Controller
um einen weiteren RAID 5 - Verbund zwecks HDD-Speichererweiterung aufzurüsten und in
diesem Schritt den Arbeitsspeicher von 2GB auf 4 GB zu erhöhen.

Vor Ort angekommen habe ich zuerst via OpenManage Administrator das System auf Fehler überprüft
und siehe da, bei beiden wurde gemeldet dass der Akku des RAID-Controllers fehlerhaft sei.
Was machen in einer solchen Situation: Den Support anrufen!
Anstatt die Batterien zum Austausch zu senden wird bei DELL allerdings nichts
unternommen so lange die Firmware nicht auf dem neusten Stand ist.

Step 1: Via Server Update Utility die Updates auf den Server gespielt.
Step 2: DELL sieht nun auch ein das die Akkus defekt sind und schickt diese zu!
Step 3: Akkus werden vor Ort getauscht und siehe da: Fehler ist weg.

Der 2. RAID Verbund sowie der Arbeitsspeicher ist mittlerweile auch installiert und
als neue Partition im Betriebssystem angelegt. Alles ohne Probleme, Fehlermeldungen, o.ä.!

Seit dem Update der Firmware (BIOS, RAID-Ctr., Netzwerkkarten, usw.) friert mir nun alle 3-4h
der Bildschirm ein. Die LEDs der Festplatten leuchten noch (Spannung) allerdings wird auf
die Festplatten nicht mehr zugegriffen. Der Server ist Stromseitig noch an, reagiert aber auf nichts mehr!
Einzige Lösung in diesem Zustand: Hardware-Reset.
Nach dem Neustart des Servers ist jedoch rein gar nichts im Ereignisprotokoll zu erkennen.

Also DELL Support erneut kontaktieren. Für den Support Mitarbeiter den gewünschten Hardware-Report
erstellt, worauf man als Antwort bekommt: Die Hardware ist vollkommen in Ordnung, Support Anfrage abgeschlossen!

Wer kann mir weiterhelfen?? Dringend!

Danke im Vorraus!
Mitglied: wiesi200
29.03.2010 um 12:32 Uhr
Schon mal versucht wieder eine alte Firmware drauf zu spielen?
Bitte warten ..
Mitglied: flo5780
29.03.2010 um 12:37 Uhr
Nein!

Wollte diese Möglichkeit umgehen da ansonsten der Support für die Server nicht mehr greift!
(Wobei ich in diesem Fall bemerken musste das der Support auch nicht alles ist!)
Bitte warten ..
Mitglied: wiesi200
29.03.2010 um 12:41 Uhr
Also mir währs zuerst wichtig das der Server wieder läuft. Und wenn's dann geht kann man ja dem Support sagen das die neue FW Version Schrott ist.
Bzw. du erkennst zumindest ob's die Firmware ist (solage hoffentlich nicht alles schlimmer wird).
Bitte warten ..
Mitglied: flo5780
29.03.2010 um 12:50 Uhr
...eben!

Wo habe ich das Gewähr das hinterher noch alles läuft! (..also nicht schlimmer wird!)
Noch dazu ist die neue Firmware auch schon 2 Monate veröffentlicht.

Denke bei einer fehlerhaften Firmware hätten die schon von einigen Anwendern mehr die
Hölle heiß gemacht bekommen. Ich habe immer mehr das Gefühl dass das OS den
Absturz verursacht. Denn 3-4h hätte eine fehlerhafte Firmware den Server nicht am Leben gehalten,
oder was meinst Du?

PS: nen Tipp wie ich die FW wieder downgraden kann?
Bitte warten ..
Mitglied: wiesi200
29.03.2010 um 12:58 Uhr
Gewähr hast du nur wenn du das machst was dir der Support sagt.
Ich würd sagen das die Firmware mit den Teibern nicht zusammen passt.

Wie du es downgraden kannst kann ich nicht sagen da ich DELL seit einiger Zeit nicht mal mehr mit der Kneifzange anfassen würde.
Bitte warten ..
Mitglied: flo5780
29.03.2010 um 13:07 Uhr
Das habe ich dem Supportler auch gesagt!

Jedoch ist für "DELL-Mitarbeiter" diese Vorstellung ausgeschlossen, da die Firmware
für das Betriebssystem freigegeben ist!

Habe allerdings eben Feedback der Firma die unsere Server als Archivierungssystem nutzt erhalten.
Seit dem SP 2 (am Samstag Mittag) installiert wurde, ist der Server erst 1 Mal abgestürzt!

Komisch! Davor war das Zeitintervall fast immer gleich.
Hast Du ne Erklärung? Klar könnte es sein das hier an den Treibern
was geändert wurde aber wieso tritt es trotzdem "sporadisch" auf??

Bin mim Latein am Ende!
Bitte warten ..
Mitglied: Kekskiller
29.03.2010 um 13:09 Uhr
Moin.

Habt ihr den bestehenden RAM denn mit exakt baugleichen Komponenten erweitert, wenn möglich vom gleichen Hersteller?

Gibt es zeittechnisch für Dich die Möglichkeit, eine (Last)Test des Speichers durchzuführen?

Was sagen denn die Temperaturwerte des Systems?

Die BBU läuft wirklich ohne Fehler? Das "riecht" nach einem Absturz des Controllers. Schonmal in die Logs des Controllers geschaut? Ist da irgend etwas zu finden?

Gruß
Bitte warten ..
Mitglied: Phalanx82
29.03.2010 um 13:20 Uhr
Hi,

wenn du die Möglichkeit hast, lass doch mal einen Memtest ein paar Stunden laufen.
Vielleicht liegts am neuen RAM den ihr nachgerüstet habt.
Zudem würde ich nachsehen ob die Bausteine vom gleichen Hersteller und vom gleichen
Modell sind.
ggf. mal die alten RAMs alle in einen der Server und die neuen RAMs in den 2. Server
und dann nochmal laufen lassen incl. Memtest.

Wenn das nichts hilft kannst du immernoch die Firmware downgraden oder das SP2 deinstallieren.
aber diese Schritte würde ich als letztes in Betracht ziehen.


Mit freundlichen Grüßen.
Bitte warten ..
Mitglied: flo5780
29.03.2010 um 13:20 Uhr
Hallo Kekskiller!

Die Hardwarekomponenten wurden mit Angabe der "ServiceTag"
bei DELL geordert. RAM ist identisch (Bauart und Hersteller)!
Speichertest wurde durchgeführt - ohne Fehler!

Temperaturwerte sind ok! (Serverschrank mit Klimagerät)

Die Logs des RAID-Controllers habe ich bei jedem Report des sogenannten DSET (DELL System E-support Tool)
ausgelesen. Und da kam nie ein Fehler zum vorschein! - Muss fast schon sagen - leider! (Den sonst könnte ich wieder etwas enger einkreisen!)


Noch als Anmerkung: Es sind 2 baugleiche Server die nun beide das Problem haben!
Wäre komisch wenn bei beiden der RAID Ctr das Problem (hardwareseitig) wäre, ausser: Produktionsfehler, oder?
Bitte warten ..
Mitglied: Kekskiller
29.03.2010 um 13:43 Uhr
Ok, dann dürfen/sollten wir RAM-Probleme mal ausschließen können (wobei - alles ist möglich).

Wenn keiner der Lüfter ausgefallen ist, sollten die Innentemperaturen auch ok sein.

Bliebe also nur der Controller und/oder die HDDs... Die Treiber des Controllers hast Du in Windows ebenfalls aktualisiert? Bei den DELLs habe ich fast immer nach dem Firmware-Update auch die Treiber aktualisieren müssen (früher ebenfalls PowerEdge-Server im Einsatz gehabt, momentan jedoch nur noch HP).

Ansonsten fiele mir nur noch ein: HDD (RAID) Stresstest außerhalb der Produktivzeit. Tools wären u.a. Everest, HeavyLoad, HD Tune, HDDScan...

Post scriptum: bei einem PE 2550 mit verbautem PERC 3D/i und U320 SCSI HDDs hatte ich mal ein ähnliches Problem. Da half nur ein murksiges Aufspielen der vorletzten Firmware.
Bitte warten ..
Mitglied: flo5780
29.03.2010 um 13:56 Uhr
Kleine Frage an Kekskiller:

Wie hast Du das Firmware - Downgrade gemacht?
Bitte warten ..
Mitglied: Kekskiller
29.03.2010 um 14:00 Uhr
@flo5780: das ging nicht aus Windows heraus, sondern nur mittels Boot-Floppy. Zum Ausführen und Erzwingen des "Down"grades mußten einige Switches gesetzt werden, welche kann ich Dir aber nicht mehr sagen, das ist schon einige Jährchen her

Ohne Floppy bzw. aus Windows heraus verweigerte das FlashTool das Aufspielen.
Bitte warten ..
Mitglied: flo5780
29.03.2010 um 14:19 Uhr
Na da sträuben sich mir gleich die Nackenhaare!!
Juhu sag ich da nur!

Bezüglich der Treiber für Windows so DELL: Werden über das Update Utility mit auf den Server gespielt!

Dann bin ich mal gespannt ob der Server nochmal abschmiert, denn dann ist der Stresstest dran!
Angeblich (So Betreiber vor Ort) wären heute morgen ca. 30 Updates vom WSUS aufgelaufen.
Hoffe das hier vielleicht was nützliches dabei war.

Ansonsten muss der RAID-Ctr dran glauben.
Ob es wohl zu viele Zugriffe für den Controller sind?
Er muss auf 5 HDDs (pro Server) zugreifen.

RAID-Controller (PERC5/i)
- RAID-Konnektor 1: 3x 73GB SAS (davon eine als Hot Spare, OS und Datenarchivierungsprogramm)
- RAID-Konnektor 2: 3x300GB SAS (kein Hot Spare, Produktionsdaten des Archivierungsprogramms)
Bitte warten ..
Mitglied: mrtux
29.03.2010 um 16:49 Uhr
Hi !

Ich weiss, das hilft dir in deiner Situation nicht weiter aber glaube nicht immer was an den Hotlines der Hersteller so verzapft wird.. Ich mach den Job ja jetzt schon 20 Jahre und was mir da schon für Blödsinn unter gekommen ist, da könnte ich einen Roman drüber schreiben....

Erst letzte Woche hatte ich einen ähnlichen Fall mit einem anderen namhaften Hersteller. Es ging um einen Server mit Vor-Ort Service, der hatte einen (für mich sofort und klar ersichtlichen) Mainboardschaden. Der Mitarbeiter an der Hotline meinte, ich solle erstmal das OS neu installieren (Hä? Kopfkratz...)...Nach einer kleinen Diskussion über Fachkompetenz und einem 105 Dezibel-Schrei ins Telefon, lies er sich dann doch dazu bewegen, den Vor-Ort-Service mit einem Mainboard rauszuschicken. Der Vor-Ort Techniker brauchte ebenfalls keine fünf Minuten um festzustellen, dass der Fehler nur vom Mainboard kommen kann und wechselte es ohne eine weitere Diskussion aus. Der Server läuft seitdem wieder absolut stabil!

Und die Moral von der Gschicht: Glaube der Hotline nicht, zumindest nicht immer... An den Hotlines kannst Du Glück oder eben auch Pech haben und meiner Erfahrung nach überwiegt eher das Pech... Wie gesagt, der Fall oben ist nur ein Fall von vielen, zu vielen....

Ich an deiner Stelle hätte auf einer Lieferung der Akkus für den Raidkontroller bestanden, notfalls eben wieder mit 105 Dezibel und gut...

mrtux
Bitte warten ..
Mitglied: flo5780
29.03.2010 um 17:09 Uhr
Danke für die Anteilnahme!

Das war mir auch eine Lehre! Das nächste Mal werde ich mich auch
nicht auf solche Dinge einlassen.

Es ist einfach nur soooo etwas von enttäuschend wenn Du als "Kunde"
genötigt wirst ein laufendes System das noch nie Schwierigkeiten gemacht hat
in der Firmware rumzuschrauben und wenn dann nix mehr geht:

"Da haben Sie wohl ein Softwareproblem denn in dem Hardwarereport ist alles ok!"

Zum kot.....!

Und wirst dann einfach abgespeist mit den Worten: Wir würden uns über ein gutes Feedback
in der Kundenzufriedenheitsumfrage freuen!!!
Bitte warten ..
Neuester Wissensbeitrag
Windows 10

Powershell 5 BSOD

(2)

Tipp von agowa338 zum Thema Windows 10 ...

Ähnliche Inhalte
Server-Hardware
Server stürzt neuerdings öfters mal ab. Wo könnte der Fehler liegen? (6)

Frage von Schroedingers.Katze zum Thema Server-Hardware ...

Windows Server
gelöst Server 2012R2 Frage zum DHCP Failover (6)

Frage von Coreknabe zum Thema Windows Server ...

DNS
DNS Server löst Domänenname nicht auf! (6)

Frage von Mar-west zum Thema DNS ...

Heiß diskutierte Inhalte
LAN, WAN, Wireless
gelöst Server erkennt Client nicht wenn er ausserhalb des DHCP Pools liegt (28)

Frage von Mar-west zum Thema LAN, WAN, Wireless ...

Windows Server
Server 2008R2 startet nicht mehr (Bad Patch 0xa) (18)

Frage von Haures zum Thema Windows Server ...

Outlook & Mail
Outlook 2010 findet ost datei nicht (18)

Frage von Floh21 zum Thema Outlook & Mail ...