kamenz
Goto Top

HP NetRAID

Predictive failure detected!?

Es geht um einen HP NetServer LH3 mit NetRAID LSI-Controller.
Das "Problem" ist das in der Log der Softwareverwaltung ständig der Fehler "Notify message : Predictive failure detected" auftaucht. Nur sind die Platten neu, womit könnte das zu tun haben?

Content-Key: 25455

Url: https://administrator.de/contentid/25455

Printed on: April 19, 2024 at 08:04 o'clock

Member: leknilk0815
leknilk0815 Feb 08, 2006 at 12:20:21 (UTC)
Goto Top
Hi,

es gibt mehrere Möglichkeiten:

Fremddisk (keine HP)
Firmware (Controller und Disk's)
SCSI Verkabelung

Die HP Disks haben eine Firmware, welche von HP kommt, es kann zu Fehlinterpretationen kommen (Testweise Orginal- HP- Disks einbauen)

Firmwareupdate auf Controller und Disks (sofern die von HP sind)

Kabel prüfen (eher unwahrscheinlich, da die Fehlermeldung auf ein Problem hinweist, das erst noch auftreten kann, z.B. zu geringe Drehzahl der Disk, was auf ein baldiges Lebensende dieser hinweisen würde)

Gruß - Toni
Member: Kamenz
Kamenz Feb 09, 2006 at 08:39:34 (UTC)
Goto Top
Es sind FSC Platten verbaut. Kann es sein das diese Meldungen entstehen weil der Controller teilweise auch Prozessorabfragen an die HDD's sendet die nur von HP's benantwortet werden können?

Danke schon mal!
Member: leknilk0815
leknilk0815 Feb 09, 2006 at 09:36:43 (UTC)
Goto Top
Ich weiß nicht, was Du mit "Prozessorabfragen" meinst, die Platten werden vom Kontroller über die Diskfirmware mittels S.M.A.R.T überwacht, um drohende Ausfälle im Vorfeld melden zu können. Wenn nun der Kontroller von der (non-HP)-Firmware der Platte z.B. die Meldung "Temperatur OK" erhält, der Kontroller aber in diesem Bereich eine Info über die Drehzahl erwartet, wird eine Fehlinterpretation die Folge sein.
Probier mal eine Orginal- HP aus, ich hab noch nie eine Fremdplatte in einem HP getestet.
Ich kann Dir nur aus meiner Zeit bei der Compaq Server Hotline sagen, daß viele Leute billige Fremdplatten kauften (die Compaqs waren aber auch sauteuer), und dann bei uns anriefen, weil die Kisten nicht liefen. Fremd raus - CPQ rein: alles im Lack.
Wie gesagt, kann sein, muß nicht, am Besten testen.
Gruß - Toni
Member: Kamenz
Kamenz Feb 09, 2006 at 09:59:30 (UTC)
Goto Top
Naja billig sind die neu verbauten Platten auch nicht aber um längen billiger als ne Platte auf der "HP" steht. Wir haben bisher nur sehr schlechte Erfahrungen gemacht. Bestes Beispiel, ein NetServer mit 8!!! Platten im RAID5 ist komplett ausgefallen. Nie hatte ein Festplatte gemeckert, einfach *puff*.
Naja anderes Thema ;).
Ich meinte mit Prozessor den Controller der einzelnen HDD. Wie du schon sagtest kann es einfach nur Probleme bei der Kommunication des SMART geben.
Sobald der Server abgelöst wird teste ich das mal.
Member: leknilk0815
leknilk0815 Feb 09, 2006 at 10:31:41 (UTC)
Goto Top
Das von Dir beschriebene Problem mit den 8 Disks ist mir bekannt, auch das hängt mit größter Wahrscheinlichkeit mit Firmwareinkonsistenzen zusammen (HP hat da aber auch keine sichere Lösung). Ich nehme an, daß bei dem Crash keine Platte defekt war oder nur eine, welche den Bus verstopft hat und dann den Rest mitruntergezogen hatte. Ergebnis dürfte gewesen sein (vermutlich war auch eine Hotspare im Spiel und der autom. Rebuild ging in die Hose) daß mehrere Disks auf failed, free und online standen. In dem Fall hättest Du nur die Hotspare mit der defekten Disk tauschen müssen (ausgeschaltet natürlich), die defekte Disk (Auslöser des Chaos) erkennt man im Log an der ersten Disk, die Mist produzierte. Danach das Array komplett löschen und ohne zu initialisieren wieder so konfigurieren, wie es vorher war. Nun noch die getauschte (Hotspare) auf failed setzen (weil die natürlich leer ist), und schon hast Du wieder ein funktionierendes Raid5 (allerdings degraded). Hotspare rein (neue Disk) rebuild starten - wohlfühlen. Falls keine Disk defekt war und keine Hotspare drin war, hätte es gereicht, die Platten wieder von failed auf online zu setzen. Klappt meistens. Die beschriebene Vorgehensweise ist NICHT supported, Datenverlust natürlich nicht 100%ig auszuschliessen (Controllercache), aber oft besser, als einen tagelangen Restore zu fahren.
Gruß - Toni
P.S. um so was produktiv machen zu können, sollte man vorher allerdings geübt haben, da der geringste Denkfehler zu einem Totalverlust führt!!!
Member: Kamenz
Kamenz Feb 09, 2006 at 10:43:21 (UTC)
Goto Top
Wäre schön gewesen wenn so wäre.
Ist aber auch schon 2 Jahre her. 6 Platten haben sich zerlegt, wurde auch nachträglich überprüft, und die Hot-Spare platte schlummerte trotzdem weiter. Auch wenn ich damals ne defekte Platte eingeschoben habe, hat er mir dies nicht angezeigt! (LED)
Member: leknilk0815
leknilk0815 Feb 09, 2006 at 10:54:47 (UTC)
Goto Top
ist normal, ne rote LED bekommst Du höchstens, wenn ohnenhin schon Rauchschwaden das Array verlassen...