existenz
Goto Top

Fehler Disk ID 7 Fehlerhafter Block raid 5 system

Guten Tag zusammen,

langsam bin ich etwas am verzweifeln.
System: Microsoft Windows Server 2003 SP2
Exchange Server
Raid 5 System - MegaRaid SAS 8308ELP

Seit einen Systemabsturz erscheint immer wieder in der Ereignissanzeige folgendes: Disk Fehler ID: 7
Fehlerhafter Block bei Gerät \Device\Harddisk1

lässt mich vermuten das eine der Platten einen defekt hat. Leider finde ich im Array Manager keinerlei Fehler. Daher weiß ich nicht welche Platte ausgetauscht werden müsste. chkdsk hat auch keine Ergebnisse gebracht.

Ein weiteres Problem ist vermutlich dadruch entstanden, Fehler Code 7011 Service Control Manager - Zeitberschreitung (30000 ms) beim Warten auf eine Transaktionsrckmeldung von Dienst NtFrs. - Dies hat bewirkt das das System für wenige Minuten komplett eingefrohren ist und die Verbindungen in Outlook getrennt wurden. Habe das aber behoben indem ich die Zeit für eine Zeitüberschreibung in der Registry erhöht habe.

Kann mir jemand erklären wie ich herrausfinde welche der drei Platten einen defekt hat. Wäre dann wohl der schönste weg diese einfach auszutauschen.

Viel Dank schonmal,
André

Content-Key: 152118

Url: https://administrator.de/contentid/152118

Ausgedruckt am: 28.03.2024 um 15:03 Uhr

Mitglied: SamvanRatt
SamvanRatt 30.09.2010 um 16:10:53 Uhr
Goto Top
Hi
da scheint keine direkt defekt zu sein (sonst muß dein Kontroller anspringen, er kann ja durch N+1 den Fehler auf einer HD beheben, egal wie viel), sondern dein Kontroller meldet keinen Fehler/Daten zurück (evtl meldet die HD auch keinen Fehler und gibt Mülldaten zurück; das hatte ich mit Seagate und Fujitsu HDs einmal in unterschiedlichen ICP Vortex Controllern) und wird dann vom OS als defekt (Block) erkannt. Solche Fehler kenne ich eigentlich nur von unserem Areca und Highpoint Kontrollern, bei denen dann meist ein BSOD folgt; Was passiert wenn du einen chkdsk /r anwirfst?
Alternativ: nimm die HDs offline raus und teste sie einzeln mit den Herstellertools oder fast besser mit einem dummen ddrescue /dev/sdx /dev/null; die mit Fehlern dann im Offline noch rausnehmen und durch eine Fehlerfreie ersetzen
Gruß
Sam
Mitglied: existenz
existenz 30.09.2010 um 18:43:30 Uhr
Goto Top
wenn ich chkdsk /r mache - findet er nichts... keinen fehler... jetzt tritt auch wieder der Fehler Code 7011 Service Control Manager - Zeitberschreitung (30000 ms) beim Warten auf eine Transaktionsrckmeldung von Dienst NtFrs auf. DAs bewirkt das, das System für einige Minuten komplett einfriert und Exchangeverbindungen getrennt werden. Mit meiner Lösung die Zeitbeschränkung hoch zu setzten lief es nur kurzfristig stabieler - 3 stunden etwa....
Mitglied: SamvanRatt
SamvanRatt 30.09.2010 um 19:33:18 Uhr
Goto Top
Wie viele BadBlocks meldet denn dein chkdsk (kannst du im Eventlog-System-winlogon nachsehen)? Die Probleme die ich in der Richtung kenne stammen alle von einem Fehlverhalten HD/Controller her: wenn der Kontroller bei x sek keine Daten bekommen hat (HD) muß er die HD entweder deaktivieren oder den Block markieren/austauschen. Dein OS sollte nur bei nicht wiederherstellbaren Blöcken (von 3 members im R5 also zwei gleichzeitig Bad). Bisher entspricht es meiner Erfahrung wenn die HDs nicht den Richtlinien folgen, sprich vom (controller) Hersteller auch nicht dafür erlaubt sind; da hatte ich selbst schon ein Array aus 16 Hds bei der am Tag so zwei ausfielen und ich erst nach dem Wechsel der alten Marke (SGT) auf die neue (HIT) keine Ausfälle in JAhren vermelden mußte; Problematisch war dabei eher das die HD einwandfrei im Test und Verhalten war aber mit dem Timing des Controllers (Areca) gar nicht zurecht kam.
Gruß
Sam
Mitglied: existenz
existenz 01.10.2010 um 08:47:22 Uhr
Goto Top
kannst du mir vielleicht helfen wie ich die festplatte lokalisiere welche sich hinter \Device\Harddisk1 verbirgt?
Mitglied: SamvanRatt
SamvanRatt 01.10.2010 um 09:12:52 Uhr
Goto Top
Hi
ja das ist die Windowsbezeichnunng für die erste Logische HD; das ist die OS Ansicht, sprich dein R5 Array ist damit gemeint. Bei einem Hardware RAID soll das OS auch nichts davon sehen (transparent); wenn dann muß dein Kontroller das sehen (entgegen meiner teils schlechten Erfahrung mit bestimmten Kombinationen).
An Deiner Stelle (mußte das ja auch schon öfters durchgehen), würde ich folgendes machen:
a) Treiber im OS auf Stand bringen
b) Firmware im Kontroller auf Stand bringen
c) SMART Werte auslesen+HD's einzeln (offline) mittels ddrescue 1:1kopieren um auf Lesefehler zu stoßen; danach SMART erneut auslesen und vergleichen. [sofern du drei HDs nur hast kannst du sie ja alle parallel testen; bei 10 oder 15k HDs geht das ja innerhalb einer Stunde]
d) sofern die HDs in Ordnung sind solltest du asap einen anderen Kontroller angehen und solange möglich ein Image von der jetzigen Inst ziehen (HDs wieder online).

Solltest du eine def HD finden, kannst du sie mit der R5 Rebuild Funktion ersetzen, zur Not (lesefehler auf zweiter dazu) kannst du immer noch ein Image mittels ddrescue erstellen.

Wenn alle Stricke reißen: ich lebe von solchen Fällen. Vermutlich ist es aber ein simpler Bug im Kontroller (SMART Werte lügen nur selten)
Gruß
Sam
Mitglied: existenz
existenz 07.10.2010 um 10:18:25 Uhr
Goto Top
Nur zur Info - Problem war ein Defekter USB-Kontroller.... jetzt läuft wieder alles Problemlos
Mitglied: SamvanRatt
SamvanRatt 07.10.2010 um 10:32:43 Uhr
Goto Top
Hi
hast du eine HD am USB Kontroller dran (die kriegt natürlich auch Harddisk Kennung)?
Gruß
Sam
Mitglied: existenz
existenz 07.10.2010 um 10:35:57 Uhr
Goto Top
ja hatte ich - die sicherungsplatte war über usb angeschlossen. Festplatte hat einen Crash.
Mitglied: SamvanRatt
SamvanRatt 07.10.2010 um 11:00:22 Uhr
Goto Top
Ja dann klar; habe an die Möglichkeit gar nicht gedacht das du noch ein anderes System benutzt