Raid Controller meldet Fehler, HDD Diagnose meldet nichts

Hallo,

Vorab:
ca. 3 Jahre alter Intel XEON Server
Intel SRCSAS144E Raid Controller
Western Digital Raptor mit 150GB
Unrecoverable medium error during recovery

ich hab ein Problem bei dem ich aktuell nicht mehr weiter komme, am Wochenende habe ich nach und nach eine HDD aus dem Raid 5 (mit Hot Spare) herausgenommen und diese ganz normal am PC mit den WD Data Lifeguard Diagnostic und Active Hard Disk Monior mehrfach geprüft und so. Dabei sind meines Erachtens nach keine nennenswerten Fehler auf allen 3 Platten aufgefallen, klar sind die Platten schon etwas gelaufen, die SMART Werte lagen aber alle im grünen Bereich und DLG hat nichts gemeldet!

Gestern schien alles noch recht gut zu laufen, nur heute spinnt der Controller komplett rum, extrem viele Meldungen "Unrecoverable medium error during recovery" auf ALLEN 3 HDDs!

Vorhin habe ich mal Data Lifeguard Diagnostic auf das Raid5 losgelassen und dort wurden dann auch tatsächlich fehlerhafte Sektoren gefunden, was bei den Einzeltest nicht der Fall war.

Spricht das nun eher dafür, dass der Controller eine Macke hat oder das alle HDDs tatsächlich eine Vielzahl an defekten Sektoren haben?

Mein Problem ist nun auch folgendes: Der Server der Probs macht ist der DC mit Unternehmensdaten und die Backups laufen in der letzten Zeit natürlich mit Fehlern durch! Ein neuer 2. Server (ENDLICH!) ist bestellt, nur das bringt mir JETZT gerade leider nichts. Ich habe keine Lust, dass der Server abraucht bevor der neue seine Funktion übernehmen kann.

Was kann ich noch tun? Wie gehe ich am besten vor?

Gruß

Please also mark the comments that contributed to the solution of the article

Content-Key: 141536

Url: https://administrator.de/contentid/141536

Printed on: April 23, 2024 at 23:04 o'clock

7 Comments

Latest comment

Spricht das nun eher dafür, dass der Controller eine Macke hat oder das alle HDDs tatsächlich eine Vielzahl an defekten
Sektoren haben?

Ja. tausche die HDD so schnell du kannst.

Gruß
omma

Hi
die WD Diagnoistics sind leider sehr eng mit Fehlern bestückt, sprich melden auch nur wenn die HD bereits sich nicht mehr meldet. Evtl hast du Timeouts was weder im SMART noch auf der HD selbst protokolliert wird, dein Kontroller (Vermutlich ein ICP Abkömmling) merkt das aber sehr kritisch. Zum Test könntest du die DFT von Hitachi nehmen welche auch andere testen (advanced Test). Leider habe ich die letzten 15 Jahre kein Glück mehr mit WD gehabt (aber viele Hundert davon im Einsatz aufgrund der Geschwindigkeit) und bin immer wieder begeistert wie zuverlässig meine Hitachis dagegen laufen (sind in den selben Rechnern als Backup HD drinnen). Die Velociraptor ist auch mit einem 10% Grundausschuß bei uns verzeichnet...
Eine Lösung wäre (gibt einige Artikel hier dazu) mit ddrescue einen 1:1 Clone von der def HD zu ziehen, Elektronik tauschen (dein Controller merkt sonst den Tausch) und mal sehen was drescue an Lesefehlern meldete.
Gruß
Sam

Danke für eure Beiträge!

Habe das Problem erst einmal anders lösen können
:
Die Flut an Fehlermeldungen wg. defekter Sektoren war ein Software Bug! Ich habe gestern die Raid Console aktualisiert und den Controller neu geflashed. Es scheint als wären die defekten Sektoren nun endgültig repariert/ausgeschlossen, es kommen keine neuen Fehlermeldungen mehr.

@ SamvanRatt bisher hatte ich immer gute Erfahrungen mit WD gemacht. Die neuen Server haben aber Cheetah's drin. Ich werd weg von den Raptoren bei den wichtigen Servern! ;)

Gruß

Hi
ich habe selbst einmal eine HD für IBM mit entwickelt (S0633 ums genau zu nehmen), bzw lassen und die war verschriehen wegen hoher Ausfälle [so rund 80% im ersten Jahr](welche aber alle wegen fehlender Kühlung und damit Temperaturen weit über 50°C verursacht wurden). Meine beiden uralt Modelle laufen/liefen bei mir immer ohne Probleme. Es kommt immer drauf an welche Serie und wie man sie betreibt. Unsere Raptoren sind einfach vom Speed notwendig aber die Ausfallsrate ist halt auch entsprechend hoch (bei 150 Rechnern mit 300Stück), was man halt über die Menge sieht. Leider findet nicht die WDDIags den Fehler sondern RAID und DFT
Gruß
Sam

Prinzipiell sollte man schon für Raid Platten nehmen aus unterschiedlichen Chargen.

Hi
Ich kenne es genau umgekehrt: selbe HD, selbe P/N, selbe Revision und auf jeden Fall selbe Firmware um maximale Gleichheit zu haben. Leider ist das heute selbst beim Hersteller schon schwierig das selbe eingeschickte Bauteil wieder zu bekommen; große Arrayhersteller wie Infortrend oder HP lagern die HDs am Anfang ein und verkaufen sie dann Jahre später teuer weiter. Naja seitdem die Normung in Sachen Latenzzeit, Busarbitrierung, LBA Sektorierung, ... sehr durchgreifend läuft und die Hersteller sich sogar an die Größen halten (drei 80GB HDs von zwei Herstellern und drei unterschiedliche LBA Anzahl) ist dies denke ich nur noch eine Frage der unterschiedlichen Reaktionszeiten. Das Grundkonzept der Symetrie, gerade bei R0/1/2 bliebt aber immer noch sinnig.
Gruß
Sam

Ich meinte Produktions-Chargen PN und Revision und Firmware sollten schon gleich sein.

German solved Question Hardware

Hotly discussed

Check of ZFW Firewallgleixnerd - 5 Comments

Wireguard VPN on UDM Pro behind Fritzbox - Handshake did not completejstricker - 3 Comments

How to set up and configure a Linux GRE tunnelAlexWisha - 3 Comments