HP SATA-RAID Proliant ML310 G5 Problem

Im RAID ist aktuelle eine Festplatte ausgefallen.

Hallo zusammen,

ich habe bei einem Kunden folgendes Problem. Er hat einen HP Proliant ML310 G5 Server auf welchem Windows 2003 als primärer DC läuft. Auf diesem System sind zwei HDDs eingebunden, welche über den HP SATA Raid-Controller zu einem Raid 1 zusammengeschaltet sind. Nun ist eine HDD des Raid ausgefallen. Ich habe diese ersetzt und das Rebuild des Raid angestoßen. Dies läuft bis 99% durch, dann bricht der HP Storage Manager ab und meldet einen "Bad Block" auf dem noch funktionierenden Laufwerk. Ich habe bisher keien Möglichkeit gefunden das Rebuilding des Raid unter Ignorierung des Blockfehlers fortzusetzen. Daher Frage Nummer 1, kennt jemand hierfür eine Möglichkeit?

Sollte ein Rebuilding in diesem Fall grundsätzlich nicht möglich sein, sehe ich eine weitere Möglichkeit das System zu retten. Von dem System wird jede Nacht mit Acronis True Image Echo Server 8.163 ein Image erstellt. Nun habe ich mir überlegt, dass ich den Server ganz herunterfahre, die noch funktionsfähige Platte ausbaue und durch eine neue ersetze. Anschließend ein neues Raid konfiguriere und in dies dann per Acronis Notfall-CD das Image der Systempartition einspiele. Das sollte soweit ja gehen. Was ist aber, wenn es dabei zu Problemen kommt also das OS danach z.B. nicht booten will. Kann ich dann ohne weiteres die Platten mit dem neuen Array entfernen und erstmal die alte noch lauffähige Platte wieder einbauen und von dieser boote. Der Server ist der einzigste den der Kunde hat.

Hier noch einige Infos zur Hardware:
- HP SATA Onboard Raidcontroller
- 2 HP SATA HDDs

OS:
Win2003 Server als primärer DC.

Bin für jede Hilfe dankbar. Beiß mir an dem Problem seit Mittwoch schon die Zähne aus.

Gruß
Stefan

Please also mark the comments that contributed to the solution of the article

Content-Key: 152761

Url: https://administrator.de/contentid/152761

Printed on: April 25, 2024 at 18:04 o'clock

14 Comments

Latest comment

Hallo Stefan,

willkommen im Club. Ich vermute, daß auch der ML 310 mit einem "integrierten" Raidcontroller daher kommt?? nvidia??

Da habe ich mir hier: ProLiant ML115 (Soft)raid1 auflösen möglich? auch schon den Hals verbreitert ... Nach meiner - etwas laienhaften - Meinung ist es sicherer, komplett auf diese raid-Lösung zu verzichten. Ich hatte damals - allerdings mit True Image 9.1 - probehalber den SBS auf eine andere Maschine ohne raid rückgesichert, dies schien mir gelungen. Allerdings habe ich das Dingens dann nicht mehr angepaßt und "stress-getestet", da sich mein Problem mit dem nvidia-raid mittels firmware-upgrade - zumindest bis heute - erledigt hatten. Trotzdem gehe ich von Zeit zu Zeit ganz nahe an den Server heran, um zu prüfen, ob ich das Ticken des Zeitzünders schon wieder hören kann ...

Sobald das Ding wieder zickt, tausche ich die Maschine komplett aus - HP kommt mir dann nicht wieder in die Praxis.

Ich würde Dir tatsächlich empfehlen - so noch möglich - aktuelle firmware und die Treiber des "controllers" nach Imagesicherung auch mit der defekten Platte einzuspielen und die Platte danach noch einmal gegen eine neue auszutauschen - was das Ergebnis angeht, wird man sehen. Du brauchst dann die Woche zumindest keinen Lotto-Schein mehr zu kaufen ....

Gruß, Thomas

Hallo Thomas,

danke für die Info. Soweit ich das gesehen habe, handelt es sich bei dem Controller um einen "Adaptec Serial ATA RAID". Zumindest steht es so in im Gerätemanger drin.

Das ganze ist eine richtig unnötiger Mist.

Gruß
Stefan

Das ganze ist eine richtig unnötiger Mist.

Jo, das ist es. Trotzdem würde ich mal versuchen, die Büchse zu updaten, eventuell hilfts ...

Gruß, Thomas

Hallo,

boote die Kiste normal ins Windows ohne ein Rebuild.
Starte Scandisk mit beiden Optionen angehakt, bestätige die folgende Frage
mit "Ja" und Reboote die Kiste.
Lass Scandisk durchlaufen (geht Kaffee trinken, Mittagessen, hol dir eine Zeitung,
ließ etwas über C++... Das dauert nun eine ganze Weile).
Danach sollte Scandisk irgendwann einen Übersichtsbildschirm zeigen mit einer
Zusammenfassung über den Datenträger und mit Sicherheit auch Bytes in Fehlerhaften
Sektoren...
Danach reboote die Kiste bzw. das wird sie selbst tun.
Fahre sie nach erfolgreichem Bootvorgang wieder sauber herunter bzw. starte neu und
rebuilde dein Raid.

Sollte imho nun funktionieren da nun die Fehlerhaften Sektoren in der Platte als Bad
eingetragen, und Spare Sektoren zur Verfügung gestellt worden sind und dein Raid
nun diese auslesen sollte statt der kapputten beim Rebuild.

Ist das Rebuild fertig, boote und schau obs tut danach die Kiste gleich wieder herunterfahren
und auch die 1. Platte austauschen denn die wird als nächstes das zeitliche segnen und
wieder rebuilden.

Mfg.

@Phalanx82

geht das nur bei bestimmten RAID-Typen Soft-RAID/Hard-RAID oder kann man diese vorgehensweise generell versuchen?

Wäre mir nämlich eine sehr große Hilfe.

Gruß Stefan

Das geht generell.

Da wohl in diesem Fall die 2. Platte aus dem Raid1 komplett tot war und
ersetzt wurde, die 1. Platte wohl ebenfalls fehlerhafte Sektoren aufweißt.

Scandisk mit beiden angehakten Optionen (untere reicht, aber in so einem
Fall würde ich natürlich auch das Dateisystem auf Fehler prüfen) nach
fehlerhaften Sektoren auf der kompletten Plattenoberfläche sucht und diese
ggf. in der Internen Fehlertabelle einträgt. Die Platte wird dann angewiesen
diese Sektoren auszuklammern und Spare-Sektoren dafür bereit zu stellen.

Im Oberen Fall sieht das etwa so aus:

Platte mit Raid1 und Kapazität X soll kopiert bzw. rebuildet werden.
Dazu geht der Kontroller her und ließt jeden Sektor nacheinander aus und kopiert
den Inhalt auf die 2. Platte. Befindet sich in Sektor (Hausnummer) 5000 z.B. ein Defekt,
meldet der Controller (und jedes OS das dort Daten lesen/schreiben möchte) einen Fehler.
Scandisk lässt also bei Erkennung dieses fehlerhaften Sektors diesen ausklammern und
einen Ersatzsektor auf der Platte dafür einsetzen. Beim nächsten Zugriff auf Sektor 5000
greift die Platte dann z.B. auf Sektor 999959 irgendwas (ebenfalls erfundene Hausnummer)
zu und gibt die Daten als die von Sektor 5000 zurück.

Da ein Kopieren fehlerhafter Sektoren nicht möglich ist, muss man in solch einem Fall der Platte
halt erstmal mitteilen das dort kapputte Sektoren liegen und diese ersetzen lassen damit der Controller
später die Ersatzsektoren hernimmt statt der originalen.

Allerdings... Und nun kommt der Haken:

Das ganze funktioniert nur auf Dateisystem Ebene. Löscht man die Partition oder wiped die Platte mit 0en
aus, so gehen diese Software seitigen Korrekturen verloren. Da die Software Raid Controller aber meißt auf
der Basis ihrer Virtuellen Laufwerksebene arbeiten lesen sie diese Ersatzsektoren mit.
Geht man runter auf die Hardware ohne Dateisystem Berücksichtigung, siehts minimal anders aus.

An dieser Stelle sollte man die div. Tools der Plattenhersteller nehmen und mit diesen eine Diagnose durchführen.
Finden diese fehlerhafte Sektoren werden die Spare Sektoren "richtig" umgebogen auf Hardware Ebene in der
Tabelle der Platte. Die Scandisk Variante ist also u.U. nur von zeiweiser Dauer, wäre hier aber der 1. Ansatz zur
Lösung des Problems da Du die im Moment noch "funktionierende" Platte ohnehin schnellmöglich austauschen
solltest nach dem 1. Erfolgreichen Rebuild auf die Neue Platte.

Mfg.

Ja, die eine Platte ging am 06.10. über den Jordan und wurde dann durch eine Hotspare-Platte ersetzt. Allerdings lief das Rebuilding nicht durch, weil der Controller bei 99 % abgekotzt hat. Er meldete "Bad Block on Port 1 on 0x000231212 - Read error".

Soweit ich weiß, ist das ein Hardware Raid. Hab den Server leider selbst nicht eingerichtet. Im Gerätemanager steht zumindest was von "Adaptec Serial ATA Host RAID".

Sollte ich es hier dennoch erst mal mit Scandisk versuchen? Ich will die defekte Platte in jedem Fall noch diese Woche tauschen. Für den Tausch mit Image einspielen etc. ist dies aber erst am Freitag Abend also in der Nacht zu Samstag möglich da auf dem System gearbeitet wird und ein mehrstündiges Abschalten daher etwas problematisch ist.

Würde ich wie gesagt an erster Stelle probieren mit Scandisk.

Bricht der Rebuild dann trotzdem ab, schau nach was für Platten das sind und
lade dir beim entsprechenden Hersteller die Diagnostik Tools herunter, sollten
relativ einfach zu finden sein, zumindst bei WD und Seagate ist das kein Problem.

Wenn du Glück hast, reicht Scandisk aus und die Kiste läuft nach danach wieder.
Wenn nicht hast du halt 2-3h Zeit verschenkt und musst mit den Tools ran ;)

Wünsche dir viel Erfolg.

Mfg.

Danke! Hast mir erst mal sehr weitergeholfen.

Werde berichten wie es weiter gegangen ist.

Kannst Du mir noch sagen, wie das Tool für Seagate Platten heißt?

Hi !

Zitat von @Odde23:

Kannst Du mir noch sagen, wie das Tool für Seagate Platten heißt?

Das Tool nennt sich Seatools, für WD Platten nennt es sich Lifeguard Diagnostics, für Hitachi Drive Fitness Test und bei Samsung gibt es mehrere Tools...Jetzt sag aber nicht Du bist der Admin des Servers oder ein externer Service'ler, denn der sollte alle diese Tools (eigentlich) in- und auswendig kennen oder Du bist ganz schön "mutig"... :-P

Nein, bin hauptberuflich SW-Entwickler, muß aber diesen einen Server mit betreuen. Die Grundlagen etc. kenne ich durchaus. Auch habe ich ähnliche Geschichten auch schon gemacht, nur eben nicht in der Konfiguration.

Mein Hauptproblem ist halt, dass die Ausfallzeit des Servers im Moment (saisonal Bedingt nur sehr kurz sein darf).

Hallo zusammen,

chkdsk /f wurde erfolgreich durchgeführt und es wurde dabei auch was repariert. Ob es nun was gebracht hat, werd ich in zwei Tagen wissen, solange braucht das Array-Rebuild. Ich werde berichten was dabei herausgekommen ist.

Gruß
Odde23

Alle Maßnahmen haben leider nicht zum Erfolg geführt. Am WE wird auf dem Server daher eine komplett neuees RAID eingerichtet und die Daten werden per Acronis wieder reingespielt.

Thread daher als gelöst markiert. Dennoch danke an alle für die wertvollen Tipps.

German solved Question Storage systems Hardware

Hotly discussed

Check of ZFW Firewallgleixnerd - 5 Comments