falkit
Goto Top

Suse RAID-1 scheinbar defekt - allerdings beide Festplatten

Hi zusammen,
ich sitze hier aktuell vor einem Webserver (SuSE Linux 9.0) auf dem das RAID-1 defekt sein soll.
cat /proc/mdstat liefert mir folgende antwort:

Personalities : [raid1]
read_ahead 1024 sectors
md0 : active raid1 sda1[1]
1052160 blocks [2/1] [_U]

md1 : active raid1 sdb2
513984 blocks [2/1] [U_]

md2 : active raid1 sda3[1]
513984 blocks [2/1] [_U]

md3 : active raid1 sda5[1]
10490304 blocks [2/1] [_U]

md4 : active raid1 sda6[1]
10490304 blocks [2/1] [_U]

md5 : active raid1 sda7[1]
1052160 blocks [2/1] [_U]

md6 : active raid1 sdb8
174112320 blocks [2/1] [U_]

Was mich wundert, ist dass mal die eine und mal die andere Platte nicht genutzt wird, mdadm --detail /dev/mdX gibt mir für die fehlerhafte Platte "faulty removed" aus.
Wenn hier wirklich die Hardware defekt sein soll, würde mich das sehr wundern, so viel "Glück" kann man doch nicht haben, dass sich die Plattenfehler genau an den richtigen Stellen abwechseln?
Ein Verzeichnis /etc/mdadm existiert nicht, eigentlich hatte ich hier die mdadm.conf erwartet, um mir die config ansehen zu können.

Kennt jemand von euch einen solchen Fall? Vielleicht muss ich der Kiste ja nur sagen, dass er bitte das spiegeln wieder anfangen soll.

Vielen Dank schon mal

Falk

Content-Key: 230293

Url: https://administrator.de/contentid/230293

Printed on: April 16, 2024 at 09:04 o'clock

Mitglied: 108012
108012 Feb 18, 2014 at 16:51:41 (UTC)
Goto Top
Hallo,

in der Regel sieht es so aus das nur eine HDD Kaputt
ist und dann besorgt man sich eine zweite neue und baut
diese dann in den Server ein und stößt einen Rebuild Prozess
an, der dann erst das RAID wieder herstellt!

Sollten allerdings beide HDDs defekt sein ist das unter Umstände
so dann nicht mehr möglich, dann hilft oft nur zwei neue HDDs zu
kaufen und zu verbauen und dann das Backup wieder einzuspielen.

Vielleicht muss ich der Kiste ja nur sagen,
dass er bitte das spiegeln wieder anfangen soll.
Wohl eher nicht, denn Du solltest erst einmal heraus
finden was genau defekt ist und dann erst weitermachen.

In der Regel wollen RAIDs auch immer eine formatierte neue HDD
haben und dann erst kann man den Rebuild Prozess wieder anstoßen.

Gruß
Dobby
Member: FalkIT
FalkIT Feb 18, 2014 at 16:58:19 (UTC)
Goto Top
Hi Dobby,
erst mal danke für die schnelle Antwort.

Sollten allerdings beide HDDs defekt sein[...]

Wie gesagt kommt es mir sehr unwahrscheinlich vor, dass auf sda die Bereiche für md2, md3, md7 und auf sdb die für md0, md1, md4, md5, md6, md8 defekt sein sollen.

Wohl eher nicht, denn Du solltest erst einmal heraus
finden was genau defekt ist und dann erst weitermachen.

Hast du hierzu eine Idee wie ich das herausfinden soll? mdadm sagt mir nur im wechsel "faulty removed" zu den beiden Platten.

Danke & Gruß

Falk
Mitglied: 108012
108012 Feb 18, 2014 at 17:56:17 (UTC)
Goto Top
Also so wie ich das sehe solltest Du dann einfach mal ein
Backup zur Hand haben und die ganze Sache neu aufsetzen
bzw. zwei neue HDDs besorgen und dann eben diese auswechseln
respektive noch einmal ein Rebuildversuch anstoßen und wenn das
nicht funktioniert sollte man den Server wohl platt machen und
das Backup wieder einspielen.

Was soll es denn auch wenn beide HDDs hinüber sind kann man
wohl oder übel nichts mehr machen und wenn keine anderen
Tools zur Verfügung stehen sollte man das auch in Betracht
ziehen dürfen.


Gruß
Dobby
Member: Lochkartenstanzer
Lochkartenstanzer Feb 18, 2014 at 18:34:05 (UTC)
Goto Top
Zitat von @FalkIT:


Was mich wundert, ist dass mal die eine und mal die andere Platte nicht genutzt wird, mdadm --detail /dev/mdX gibt mir für
die fehlerhafte Platte "faulty removed" aus.

Warum die Platte "faulty" ist, kann viele gründe haben. Vielleicht hat sie nur zu lange gebraucht, um zu antworten, z.B. weil die Platten zuviele schwebende Lesefehler haben. Da es durchaus sein kann, daß beide Platten Ausfallerscheinungen zeigen, insbesodnere wenn es baugleiche aus der gleichen Charge sind, kann sowas diuchaus passieren, wenn mal die eine und mal die andere zu langsam antwortet. Dann fliegt halt die Partition aus dem RAID raus, bei der das zuerst pasiert.

Wenn hier wirklich die Hardware defekt sein soll, würde mich das sehr wundern, so viel "Glück" kann man doch
nicht haben, dass sich die Plattenfehler genau an den richtigen Stellen abwechseln?

Nicht wil die sich abwechseln, sondern weil mal die ein udn mal die andere zu langsdam antwortet.

Ein Verzeichnis /etc/mdadm existiert nicht, eigentlich hatte ich hier die mdadm.conf erwartet, um mir die config ansehen zu
können.

Muß auch nicht existieren.


Kennt jemand von euch einen solchen Fall? Vielleicht muss ich der Kiste ja nur sagen, dass er bitte das spiegeln wieder anfangen
soll.

Vielleicht solltest Du als erstes schleunigst Deine Daten in Sicherheit bringen. Dann würde ich mal die smart-werte der Platten überprüfen, insbesodnere sowas wie "soft read error rate", "reallocation event count", etc.


Dann mal hdd-test druchlaufen lassen. eventeull hast du ja andere hardware-fehler.

lks
Member: FalkIT
FalkIT Feb 19, 2014 at 14:17:19 (UTC)
Goto Top
Danke an euch beide für die Tips, ein Backup ist natürlich vorhanden.
Aktuell prüfe ich erst einmal, mittels badblocks -v /dev/sdX ob defekte Blöcke gefunden werden, momentan sind es auf sda einige aber der Scan wird wohl noch bis morgen dauern.
Member: Lochkartenstanzer
Lochkartenstanzer Feb 19, 2014 at 15:22:17 (UTC)
Goto Top
Zitat von @FalkIT:

Danke an euch beide für die Tips, ein Backup ist natürlich vorhanden.
Aktuell prüfe ich erst einmal, mittels badblocks -v /dev/sdX ob defekte Blöcke gefunden werden, momentan sind es auf sda
einige aber der Scan wird wohl noch bis morgen dauern.

Hast Du vorher ein Image gezogen? Ein badblocks-scan kann der Platte ggf nämlich "den Rest" geben. Und so wie es bei Dir aussieht, ist die zweite Platte auch nicht frei von Fehlern.

lks
Member: Looser27
Looser27 Feb 20, 2014 at 09:57:59 (UTC)
Goto Top
Moin,

bist Du sicher, dass der Raid-Controller in Ordnung ist?

Gruß

Looser27
Member: Lochkartenstanzer
Lochkartenstanzer Feb 20, 2014 at 10:36:06 (UTC)
Goto Top
Zitat von @Looser27:

bist Du sicher, dass der Raid-Controller in Ordnung ist?

nunja, er könnte statt dem mdadm von seinem Suse den von knoppix nehmen. face-smile

lks
Member: Looser27
Looser27 Feb 20, 2014 at 10:40:05 (UTC)
Goto Top
Wenn im Software-Raid-Controller ein Problem ist, haut es Dir auch sofort beide Platten weg.
Denn, nach Ausfallwahrscheinlichkeit, fallen beide Platten nur mit weniger als 1% zeitgleich aus.....
Member: Lochkartenstanzer
Lochkartenstanzer Feb 20, 2014 at 10:48:31 (UTC)
Goto Top
Zitat von @Looser27:

Wenn im Software-Raid-Controller ein Problem ist, haut es Dir auch sofort beide Platten weg.
Denn, nach Ausfallwahrscheinlichkeit, fallen beide Platten nur mit weniger als 1% zeitgleich aus.....

nunja, wenn er mit md-devcies arbeitet, wird er vermulich keinen raidcontroller haben. face-smile

lks