sebastian2608
Goto Top

Raid-Controller (Areca) Datenverlust trotz R5

n´Abend liebe IT-Genossen.

erstmal zur Grundsituation:
Habe einen Areca Raidcontroller in einem Server im Einsatz, und habe Heute (da ich bei der Installation des Servers lauter zugleich gekaufte HDD´s verwendet habe) *eine* HDD gewechselt, um einen Totalausfall durch mehrere Festplatten zu vermeiden -> Meine Überlegung:
Die Festplatten haben alle soziemlich die gleiche Lebensdauer, da: gleiches Model, gleiche Kapazität, gleiche Belastung

Soweit sogut;
Habe somit einfach eine HDD aus dem laufenden System entnommen (Raid 5) -> Raidcontroller pipst -> neue HDD rein -> 5 Sek. warten -> pipsen hört auf -> Alles perfekt. Dachte ich.

Habe allerdings im Nachhinein festgestellt, dass einige Daten fehlen.
Da ich vor solchen "spielerein" sowieso immer mehrfache Backup´s anlege war es nicht weiter dragisch, jetzt stelle ich mir dennoch die Frage, ob das normal ist..? Genau dazu ist ein RaidController doch da, um Datenverlust vorzubeugen...?

Raid 5 mit 4 Festplatten (4x1TB) sollte doch völlig ausreichen, um eine Festplatte austauschen zu können...?
Was sind eure Erfahrungen?

Wünsche ein schönes WE face-smile

Sebi

Content-Key: 344198

Url: https://administrator.de/contentid/344198

Ausgedruckt am: 19.03.2024 um 11:03 Uhr

Mitglied: falscher-sperrstatus
Lösung falscher-sperrstatus 22.07.2017 um 22:49:56 Uhr
Goto Top
Moin Sebastian,

wenn du das RAID richtig aufgebaut hast sollte dasn icht der Fall sein. Kanns sein, dass da noch etwas reingespielt hat?

Nebenbei: Nur, weil die Platten alle zur gleichen Zeit eingebaut bzw gekauft wurden heisst das nicht, dass die alle zur gleichen Zeit sterben müssen, sonst müsstest du im Umkehrschluss in einem R5 drei unterschiedliche Platten von unterschiedlichen Jahren und Herstellern verbauen...
Mitglied: sebastian2608
sebastian2608 22.07.2017 um 23:02:44 Uhr
Goto Top
Hallo,

erstmal Danke für deine Antwort.

wenn du das RAID richtig aufgebaut hast
Ist es. Es steht auch in der RC Abfrage korrekt "rebuilding"

Kanns sein, dass da noch etwas reingespielt hat?
Was meinst du? Nach dem Rebuild? Der ist noch nicht fertig. Arbeitet mittlerweile schon knapp 6Std, das sollte aber normal sein - Bei einem HP Server hat das im R6 mal 2 Tage gedauert... Dazu gekommen ist aber noch nichts, tut es hoffentlich auch nicht, hab ja jetzt schon die Backup´s eingespielt.

Nebenbei: Nur, weil die Platten alle zur gleichen Zeit eingebaut bzw gekauft wurden heisst das nicht, dass die alle zur gleichen Zeit sterben müssen
Müssen natürlich nicht, dennoch stelle ich mich hierbei lieber auf die sichere Seite und tausche hin&wieder eine Platte, da die Chanzen natürlich um ein vielfaches höher sind.

LG,
Sebi
Mitglied: LordGurke
Lösung LordGurke 22.07.2017 aktualisiert um 23:40:40 Uhr
Goto Top
Über wie viele HDDs läuft das RAID?
Gerade bei R5 kannst du dir eigentlich sicher sein, dass einzelne Fehlende Dateien nicht mit einem RAID-Fehler erklärbar sind — denn damit wäre dein gesamtes Dateisystem frittiert und es würden nicht nur Dateien fehlen.
Wenn du sicher gehen willst, schau auch mal in die Logs des Servers, ob die plötzlich dicke Lücken haben.
Bei einem R1 in einem NAS habe ich mal gesehen, dass tatsächlich irgendwann die Platten nicht mehr synchron beschrieben wurden und beim Wegfall der einen Festplatte nur noch Monate alte Daten auf der anderen waren. Bei einem R5 über drei Platten kann dir sowas aber garantiert nicht passieren face-wink
Mitglied: chgorges
Lösung chgorges 22.07.2017 um 23:42:20 Uhr
Goto Top
Bei einem RAID-Aufbau hat man immer die Möglichkeit, zwischen Quick und Full Initialize zu wählen.
Bei Ersterem ist steht das Volume sofort bereit, ist allerdings inkonsistent, zudem sich dieser Zustand auch nach ein, zwei Jahren Betriebszeit unter Umständen nicht ändern wird -> Datenverlust bei Plattenwechsel.

Bei Letzterem musst du, je nach RAID-Größe, ein paar Stunden warten, bis das Volume bereitgestellt ist, allerdings ist es dann konsistent.

Wie sieht es bei dir aus, hat Areca irgendwelche Software mitgeliefert, mit welcher du Konsistenzchecks planen kannst?
Mitglied: Pjordorf
Lösung Pjordorf 23.07.2017 um 00:04:57 Uhr
Goto Top
Hallo,

Zitat von @sebastian2608:
Abfrage korrekt "rebuilding"
Das bedeutet das du solange warten sollst bis das der Rebuild durchgelaufen ist. Auch wenns dauert, ist aber so.

Was meinst du? Nach dem Rebuild?
Eher vor dem Rebuild, z.B. gelöscht, verschoben oder eine Anwendung meinte die Dateien zu grillen usw.

Der ist noch nicht fertig. Arbeitet mittlerweile schon knapp 6Std, das sollte aber normal sein
Das hängt nur von dein HW Gebilde ab, hier ist einfach Rechneleistung pur gefragt. Natürlich spielen auch IOPs, Drehzahlen, Caches, Bus Systeme usw. eine Rolle obs nun 1 Std. oder gar 24 Std. dauert. Auch so kleinigkeiten wie eine BBU sind nicht zu vernachlässigen.

hab ja jetzt schon die Backup´s eingespielt.
Während dein Rebuild noch zugange ist? Mutig Mutig. Aber jetzt Beschweren das irgendetwas angeblich von dein RAID 5 Verbund verbummelt wurde face-smile Wenn dein RAID 5 Verbund irgendetwas verbummelt bzw. verliert ist das Teil nur noch als Elektroschrott zu gebrauchen, ein RAID Verbund darf und tut normalerweise nichts verlieren face-smile Ein RAID Verbund ist keine Datensicherung, es erhöht nur die Datenverfügbarkeit.

Müssen natürlich nicht, dennoch stelle ich mich hierbei lieber auf die sichere Seite und tausche hin&wieder eine Platte, da die Chanzen natürlich um ein vielfaches höher sind.
Das dann eine der verbliebenen Platten die Grätsche beim Rebuild macht. Während des Rebuilds werden die verbliebenen Platten eine Höchstbelastung über längerer Zeit ausgesetzt. Eine Platte mit grenzwertigem Verhalten (Da merkst du noch nichts von) neigt dann schnell auszusteigen. Und dir ist klar was passiert wenn mehr als eine Platte je nach RAID Verbund sich totstellt. Eine Hotspare (auch Global) hilft da doch besser....

Gruß,
Peter
Mitglied: GuentherH
Lösung GuentherH 23.07.2017 um 00:20:58 Uhr
Goto Top
Bei einem RAID-Aufbau hat man immer die Möglichkeit, zwischen Quick und Full Initialize zu wählen.

Wo steht den das?

Bei Ersterem ist steht das Volume sofort bereit, ist allerdings inkonsistent

Du hast da sicher einen passenden Link dazu, wo man dies nachlesen kann.

Sorry, aber wenn das so wäre, dann wäre RAID komplett überflüssig. Das einzige was geschieht, wenn bei einem RAID 5 Verbund eine Platte fehlt, dass das System langsamer ist, weil der fehlende Teil über die Parität berechnet werden muss. Aber einen Inkonsistenz darf es nie und nimmer geben.

LG Günther
Mitglied: 108012
Lösung 108012 23.07.2017 um 02:04:41 Uhr
Goto Top
Hallo,

Da ich vor solchen "spielerein" sowieso immer mehrfache Backup´s anlege war es nicht weiter tragisch,
Das war gut und wenn Du uns nun noch erzählst was das denn genau für RAID Controller ist und ab der auch ein Cachemodul hat und
eine BBU dann wäre das noch besser, als wenn wir hier herumraten müssen oder sollen.

jetzt stelle ich mir dennoch die Frage, ob das normal ist..?
Ja, denn wenn man eine HDD/SDD einfach abzieht und es dem Controller vorher nicht mitteilt und der eben schon ein wenig
älter ist dann kann es locker sein das Deine Daten noch im Cachemodul, von dem wir aber nicht wissen ob es vorhanden ist,
stecken bzw. enthalten sind. Mitunter muss man auch diese Daten dann vom Cache wieder zurück speichern lassen, damit
sie vorhanden sind. Manchmal automatisch, (neuere Controller) und manchmal gar nicht oder per "Befehl" (ältere Controller).

Genau dazu ist ein RaidController doch da, um Datenverlust vorzubeugen...?
RAID ist kein Backup und RAID wird auch nie ein Backup sein!
Wenn ein HDD defekt ist, ist alles weg an Daten was vorhanden war. Wenn es aber einige HDDs sind und die einen halten
die Daten und die anderen die Paritätsbits (Chunks) dann kann entweder eine HDD mit Daten ausfallen oder aber die mit
den Chunks! Wenn nun aber beim Restaurieren des RAIDs eine weitere HDD "flöten geht" oder "abraucht" dann ist meistens
je nach RAID Level Schluss mit restaurieren. Dann lieber alles neu und Backup zurückspielen das dauert nicht so lange und
ist mit Geld schnell wieder flott zu bekommen.

Raid 5 mit 4 Festplatten (4x1TB) sollte doch völlig ausreichen, um eine Festplatte austauschen zu können...?
Und was ist mit den Daten im Cachemodul? Oder hast Du gar keines?

Was sind eure Erfahrungen?
Immer Raid Controller die aktuell sind benutzen (klar für zu Hause geht auch was gebrauchtes) und dann immer mit
Cachemodul und BBU, kann man auch gebraucht kaufen! Markencontroller gibt es nur noch wenige, aber Adaptec
hat sich gehalten und ist für mich mit die beste Firma seit langen, man hat lange Zeit den Namen mit bezahlt aber
das ist auch schon länger her!

Adaptec 6405 oder 6805 Controller sind nicht mehr soooo modern und doch günstig abzustauben! Also bei einem RAID
kommt es auch immer darauf an ob der Hersteller denn die HDDs freigegeben hat, also ob sie für den Einsatz mit diesem
Controller zertifiziert oder freigegeben worden sind. Und zum Schluss noch sollte auch das eingesetzte OS den Controller
unterstützen und/oder eben dieser sollte auch von OS Hersteller zertifiziert werden. Und mal ehrlich für zu Hause eignet
sich eigentlich ein NAS als beste Lösung für solche Einsätze, klar das will auch gesichert werden, aber dort passt meist
alles zu einander und ist noch zu bezahlen.

Nochmal RAID ist kein Backup Im Gegensatz zu einer HDD ist man da schon etwas sicherer sicherlich, aber das sollte
trotz alledem gesichert werden, Du siehst es ja selbst was alles passieren kann.

Gruß
Dobby
Mitglied: Penny.Cilin
Lösung Penny.Cilin 23.07.2017 um 09:31:09 Uhr
Goto Top
Moin,

hast Du die Platte einfach so raus gezogen, oder hast Du diese VORHER auf degraded gesetzt?

Je nach kapazität der Festplatten und nach Ausstattung des RAID-Controllers kann ein Rebuild schon mehrere Stunden dauern.

Und Du hast ein Backup WÄHREND des Rebuilds einsgespielt? - Das ist FAHRLÄSSIG


Gruss Penny
Mitglied: sebastian2608
sebastian2608 23.07.2017 aktualisiert um 10:41:25 Uhr
Goto Top
Hey Leute,

da hat sich ja über Nacht ganz schön was getan.
Nun zu den fehlenden Infos:

Was ist es denn für ein Controller?
Und was ist mit den Daten im Cachemodul? Oder hast Du gar keines?
Es handelt sich bei dem RC meines "Home-Testservers" um einen ARC1280ML mit Chache und Batterie

Hast Du die Platte einfach so raus gezogen, oder hast Du diese VORHER auf degraded gesetzt?
Nein, ich muss ehrlich sagen, ich arbeite das erste mal mit einem Areca RC, bin aber auch noch begeistert von den dingern...

Und Du hast ein Backup WÄHREND des Rebuilds einsgespielt? - Das ist FAHRLÄSSIG
Sorry, hatte mich falsch ausgedrückt - Ich habe "nur" Backup´s der einzelnen VM´s wiederhergestellt, da waren mir 3-4 VM´s flöten gegangen - Diese habe ich aus einem backup wiederhergestellt, und ebenfalls auf den R5 Verbund gespeichert.

Bei einem RAID-Aufbau hat man immer die Möglichkeit, zwischen Quick und Full Initialize zu wählen.
Ich bin mir ziemlich sicher, dass du recht hast. Ich hatte beim initalisieren die Möglichkeit 17Std. zu warten, oder eben nur 2Min - Dass die zweitere Möglichkeit automatisch mit Datenverlust zusammenhängt dachte ich mir aber nicht?! Wäre ja auch schwachsinnig, jeder andere RC bekommt das doch auch hin (Nehme jetzt HP als Bsp.)

Über wie viele HDDs läuft das RAID?
4x 1TB im R5

Je nach kapazität der Festplatten und nach Ausstattung des RAID-Controllers kann ein Rebuild schon mehrere Stunden dauern.
Bin der selben Meinung - Selbst bei meinem HP DL380 G8 dauert das schon seine Zeit - Unter 10Std geht da nichts...

Zitat von sebastian2608:
Abfrage korrekt "rebuilding"
Das bedeutet das du solange warten sollst bis das der Rebuild durchgelaufen ist. Auch wenns dauert, ist aber so.
Wie sollte ich das dann machen, wenn es ein Server wäre, der im RZ steht, und dauerhaft verfügbar sein sollte?
Da kann ich den Server ja nicht einfach mal 2 Tage ruhen lassen. (Abgesehen davon dass ich bei Servern im RZ meist nen Megaraid verbaue)

Hoffe ich habe euch alles beantwortet.

Zu sagen gibt es noch, dass sich der Verbund immer noch im Rebuild befindet.

 >> /64# ./cli64 rsf info
 #  Name             Disks TotalCap  FreeCap DiskChannels       State
===============================================================================
 1  VolR1_2x1TBSSD     2 2000.4GB    0.0GB 12                 Normal
 2    VolR5_4x1TBHDD      4 4000.8GB    0.0GB 5678               Rebuilding
===============================================================================
GuiErrMsg<0x00>: Success.

Das seltsame ist ja eben, dass die verschwundenen, ca. 100GB Größen VM-Datein nur zum Teil verschwunden sind. Im Chache können sich sicherlich keine 5x100GB befinden, also das Chache Problem schließe ich mal aus.

EDIT: Es waren "nur" die kleineren VM´s, also insgesamt ca. 150GB - Dennoch zu viel für den Chache


Grüße
Sebastian
Mitglied: falscher-sperrstatus
Lösung falscher-sperrstatus 23.07.2017 um 10:40:36 Uhr
Goto Top
Moin Sebastian,

also de facto warst du einfach nicht geduldsam genug. Je nachdem verwechselst du auch einfach etwas. Bei einem Raid1 sind ad hoc alle Daten da - logisch. Bei einem Raid5 kann es - je nach Auslastung und Geschwindigkeit des ganzen Systems etwas dauern.
Mitglied: sebastian2608
sebastian2608 23.07.2017 um 10:43:44 Uhr
Goto Top
Morgen,

also de facto warst du einfach nicht geduldsam genug.
Willst du damit sagen, dass wenn ich etwas länger gewartet hätte, die Daten wieder aufgetaut wären?

Wenn ja, haben wir ja schon die Lösung face-smile
Auch wenn ich es mir um ehrlich zu sein nicht vorstellen kann.

Danke an alle Antwortgeber - Habt mir sehr geholfen.
LG & schönes restliches WE
Mitglied: falscher-sperrstatus
Lösung falscher-sperrstatus 23.07.2017 um 10:59:10 Uhr
Goto Top
Ist eine realistische Möglichkeit. Du sagst es ist nur ein Testsystem - die sind meist ziemlich voll und regelmäßig etwas langsamer unterwegs. Von daher realistisch.

Dann bitte als gelöst markieren und ebenso
Mitglied: Vision2015
Lösung Vision2015 23.07.2017 um 11:12:34 Uhr
Goto Top
Zitat von @sebastian2608:

Morgen,
guten Morgen,

also de facto warst du einfach nicht geduldsam genug.
Willst du damit sagen, dass wenn ich etwas länger gewartet hätte, die Daten wieder aufgetaut wären?
aufgetaut nicht, aber aufgetaucht!


Wenn ja, haben wir ja schon die Lösung face-smile
Auch wenn ich es mir um ehrlich zu sein nicht vorstellen kann.
tja.. dann haben wir jetzt deinen Horizont erweitert!
ernsthaft- ein Raid 5 mit 4 X 1TB SATA/SAS dauert seine zeit...


Wie sollte ich das dann machen, wenn es ein Server wäre, der im RZ steht, und dauerhaft verfügbar sein sollte?
Da kann ich den Server ja nicht einfach mal 2 Tage ruhen lassen. (Abgesehen davon dass ich bei Servern im RZ meist nen Megaraid verbaue)

also wenn du möchtest, das deine Server dauerhaft verfügbar sein sollen, sollst du andere Hardware wählen, und ein redundantes system wählen.
ein Megaraid Controller macht noch keinen Sommer...wenn du Server SSD´s verbaust, ist dein Rebuild erheblich schneller.. 15000er sin auch schneller... an die anzahl der spindeln kommt es auch an.. und wie schnell deine Controller CPU ist!

Danke an alle Antwortgeber - Habt mir sehr geholfen.
LG & schönes restliches WE

Frank
Mitglied: LordGurke
LordGurke 23.07.2017 aktualisiert um 13:59:31 Uhr
Goto Top
Zitat von @falscher-sperrstatus:

Moin Sebastian,

also de facto warst du einfach nicht geduldsam genug. Je nachdem verwechselst du auch einfach etwas. Bei einem Raid1 sind ad hoc alle Daten da - logisch. Bei einem Raid5 kann es - je nach Auslastung und Geschwindigkeit des ganzen Systems etwas dauern.

Magst du das einmal genauer erklären? Bei mir will sich nämlich kein Gefühl einstellen, dass ich da einen logischen Zusammenhang verstehe, vielleicht denke ich auch einfach verkehrt...

Ein RAID, egal welches RAID-Level (OK, RAID0 mal ausgeklammert) hält per Definition den Ausfall mindestens einer Festplatte problemlos aus, ohne dass Daten verloren gehen oder nicht zur Verfügung stehen.

Ein RAID5 besteht aus mindestens drei Festplatten (beim TO sogar aus vieren), wobei die Daten so verteilt werden, dass diese beim Ausfall einer Festplatte aus Paritätsdaten von den verbliebenen Festplatten errechnet werden können. Fällt also eine Festplatte aus, sind die Daten weiterhin verfügbar und das System läuft weiter als wenn nichts passiert wäre - Festplattenzugriffe sind halt nur ein wenig langsamer, da der RAID-Controller nun plötzlich XOR-Verknüpfungen machen muss und zudem eine Festplatte für den Lesezugriff fehlt.
Ob der Controller da nun einen Buffer hat oder nicht, dürfte auch keine Rolle spielen - denn der Controller sollte die Daten optimalerweise erst aus dem Buffer werfen, wenn er sie auf alle verfügbaren Festplatten des RAID-Verbundes verteilt hat und evtl. sogar noch mit Read-After-Write sichergestellt hat, dass sie tatsächlich auf der Festplatte liegen. Oder anders gesagt: Wenn eine Festplatte mitten in einem Schreibvorgang verschwindet, verschwinden nicht auch die gerade geschriebenen Daten. Schon alleine deshalb nicht, weil diese Daten ja im Zweifel bereits auf den anderen Festplatten mitgespeichert wurden. Und selbst wenn: Dann ist danach das Dateisystem kaputt - wie gesagt: Blocklevel...

Das ist das Verfahren, was ich so bei bisher allen eingesetzten RAID-Leveln gesehen und erlebt habe. Da ist nichts mit "noja, warte mal den Rebuild ab, dann werden alle Daten wieder da sein". Wir reden hier von Speicherung auf Blocklevel-Ebene - wenn da Daten nicht mehr verfügbar sind, dann ist dein gesamtes Dateisystem irreversibel kaputt und der Server bleibt dir wahlweise mit einem Kernel-Panic oder einem Bluescreen stehen.
Oder er verliert wenigstens das Dateisystem.
Mitglied: Pjordorf
Pjordorf 23.07.2017 um 15:26:47 Uhr
Goto Top
Hallo,

Zitat von @sebastian2608:
Willst du damit sagen, dass wenn ich etwas länger gewartet hätte, die Daten wieder aufgetaut wären?
Die wären weder augetaut noch aufgetaucht. Was nicht da ist ist eben weg. Und ein RAID egal welches, darf noch nicht mal ein Bit gegenüber dem OS verlieren. Tuts das und dann auch noch nur bestimmte Dateien, dann ist dein RAID nur noch zum sammeln von Datenmüll geeignet bzw. du bist dann ohne RAID besser dran face-smile

Auch wenn ich es mir um ehrlich zu sein nicht vorstellen kann.
Nun ja, wenn beim Rebuild noch eine datenwiederherstellung kommt, hat das RAID eben noch mehr zu tun. Aber sobald eine Komponente deines RAIDs bei 100% auslastung ist, dauerts eben ein vielfaches länger bis alles wieder neu eingetütet ist. Daher ein Rebuild abwarten = schneller.

Wie sollte ich das dann machen, wenn es ein Server wäre, der im RZ steht, und dauerhaft verfügbar sein sollte?
Dann solltest du vorher beim Planen deines RZ schon entsprechende technik und Verfahren eingeplant, eingesetzt und entsprechendes Budget bereitgestellt haben. Wer ein Rechnezentrum betreibt was aus einen Server mit lokalen RAID 5 Verbund per eingesteckten RAID Kontroller betreibt, muss halt warten. Selbst Firmen welche für sich alleine z.B. 1 PByte an Daten immer verfügbar haben müssen, werden ohne SAN Lösungen ala EMC² wohl nicht umhin kommen - und das auch noch Redundant. Daher lässt deine Definition von RZ aher an einen einzigen Rechner denken face-smile

RAID Initialisieren
Grob gesagt stell es dir vor wie ein Formatieren einer 360 kB oder 1,44 MB oder 420 MB oder 320 GB oder 2 TB Diskette/Festplatte vor. Schnellformatieren oder normalformatieren. Unterschied: entweder wird nur das Inhaltsverszeichniss neu erstellt oder es werden alle Sektoren ebenfalls beschrieben/gelesen und anschliessend mit einer 0's aufgefüllt. Sicher ist das normale Initialisieren, benötigt aber einfach Zeit - je größer das RAID je mehr Zeit. Sollen Fehler schon vor dem Benutzen deines RAID gefunden und behandelt (ausgeschlossene Sektoren usw.) werden oder erst beim Lesen von Daten Fehler erkannt werden?

Das bei einem RAID 1 nach tauschen einer der Platten eben fast alles sofort wieder da ist liegt daran das die daten nur kopiert werden müssen. Bei einen RAID 5 muß halt alles was auf der ausgefallenen Platte drauf erst Berechnet werden und geschrieb werden. Das Aufwendige ist das Berechnen (Wiederherstellen aus den vorhandenen Daten) der nicht mehr existenten Daten.

Gruß,
Peter
Mitglied: falscher-sperrstatus
falscher-sperrstatus 23.07.2017 um 15:39:24 Uhr
Goto Top
Ist schon richtig mit der SAN, aber für "always on" nimmt man auch andere Lösungen als "nur" ein Raid bzw "nur" eine SAN. Kommt aber auch drauf an, wie man "immer verfügbar" definiert (vorallem, wenn man die notwendigen Kosten zur Umgehung von SPOF' dann vorstellt)...