siccar
Goto Top

Datenverlust - was ging hier schief?

Hallo

Folgende Situation war/ist gegeben:

Server 2008 R2 steht in einer Apotheke und dient als File- und MySQLServer in einer Arbeitsgruppe.
Daten werden auf zwei SATA Festplatten in einem RAID1(ICH8R) gespeichert.

Auf den Clients wird Apothekensoftware zur Warenbewirtschaftung und zum Verkauf eingesetzt.

Heute gegen 10:00 friert der Server ein. Als ich einen Ersatzserver ausliefere und Daten vom RAID1 rüberkopiere muß ich feststellen, daß die letzten Verkäufe aber von gestern ca. 12Uhr sind.
(ps: ich habe SICHER kein Backup genommen, sondern die aktuellen Daten). Zeitstempel der Dateien in die die Verkäufe geschrieben werden, sind auch von gestern.

Wo zum Teufel sind die ganzen Verkäufe von gestern 12 Uhr bis heute 10 Uhr, wenn die Mitarbeiter bis zum Serverabsturz ganz normal arbeiten konnten ? (Artikel aufrufen, Ware übernehmen, Artikel verkaufen).
Dazu muss ich sagen, daß die eingesetzte Software sofort nach jedem Verkauf in die Datei und in die MySQL-Datenbank schreibt und nirgends zwischenspeichert.

Sobald der Fileserver bzw. Datenbank nicht erreichbar ist, stürzen die Clients normalerweise ab bzw. geben einen Warnhinweis aus, doch hier lief für fast 20 Stunden augenscheinlich alles normal, obwohl das letztendlich nicht so war.

A. Welches Szenario hat sich hier abspielen können?
Kann es sein, daß der RAID-Controller bzw. die Festplatten, die Daten für diese Zeit nur im Cache gehalten haben und wegen einem Defekt nicht wirklich geschrieben haben. Somit lief für die Apotheke alles normal, bis der Cache voll war.

B. Wie kann man sich davor schützen. Wie kann man die aktuellen Daten redundant halten?


PS. Der Server muss schon gestern irgendetwas gehabt haben, denn ein geplanter Task (tägliche Vollsicherung), der normalerweise jeden Tag abends ausgeführt wird, wurde gestern abend zum ersten Mal nicht ausgeführt.

Bitte um eure Meinungen. Danke.

Content-Key: 163741

Url: https://administrator.de/contentid/163741

Printed on: April 24, 2024 at 08:04 o'clock

Member: Firewire
Firewire Mar 31, 2011 at 14:14:06 (UTC)
Goto Top
Schätze mal es gab einen Plattenausfall und das Raid war aufgelöst.
Du hast wohl die Daten von der Platte genommen, die gestern die Grätsche gemacht hat. Versuch mal deine Daten von der 2. Platte zu kopieren.
Diese haben dann wohl den neueren Stand.

Zu der deiner Frage B:

Nen gescheiten Hardware-Raid Controller verwenden, der auch Laut gibt wenn sein Array holprig wird.

Gruß
Torsten
Member: bnutzinger
bnutzinger Mar 31, 2011 at 14:27:49 (UTC)
Goto Top
Also, wenn beide Platten physikalisch in Ordnung sind, dann kann es ja nur ein grober Fehler im RAID-Controller sein.
An Cache habe ich auch zuerst gedacht, das hätte aber Bestenfalls eine Lücke im Minutenbereich erklärt, sicherlich keine im Stundenbereich.

Einzige andere Alternative die mir einfällt:
gestern um 12:00 Versagt der Controller und hört auf Daten auf die Platten zu schreiben
In der Zwischenzeit werden alle Anfragen der Clients aus dem RAM (bei einer kleinen DB und einer schlanken App durchaus denkbar) oder eben aus vor diesem Zeitpunkt geschriebenen Dateien auf der Platte bedient.
Heute um 10:00 wird die erste Anfrage gestellt, die nicht aus dem RAM befriedigt werden kann, der Rechner versucht den Zugriff auf die Datei, die überhaupt nie geschrieben wurde und macht ne Grätsche.

Unwahrscheinlich aber denkbar.

Grüße
Bastian
Member: AndreasHoster
AndreasHoster Mar 31, 2011 at 14:52:10 (UTC)
Goto Top
Fehlerhafte Systemzeit?
20 Stunden sind zwar viel, aber bist Du Dir sicher, daß der Eintrag von 10 Uhr gestern auch 10 Uhr gestern passiert ist?
Member: Hubert.N
Hubert.N Mar 31, 2011 at 19:34:45 (UTC)
Goto Top
Moin

Hast du auch beide Platten auf den Inhalt hin überprüft ?

Und zur Frage, wie man so etwas verhindern kann: Setze in jedem Server einen vernünftigen RAID-Controller ein und nicht so ein Möchtegernraid. Da ist gerade der Punkt, an dem man sicher nicht sparen sollte. Wer ein Inel Onboard-RAID, dem können die Darten eigentlich nicht so wichtig sein.

Gruß

Hubert
Member: siccar
siccar Mar 31, 2011 at 20:43:33 (UTC)
Goto Top
An aufgelöstes RAID habe ich natürlich auch als erstes gedacht, doch ich habe beide Platten überprüft, beide haben den gleichen Stand gehabt.
Member: siccar
siccar Mar 31, 2011 at 20:44:55 (UTC)
Goto Top
Systemzeit habe ich ebenfalls überprüft.
Member: siccar
siccar Mar 31, 2011 at 20:55:10 (UTC)
Goto Top
Mir ist schon klar, daß Intel OnBoard RAID ein Pseudo-RAID ist.

Aber sollte sich so ein Szenario mit dem Cache so wie ich es geschildert habe abgespielt haben, dann käme das auch bei den teuersten Controllern ebenso in Frage.
Statistisch gesehen gibts es zuverlässige und weniger zuverlässige Controller und ein Defekt kann bei jedem Exemplar auftreten.

Woher habe ich die Gewissheit, daß ein "angeschlagener Controller" das macht was es machen sollte, sei das jetzt Adaptec, LSI oder Areca.
Member: Hubert.N
Hubert.N Apr 01, 2011 at 15:20:31 (UTC)
Goto Top
Normalerweise deaktiviert Windows den Schreibache selber. Zumindest auf dem Systemlaufwerk. Und einen richtigen Schreibcache hat das Onboard-RAID ja ohnehin nicht.

Wenn beide Platten den gleichen Stand aufweisen, dann hast du wohl Pech gehabt. Aus Erfahrung gehe ich aber davon aus dass der Controller seinen Spiegelsatz "vergessen" hat und deshalb die Daten nur noch auf einer Platte gelandet sind.


Gruß

Hubert