e.t.chen
Goto Top

Server 2008 hängt sich bei Zugriff auf Laufwerk auf

Moin,

Ich habe hier einen Windows Server 2008r2 der eine Datenbankreplikation hält.
Dieser läuft soweit fehlerfrei und unauffällig.
In unregelmäßgen Abständen fällt jedoch die Replikation aus und wir stellen dann fest, dass ein Zugriff auf LW D: (Die Datenpartition) nicht mehr möglich ist.
Sobald man in der Kommandozeile auf die D: - Partition wechselt, hängt sich das CMD-Fenster auf und ich hab nur noch einen blinkenden Cursor. Auch andere Fenster (explorer oder andere Dateibrowser) hängen sich beim Zugriff auf das Laufwerk auf ("...reagiert nicht mehr")

In dem Server sind 6x 500 GB SAS Festplatten verbaut:
- 2x als RAID 1 für die Systempartition (C: ) und
- 4x als RAID5 für die Datenpartition (D: )

Die Probleme gibt es nur mit der D: Partition. Sobald man keinen Zugriff mehr hat, lässt sich der Server auch nicht mehr sauber herunterfahren oder neustarten, weil die Dienste sich nicht beenden lassen.
Ein harter Neustart, Reparatur der Replikation und ähnliche Probleme sind die Folge.

Nach dem Neustart ist zugriffstechnisch dann aber auch wieder alles schick.

Ein HDD-Check war fehlerfrei und chkdsk brachte auch keine Probleme. Ich weiß jedoch nicht, wie aussagekräftig die Checks bei einem RAID sind.

Dell OMSA sagt: alles Online. Es sind jedoch 3 der Festplatten mit gelbem Ausrufezeichen versehen (Zustand nicht kritisch, alle mit gleicher Revisionsnummer, abweichend zu den restlichen Platten, die alle unterschiedliche Revisionsnummern haben). Ich vermute aufgrund der Charakteristik der Revisionsnummern, dass es keine original-Dell Festplatten sind und sie deshalb angemeckert werden. Zumal es beide Platten aus dem unauffälligen Raid1 betrifft und nur eine Platte aus dem problematischen Raid5. Denke also dass das Ausrufezeichen keine große Aussagekraft zu dem Problem hat.

Weiterhin hab ich noch die Windows-Ereignislogs geprüft. Auch hier keinerlei Auffälligkeiten, die zur Fehlerbehebung beitragen könnten.

Ich weiß gerade nicht weiter.
Hat vielleicht von euch noch jemand einen Ansatz, wo ich was prüfen kann und was ich im Fehlerfall vielleicht nochmal testen kann um irgendwie die Ursache ausfindig zu machen?

Vielen Dank schonmal im Vorraus!
e.t.chen

Content-Key: 361127

Url: https://administrator.de/contentid/361127

Printed on: April 23, 2024 at 16:04 o'clock

Member: aif-get
aif-get Jan 15, 2018 at 15:49:02 (UTC)
Goto Top
Hi,

was hast du denn für RAID Controller drinne? Evtl hat einer nen defekt oder wird falsch vom BIOS erkannt.
Hier wären infos ganz gut zur hardware. face-smile
Member: e.t.chen
e.t.chen Jan 15, 2018 at 16:07:18 (UTC)
Goto Top
Das ist ein DELL PERC H700 integrated
Firmware-Version 12.10.7-0001
Treiberversion 4.31.01.64
Member: mihael
mihael Jan 15, 2018 at 19:44:05 (UTC)
Goto Top
Installiere die neuesten Raidcontroller Treiber. Prüfe mal ob es ein Biosupdate oder Treiberupdates für den Raidcontroller gibt.
Was sagt CrystalDisk Info zu den 3Platten?
Member: BassFishFox
BassFishFox Jan 16, 2018 at 00:02:12 (UTC)
Goto Top
Hallo,

Die Probleme gibt es nur mit der D: Partition. Sobald man keinen Zugriff mehr hat, lässt sich der Server auch nicht mehr sauber herunterfahren oder neustarten, weil die Dienste sich nicht beenden lassen.

Sicher das es nur D: ist?

Ich vermute aufgrund der Charakteristik der Revisionsnummern, dass es keine original-Dell Festplatten sind und sie deshalb angemeckert werden. Zumal es beide Platten aus dem unauffälligen Raid1 betrifft und nur eine Platte aus dem problematischen Raid5. Denke also dass das Ausrufezeichen keine große Aussagekraft zu dem Problem hat.

Das solltest Du nicht vermuten sondern genau heraus finden.

Mach ein Komplettbackup von der Kiste. Sieh nach, ob es neuere Firmware / Treiber gibt. Kuemmere Dich um neue Platten. Wenn moeglich loese den Server ab.

BFF
Member: e.t.chen
e.t.chen Jan 16, 2018 at 09:26:38 (UTC)
Goto Top
Danke für den Input.

Bei den Festplatten hab ich mich offenbar ziemlich vertan. Keine Ahnung was ich da gesehen habe... Sorry wegen der Verwirrung.
Also folgendermaßen ist der tatsächliche Aufbau:

- LW C: Raid 1 mit 2x 73GB SAS Dell MBE2073RC (Laut Controller BIOS Fujitsu Platten)
- LW D: RAID 5 mit 4x 500GB SAS. Davon 1x Dell Constellation.2 und 3x Seagate Constellation.2 (Die erste ist nur eine umgelabelte Seagate. Revisionsnummern der Seagateplatten alle gleich. Die Dell hat ne andere)

Die gelben Ausrufezeichen sind wohl, weil der flag "Zertifiziert" bei den Seagate-Platten auf Nein gesetzt ist. (Also nur bei den Seagateplatten und nicht bei denen aus dem RAID1 von LW C:. Wie gesagt: Keine Ahnung, was ich da gestern gesehen habe. Ich werde wohl alt face-sad )

Was mir gerade noch aufgefallen ist, ist dass das Herstellungsdatum der Dell-Platte nicht korrekt ausgelesen wird. Hier steht Tag2, Woche00, Jahr2005 im OMSA. Auf der Platte steht 2011 als Herstellungsjahr.
Ich hätte noch eine weitere Seagate Constellation 500GB SAS Platte hier liegen mit der gleichen Revisionsnummer. Ich könnte die Dell-Platte also austauschen, falls diese das Problem ist. Generell würde das RAID mit 4 identischen Platten sicherlich auch besser laufen, bzw. würde damit zumindest eine mögliche Fehlerquelle ausgeschlossen sein. Was meint ihr?

Noch zu den Versionen: Firmware und Treiber vom Controller sind auf dem aktuellsten Stand.
Member: e.t.chen
e.t.chen Jan 19, 2018 at 07:34:17 (UTC)
Goto Top
Moin,

Ich habe, nachdem es gestern wieder passiert ist, die DELL Platte durch die Seagate ersetzt und das RAID rebuilded.
Mal schauen, ob es jetzt wieder passiert.

Eine Sache ist mir noch aufgefallen:
Der RAID-Controller hat zwei Konnektoren. Aktuell hängen die beiden Systemplatten und die ersten beiden vom RAID5 der Datenpartition an Konnektor 1.
Platte 3 und 4 von dem RAID5 hängen an Konnektor 2. Ist das ungünstig? Sollte ich lieber alle Platten vom RAID5 an einen Konnektor hängen?

Danke und Grüße,
e.t.chen
Member: aif-get
aif-get Jan 19, 2018 at 11:44:27 (UTC)
Goto Top
nimm, alleine der Übersicht und der Performance einfach für jeden SATA Port des Controllers ein jeweiliges RAID-Level zur Brust, dann solltest du später weniger Probleme haben ;)