wrikhiro
Goto Top

Raid-5 Verbund immer wieder kurzzeitig nicht erreichbar

Hi,

wir haben seit einiger Zeit Probleme mit unserem Fileserver.

Das Problem ist, dass der RAID-Verbund fast täglich für 5-10minuten nicht erreichbar ist, sprich man kommt weder lokal auf die Partition drauf noch über die Freigaben.
Der Server selbst reagiert etwas verzögert teilweise aber c:\ z.B. ist erreichbar, weshalb ich von einem Problem am Raid Controller von ausgehe.

In der Windows Ereignisanzeige und den Log-files des Controllers lässt sich leider nichts finden.

Laufen haben wir ein Raid-5 Verbund mit einem LSI Controller ( neuste Firmware ) + Windows Server 2008R2, der Server selbst ist von Supermicro.


Hat einer eine Idee ?

Content-Key: 245074

Url: https://administrator.de/contentid/245074

Printed on: April 19, 2024 at 22:04 o'clock

Member: psannz
psannz Jul 30, 2014 at 09:23:11 (UTC)
Goto Top
Sers,

Was sagt das Log im MegaRaid Manager?

Grüße,
Philip
Member: Nr60730
Nr60730 Jul 30, 2014 at 09:41:11 (UTC)
Goto Top
Hat einer eine Idee ?

Moin,

Schattenkopien vom Raid auf eine andere Partition des Raids?
Wird immer wieder gerne genommen.

Gruß
Member: Wrikhiro
Wrikhiro Jul 30, 2014 updated at 09:53:50 (UTC)
Goto Top
Ist ein 3Ware Controller > 3Dm2 aber in den Logs dort ist auch nichts besonderes

außer folgendes was öfters auftritt aber nicht zur Uhrzeit vom "ausfall" der Partition

Send AEN (code, time): 0031h, 07/27/2014 05:49:28
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)

http://i.imgur.com/wav6nEi.png
Member: Wrikhiro
Wrikhiro Jul 30, 2014 at 09:54:10 (UTC)
Goto Top
Der Raid hat nur 1 Partition und VSS ist deaktiviert
Member: psannz
psannz Jul 30, 2014 at 10:18:31 (UTC)
Goto Top
Was mit mit Media Patrols?

Sind die Ausfälle zeitlich vorhersehbar?

Was sagt das Windows Eventlog zu den Ausfallzeiten?


Liegt auf dem Controller auch das OS? Wenn nein, mal den Controller des OS Volumes überprüft? Wenn das System einfriert, etwa weil im OS Raid ne Platte vom RAID1 springt dann friert das aus User-Sicht auch deinen großen RAID samt Freigaben ein.
Auch hier: Windows Event Log sollte Aufschluss geben können.

Hatte das mal mit nem Dell R300 und angeschlossenem MD1000. Selbes Verhalten. Am Ende war es nicht - wie initial auch von mir vermutet - der PERC6/E der die RAIDs auf dem MD1000 verwaltet hat, sondern der "kleine" PERC6/ir mit seinen 2 Festplatten (R1) auf dem das OS lag. Alle 3-4 Tage ist immer dieselbe der beiden Festplatten aus dem RAID gesprungen. Platte getauscht und gut war es wieder. Aber bis der Controller sich wieder gefangen hatte dass er da die Verbindung zu einer Platte über die Wupper ging liefen gut und gern mal 3-5 Minuten ins Land, 10-15 bis alles wieder flüssig wie gewohnt lief.
Member: Wrikhiro
Wrikhiro Jul 30, 2014 at 10:36:51 (UTC)
Goto Top
Müsste ich mal schauen ob und wann die Media Patrol checks eingestellt sind.
Ausfallzeiten sind nicht vorhersehbar, aber müssten zum Großteil im Tagesgeschäft.

Das OS liegt auf einem anderen Controller, werd ich mal überprüfen.
Das System friert in dem Sinne jedoch nicht ein, man kann weiterhin drauf "Arbeiten" nur die die Raid Partition ist nicht erreichbar und der Server reagiert teilweise nicht


Schau mir mal das OS-Raid genauer an
Member: Chonta
Chonta Jul 30, 2014 at 15:10:32 (UTC)
Goto Top
Hallo,

kannst Du zum Zeitpunk des Ausfalls per RDP auf den Server und dort auf die Partition der Freigabe ist zugreifen?
Was sagt das Monitoring über die Performance?
Geht die Leerlaufzeit vor den Ausfall schlagartig auf 0% ?
Wurde der Server vor einiger Zeit neu gestartet und der Controller hat seinen Schreibcache vergessen?

Gruß

Chonta
Member: Wrikhiro
Wrikhiro Jul 31, 2014 updated at 06:06:38 (UTC)
Goto Top
Hi,

ja über RDP kommt man auf den Server drauf aber wie gesagt die Partition ist dann zwar noch da aber man kann nicht drauf Zugreifen.

Monitoring beschwert sich nur über den fehlenden Zugriff auf die Freigabe, die Leerlaufzeit muss ich mal beobachten.
Der Server wurde mehrmals neugestartet Writecache is laut 3dm2 jedoch an.


Die zwei OS SSDs sind an unterschiedlich schnellen Sata ports angeschlossen ( 1x 6Gb ; 1x 3Gb )
Member: Chonta
Chonta Jul 31, 2014 at 06:33:16 (UTC)
Goto Top
Hallo,

wenn Du per RDP noch auf den Server rauf kommst, dann ist das System auch nicht eingefrohren.

Wenn Du veruchst in der RDP Sitzung auf die Platte zuzugreifen, kommt dann eine Fehlermeldung oder dauert es nur ewig bis man rauf kommt?

Da ne Hostpare drins ist, sollte die wenn eine eine Platte das Problem verursacht, diese durch die Spare getauscht werden. Deswegen würde ich sagen di ePlatten sind ok.
Zu prüfen ob das Dateisystem einen Fehler hat, kann nicht schaden. Wenn Dateien nicht gelesen werden können, und mehere Versuchen auf die Datei zuzugreifen, kann sich das ähnlich deinem Problem auswirken.
Der Controller selber oder das Kabel kann auch was weg haben.

Vor allem prüfen was perfmon zur Physikalischen Datenträger Warteschlange (rw), Lerlaufzeit und Disktime sagt.
Was für Dienste ausser Fileserver stellt der Server noch bereit?

Gruß

Chonta
Member: Wrikhiro
Wrikhiro Jul 31, 2014 at 07:58:49 (UTC)
Goto Top
Jup, Server läuft wie gesagt weiter nur die Raid Partition ist nicht erreichbar.
Fehlermeldungen tauchen keine auf man kommt nicht auf den Raid drauf, erst wenn sich das ganze wieder fängt und man auch über die Freigaben draufkommt

Was würdest du empfehlen für ein Dateisystemcheck ? oder reicht da chkdsk /f ( mit r ?)


Hab jetzt ein Auge auf den Graphen, gibt öfters kleinere und größere Ausbrüche ich behalts mal im Auge
http://i.imgur.com/WWKL8it.png

Dienste laufen keine, ist nur ein reiner Fileserver

danke schonmal!
Member: Chonta
Chonta Jul 31, 2014 at 08:10:23 (UTC)
Goto Top
Hallo,

es wird im Forum nicht gerne gesehen, wenn die Bilder extern liegen, also bitte hier reinstellen.

Die Zeitspanne ist komisch:du fängst bei 09:53:10 an dann um 09:54:30 gehts los und dann wechselt der von 09:54:40 auf 09:53:xx ??
Macht der Server Zeitsprünge?

Du hast leider den Logischen Datenträger genommen und nicht den physikalischen. Aber auch der logische zeigt immer wieder vollauslastung für Lese und Schreibzugriffe.
War die Aufnahme von nem Zustand wo nix ging oder wo noch alles normal war?

Ein Langzeitmonitoring wäre für dich von Interesse (MuninNode und Munin z.B.)
Läuft auf dem Server auch ein Virenscanner der jeden Zugriff scannt?
Wieviele Benutzer hast Du?
Gibt es Verzeichnisse in der Freigabe mit vielen klienne und großen Bildchen und die Benutzer gehen immer mit Filmansichtexplorer da rein?
Oder wird auch mit Servergespeicherten Profilen gearbeitet und Ordnerumleitungen die auch auf dem Fileserver liegen?
Es gibt viele die Komopieren Daten aus einer Freigabe auf den Desktop und bearbeiten die Da und speichern die danach wieder hoch, weil Desktop ist ja nicht auf dem Server...

Gruß

Chonta
Member: Wrikhiro
Wrikhiro Jul 31, 2014 updated at 09:55:05 (UTC)
Goto Top
Hi,

die Sprünge kommen vom Graphen selbst die Systemzeit stimmt.

Habs umgestellt auf Physikalisch, die Warteschlange gehen teilweise Immernoch bis zur Grenze ( 1500 ), der Screenshot war vom Normalbetrieb.
http://i.imgur.com/oypTP6R.png ( sorry seh keine Option hier um Bilder hochzuladen )

Nutzen Nagios/Check_MK zu Überwachen der Server, Virenscanner läuft keiner auf dem Fileserver momentan, Benutzer knapp 300
Liegen unterschiedliche Dateien auf dem Server aber auch viele Bilder, die User nutzten die Standard Detail Ansicht vom Explorer

Ja wir benutzen Server gespeicherte Profile ( werden auf einem anderen Server abgelegt ) der Desktop liegt auch auf dem einem Fileserver und nicht lokal
Member: Chonta
Chonta Jul 31, 2014 at 10:09:08 (UTC)
Goto Top
Hallo,

nagios ist aber nicht zur Performancedatenüberwachung geeignet, bzw nicht so gut.
Hast Du schon Checks für Lehrlaufzeit Schreib und Lesewarteschlange?
Wenn nein einrichten.
Und auch einen Check der prüft wie ausgelastet die Nic ist.

Da kein Virenscanner da ist, Controller, Kabel oder ein Benutzerverursachtes Problem. (300 Benutzer sind viel und wenn da auf einmal 50 auf unterschidliche Freigaben zugreifen und dann 500 kleine und große Dateien runterladen wollen und und und.
Die Anzahl der Verbindungen zum Fileserver checken.

Gruß

Chonta
Member: Wrikhiro
Wrikhiro Jul 31, 2014 at 10:38:21 (UTC)
Goto Top
Hey,

NIC Bandbreite+Pakete+Errors werden überwacht ( war z.B. gestern wo es passiert ist im grünen Bereich )
Für die HDDs werden nur die I/Os überwacht, ich schau mal das ich ein check für die Warteschlange auftreibe.
Aber bei einer hoher Warteschlange sollte trotzdem der RAID verfügbar sein ( wenn auch langsam und nicht komplett unerreichbar für mehrere Minuten oder ? )

Dank dir
Member: Chonta
Chonta Jul 31, 2014 at 11:10:22 (UTC)
Goto Top
Hallo,

also, wenn die Leerlaufzeit auf 0% ist und Warteschlangen für lesen und schreiben dann ist die Platte dicht. Und alle Anfragen laufen dann auf Timeout.
Z.B. wenn da jemand der Meinung ist ich suche Datei xyz aber ich hab keine Peilung wo die ist, ach ich durchuche mal die Freigabe bzw das Laufwerk X dann werd ich die finden.
Das der dann mal eben den Server lam legen kann ist dem nicht bewusst.
IO wird die Platte auch on mass haben, aber jeder der auch mal was will, kommt in die Warteschlange und dan irgendwann timeout.

Du kannst ja mal beim nächsten Problem das Netzwerkkabel ziehen und dann den Benutzern die als erstes jammern über die Schulter schauen , oder dem der garnicht jammert.

Gruß

Chonta