45455
Goto Top

W2k3 friert nach und nach ein

Hallo,

ich hab hier mit einem W2K3-SP2-Domänencontroller eines kleinen Netzwerks (also eher low-budget) ein Problem.

Der Server lief eine ganze Weile stabil auf der gegenwärtigen Hardware. Lediglich ein Streamer und eine Festplatte wurden an dem bereits verbauten SAS-Controller angeschlossen.
Das lief dann noch ein paar Tage stabil, doch dann fing der Server immer wieder an, nach und nach an der Console einzufrieren.

Erstes Anzeichen ist immer die Meldung, dass der lokale Agent die Verbindung zur über USB angeschlossenen USV verloren hätte. Kurz danach verschwindet an der Console bei Anmeldung die Taskleiste. etwas später ist keine Aktion am Desktop mehr möglich, kurz darauf ist der Desktop bis auf den Hintergrund leer.
Ist niemand angemeldet, verschwindet an diesem Punkt die Anmeldeaufforderung, der Bildschirm ist also auch ohne Anmeldung leer.

Derweil funktonieren alle Datenfreigaben sowie die Anmeldungen im Netz einwandfrei. Remoteverwaltung ist weiterhin möglich. Ein remote-Neustart bleibt zu diesem Zeitpunkt aber in einem nicht mehr ansprechbaren und reagierenden System zurück (Reset notwendig).

Erst sehr viel später (halber bis ganzer Tag) bricht dann auch die Verbindung zu einer kleinen SQL-Datenbank auf dem Server zusammen und nochmal etwas später ist dann keine Anmeldung im Netz mehr möglich und die Freigaben verschwinden.

Board und Controller sind neu, Platten geprüft, Speicher geprüft.
Einzige Fehlereinträge im Eventlog sind gegen Ende mehrfache Neustarts der SQL-Datenbank, die dann immer auch irgendwelche Caches leeren will, aber ansonsten nichts, was auf ein Problem hinweist.
Während der ganzen Zeit ist die Last am Server wie im Netz sehr gering.

Zur Vorgeschichte:
Der Server lief lange Zeit stabil, aber auf zu alter Hardware und dementsprechend langsam.
Das wurde auf dem "kleinen Dienstweg" auf neue Hardware umgesetzt, also keine regelrechte Migration, lief aber mehrere Wochen völlig stabil und auch im erwarteten Tempo sowie ohne jeden Fehlereintrag. Die Umsetzung sollte also unfallfrei gewesen sein. Alte Treiber wurden komplett entfernt.

Ich hab bereits eine Reparaturinstallation ausprobiert, die etwa 1 Tag gehalten hat - dasselbe Phänomen.

Ich werde jetzt noch den Controller mit dem Streamer rausnehmen, um zu sehen, ob der das verursacht (obwohl neu), wäre aber trotzdem froh um Ideen, was da noch auf der Bremse stehen könnte.

System ist ein ASUS P8C-WS mit i7 und 4GB RAM 1333, SAS-HBA Adaptec 1405.
Der onboard-Intel-Controller hat ein RAID1 fürs System und ein RAID5 für Daten.

Gruß
Kai

Content-Key: 212106

Url: https://administrator.de/contentid/212106

Ausgedruckt am: 28.03.2024 um 13:03 Uhr

Mitglied: keine-ahnung
keine-ahnung 22.07.2013 um 19:15:56 Uhr
Goto Top
Zitat von @45455:
Hi,
könnte ja auch mal ein thermisches Problem sein?
System ist ein ASUS P8C-WS mit i7 und 4GB RAM 1333, SAS-HBA Adaptec 1405.
Der onboard-Intel-Controller hat ein RAID1 fürs System und ein RAID5 für Daten.
Mit richtiger Server-Hardeware wäre die Wahrscheinlichkeit von Fehlern vermutlich auch geringer ...

Aber schau mal nach den Temperaturen.

LG, Thomas
Mitglied: Pjordorf
Pjordorf 23.07.2013 um 01:20:20 Uhr
Goto Top
Hallo,

Zitat von @45455:
Der Server lief eine ganze Weile stabil auf der gegenwärtigen Hardware
Was wurde gemacht bevor es nicht mehr Stabil lief?

Lediglich ein Streamer und eine Festplatte wurden an dem bereits verbauten SAS-Controller angeschlossen.
Vor oder nachdem es nicht mehr Stabil lief?

Das lief dann noch ein paar Tage stabil, doch dann fing der Server immer wieder an, nach und nach an der Console einzufrieren.
Zu wenig RAM!

Erstes Anzeichen ist immer die Meldung, dass der lokale Agent die Verbindung zur über USB angeschlossenen USV verloren
Deine HDD ausgelastet so dass dein Server 2003 darauf warten muss? Sehr wahrscheinlich.

bricht dann auch die Verbindung zu einer kleinen SQL-Datenbank auf dem Server zusammen und nochmal etwas später ist dann keine Anmeldung im Netz mehr möglich und die Freigaben verschwinden.
Dein Server hat nur 4 GB RAM, dein OS kann nicht mehr. Wie gross ist denn deine kleine SQL Datenbank?

Das wurde auf dem "kleinen Dienstweg" auf neue Hardware umgesetzt, also keine regelrechte Migration, lief aber mehrere Wochen völlig stabil
Und was wurde dann gemacht?

Ich werde jetzt noch den Controller mit dem Streamer rausnehmen
Hängt am Adaptec 1405 nur der Streamer dran? Ist das Gespann so vom Streamerhersteller geprüft?

System ist ein ASUS P8C-WS mit i7 und 4GB RAM 1333,
Desktopgespann.

Der onboard-Intel-Controller hat ein RAID1 fürs System und ein RAID5 für Daten.
Dein Onboard RAID Chip muss also hier dein RAID 1 und dein RAID 5 machen? Und du wunderst dich das deine Platten nicht mitkommen? Welche IOs laufen denn bei dir auf?

Gruß,
Peter
Mitglied: 45455
45455 24.07.2013 um 08:05:57 Uhr
Goto Top
Ich hab jetzt nochmal einiges überprüft und getestet:
- thermisch gibt es kein Problem, alle Temperaturen außer die Cores liegen knapp über 30°, die Cores knapp unter 40°
- Speicher ist drin, was W2K3-Standard kann, 4GB
- Die Speicherlast im Normal-Betrieb ist bei 1,4 GB, CPU-Last irgendwo unter 5-10 %
- SQL ist im Arbeitsspeicher begrenzt, eben weils nur ne kleine Datenbank für Zeiteinträge ist, darf der nur 512 MB.
- die Durchsätze des Spiegels liegen übrigens über 120 MB/s, die des Raid 5 über 200 MB/s
(die OS-Konfig lief ja vorher auf nem A8V Single mit 2GB RAM, da ist das Board ja jetzt ein Rennwagen gegen)

Nach einigem Testen kann ich nun folgendes sagen:
Raid5, Adaptec-Controller ist völlig wurscht, kann ich rausnehmen, ohne dass sich das Verhalten irgendwie ändert.

Und den Kern hab ich hier wohl gefunden:
Läuft das System auf einer non-RAID-Platte, ist es stabil, sobald der Spiegel eingerichtet wird, beginnt das beschriebene Phänomen.
Hab das ganze spaßeshalber mit einer jungfräulichen XP-Installation probiert: Erstmal nur die low-lewel-formatierte Platte rein und installiert inklusive der notwendigen Treiber. Läuft auch im Stresstest schnell und stabil.
Dann über das Intel-Tool zu RAID1 migiert: Allmählicher Abschied.

Auch mal Process Explorer mitlaufen lassen mit Disk und Memory writes/reads: nix los, das System hat nirgends Last.

Ich hab noch einen anderen Rechner in dieser Konfiguration, auf dem eigentlich W2K8-R2 läuft, da werde ich das nochmal ausprobieren, ob das reproduzierbar ist.

Denn entweder hat das Board ne Macke oder unter W2K3 klappt das schlicht nicht trotz offiziell erhältlichen Treibern.

Gruß
Kai
Mitglied: keine-ahnung
keine-ahnung 24.07.2013 um 08:11:24 Uhr
Goto Top
Zitat von @keine-ahnung:
Mit richtiger Server-Hardeware wäre die Wahrscheinlichkeit von Fehlern vermutlich auch geringer ...
Wie ich oben schon sagte ...face-wink
LG, Thomas
Mitglied: 45455
45455 24.07.2013 um 08:47:59 Uhr
Goto Top
Nur nebenbei: Entspricht nicht ganz meiner Erfahrung. Ich setze in größeren Umgebungen auch Fujitsu und HP ein. Auch die bauen nur mit Halbleitern face-wink
Siehe auch deren Support-Foren ...
Meistens geht alles glatt, wenn's nicht glatt geht, gilt Murphy.
Bezüglich meiner persönlichen Wahrscheinlichkeitsstatistik liegt derzeit ASUS vorne face-smile
Mitglied: 45455
45455 25.07.2013 um 18:23:18 Uhr
Goto Top
So, fleißig getestet: Auf Rechner mit den gleichen Bauteilen außer den Festplatten läuft das Ganze völlig rund.
Dort wurde aber erst das RAID1 eingerichtet und dann installiert.

Am betroffenen System hab ich mittlerweile auch die Platten mal auf Verdacht getauscht, das RAID aber durch Migration erstellt.

Beim letzten Neustart dann mal vorsorglich alle nicht unmittelbar nötigen Dienste beendet (WSUS + IIS, Automatische Updates, Backup usw.). Seit zwei Tagen läuft er jetzt mal, sobald ich mich aber anmelde, fängt das Spiel wieder an.

Jetzt packe ich mal das RAID aus dem funktionierende System in das betroffene und schau, was es macht.
Wenn das dann abschmiert, kann eigentlich nur noch das Board defekt sein.
Mitglied: 45455
45455 02.08.2013 um 10:05:26 Uhr
Goto Top
Aaargh, peinlich, peinlich. Ausgerechnet ein Montagefehler.

Von der Ummantelung der Netzteilkabel hatte sich ein Stück Kunststofffaden gelöst und im Memory-Sockel versteckt.
Schwarzer dünner Faden auf schwarzem Kunststoff sieht man leider so gut wie gar nicht, selbst bei bestem Licht.

Es wundert mich zwar, dass ein Memory-Test da keine Fehler brachte, aber:
Seit das raus ist, läuft die Kiste rund.
(Nächstes Mal baue ich die Rechner über Kopf ...)

Trotzdem danke für die Antworten.


PS: Die beiden RAIDs laufen übrigens für den Zweck mehr als ausreichend schnell. CPU-Last ist gering, ebenso Speicherauslastung.
Anmeldung und Zugriffe auf Dateien/Datenbanken gehen sehr schnell und auch eine parallele Sicherung (die mit bis zu 3900 MB/min läuft, LTO-4) wird von den Usern nicht wahrgenommen.
Das System ist wie erwartet völlig ausreichend für den Zweck und hat noch Puffer für (in dem Fall eher nicht zu erwartendes) Wachstum.
Mitglied: keine-ahnung
keine-ahnung 02.08.2013 um 10:44:24 Uhr
Goto Top
Zitat von @keine-ahnung:
> Zitat von @keine-ahnung:
> ----
> Mit richtiger Server-Hardeware wäre die Wahrscheinlichkeit von Fehlern vermutlich auch geringer ...
Wie ich oben schon sagte ...face-wink
> LG, Thomas

Wie ich oben schon sagte face-wink

Server von der Stange --> Supportpack --> Behebung / Austausch nach spätestens 24 Stunden

Spart Zeit, Geld und Nerven ...

LG, Thomas
Mitglied: 45455
45455 03.08.2013 um 08:23:24 Uhr
Goto Top
Kann ich so auch nicht stehen lassen.
Selbst mit Supportpack. Diese Situation würde auch vom Support zunächst mal auf Fehlkonfiguration und Fehlinstallation interpretiert. Also dann mein Problem.

Ich würde dann eben mit einem Supportmenschen am Telefon die ganzen Testläufe machen. Und wenn dann, wie bei mir ja eben auch, erst mal rauskommt, dass die Hardware den Tests nach in Ordnung ist, kann ich mir von dem Supportpack gar nix kaufen, sondern steh genauso im Regen.

Supportpacks sind schön und gut, wenn klare Fehler vorliegen, aber mit denen hab ich auch kein Problem. Ersatzteile für meine Maschinen hab ich teilweise in deutlich weniger als 24h da. Kostet mich gegenüber dem Supportpack das Hinfahren und Abholen. Das Testen/Fehlersuche hab ich ja trotzdem an der Backe.

Und ja, da sprech ich auch aus Erfahrung. In dem Fall Fujitsu (musste sein, weil öffentlicher Auftraggeber mit Ausschreibung für Fujitsu - mein Fazit: nie wieder, nur Ärger mit der Kiste)