litz22
Goto Top

WIN 2008R2 Server "vergisst" sich nach 48-72h selbst

Hallo,

Folgendes Problem:
Ein Win 2008R2 Server verliert alle 48-72 Stunden sporadisch seinen localhost.

Stellt sich wie folgt dar:

1. keine Remotedesktopverbindung mehr via Namensauflösung
(Server hat eine DNS bzw. Zeitproblem.....Fehlermeldung)
man kann nur noch über die IP eine Remoteverbindung aufbauen
2. keine Login mehr möglich auf Software die auf dem Server läuft z. B.ArcserveR15, Watchguard Firewall Software, Kaspersky Admin Kit etc.
(alles die den localhost zur Anmeldung nutzen)
3. da kein Login mehr am Arcserve möglich, funktionieren die Sicherungen nicht mehr
4. Server meldet nach dem Anmelden via IP über Remotedesktop, das nicht mehr alle Netzlaufwerke hergestellt
werden konnten
5. Internet funktioniert nicht mehr auf der Kiste
6. Server antwortet nicht über eine Ping mit Namensauflösung

7. komischerweise funktionieren die SQL Datenbanken (Client Zugriff) noch, sowie das Netzlaufwerk das dieser Server
für die Clients bereitstellt
8. In den Reports finde ich nur die Folgefehler die passieren wen der Server seinen localhost verliert

Nach einem Neustart arbeitet der Server wieder völlig normal, bis er nach 2-3 Tagen wieder Alzheimer bekommt
und sich selber vergisst.

Struktur 5 Server 4x WIN 2008R2 1x WIN 2003:
1) der Problemserver ist SQL Datenbanken Server, sowie Netzlaufwerk
2) Domaincontroller, dieser macht AD, DNS, DHCP sowie sämtliche Kommunikation (Fax/Mail etc) nach aussen
3) Backup Domain Controller, auf diesen laufen noch 2 virtuelle Server (TS - WIN 2003 /FTP - WIN 2008R2) via Hyper V

Die beiden Domain Server sind auch WIN 2008R2.
Alle Server nutzen Kaspersky 8.0 Enterprise als Virenschutz, neben einer Watchguard Firewall.

Das läuft jetzt schon seit Wochen so, da ich diverse Sachen probieren und dann warten muss
bis er durchläuft oder wieder aussfällt, die Clients merken davon nichts.


Ich hatte schon soviele Dinge probiert, das ich ehrlich gesagt auch nicht mehr alles weiss
was ich probiert hatte.
-Kasperksy Admin Kit runter, Kaspersky 8.0 deinstalliert, diverse Dienst de-registriert und neuregistriert
-Windows Updates sind alle auf dem neusten Stand
-Energiesettings angeschaut
-nachdem es aufgetreten ist sämtlich Windows Updates deinstalliert- keine Besserung, alles wieder installiert
-DNS/DHCP/WINS alles durchkontrolliert und keine offensichtlichen Fehler erkennbar

Dadurch sind erstmal Wochen verstrichen da ich immer nur 1x Sache gestestet hatte bis zum nächsten
Crash und dannach neu probiert.
Nun bin ich am Ende und versuche mein Glück mal hier im Forum.

Also bitte haltet euch mit Ideen nicht zurück, bin für alles dankbar.
Vll kennt ja jemand das Problem, ein bekannter Admin von mir hat ein ähnliches Problem mit einem WIn2003 Server
der weiß aber leider auch nicht mehr weiter. Bei Ihm hält der Server aber max 24h.

MfG Markus

P.S. sollte Ihr noch mehr Infos brauchen, bitte schreiben
Bin hier nen Frischling und weiß noch nicht was ihr alles so benötigt.

Content-Key: 253755

Url: https://administrator.de/contentid/253755

Printed on: April 16, 2024 at 16:04 o'clock

Member: Criemo
Criemo Nov 04, 2014 at 07:39:59 (UTC)
Goto Top
Hi Markus,
schön dich hier im Forum begrüßen zu dürfen.

Was dein Problem angeht:

du schreibst du hast 4 Server? Ist das alles das gleiche Modell und auch die gleiche Softwarekonstellation (OS, 3Party Software, Patchstand)?
Wie sieht es mit den Treibern aus?

Hast du schon mal ein Clean Install probiert?

Könnte es sein, dass evtl die Hardware ne Macke hat, RAM etc?


Viele Grüße

Criemo
Member: Litz22
Litz22 Nov 04, 2014 at 08:16:41 (UTC)
Goto Top
Hi,

3 Server (die man anfassen kann)
HP Proliant G6, Xeon CPU, mind. 24 GB RAM (leichte Variantionen), Alter ca. 4 Jahre (soll noch 1-2 Jahre laufen danach wird virtualisiert)

back-to-top

2 virtuelle Server (WIN 2008R2 + WIN 2003)

1- Problem Server macht SQL und Netzlaufwerk sowie Sicherungsserver, da SQL laufen hier auch direkt die meisten SQL VerwaltungsProgramme (Kaspersky,ArcserveR15 ect)
2- Domain Controller (Kom-Server) + AD,DNS,WINS,DHCP etc.
3- Backup Domain Controller + Hyper V (2 virtuelle Server) - da er sonst ja nichts zu tun hat face-wink

Alle Server nutzen WIN 2008R2, bis auf einen virtuellen Server (Terminalserver) der noch 2003 nutzt wegen der blöden Alcatel Tapi für die Telefondienste.
- neue Tapi wird vorrest nicht gekauft

- gleicher Patchstand
- 3Party Software, ist nicht so einfach da die Server unterschiedliche Aufgaben haben, gibt es auch unterschiedliche Software
(SQL - Watchguard,ArcserveR15,Kaspersky Admin Kit, Lan COM Wlan Verwaltung
DC - Alcatel Telefonanlagen Software, Kommunikations Datenbank Docuframe )
- Treiber wurden von mir auf den neustens Stand gebracht (sry sagte ja leider das ich viel probiert hatte, aber immer weiter face-wink )
- HP Management zeigt keine RAM Fehler
- Server wurde am Switch schon umgesteckt, LAN Kabel wurde getauscht, sowie auf die 2. Netzwerkkarte zum Versuch umgeschaltet
immer wieder mit negativen Ergebniss

- Clean Install, darauf wird es wohl oder übel hinauslaufen obwohl ich das eigentlich vermeiden wollte, wenn ich hier im Forum
nicht noch einen goldenen Tipp bekomme

MfG
Markus
Member: Criemo
Criemo Nov 04, 2014 at 08:38:28 (UTC)
Goto Top
Also ich würde, wenn es bei Dir möglich ist, den Server mal im Abgesicherten Modus rennen lassen und schauen ob er dann auch diese Probleme macht.

2. Was sagt der Eventviewer? Irgendwas auffälliges?


Ist ja gut wenn du schon viel probiert hast, trotzdem müssen wir versuchen analytisch an das Problem ran zu gehen.

VG
Criemo
Member: Litz22
Litz22 Nov 04, 2014 at 09:07:55 (UTC)
Goto Top
Folgefehler:
Fehler beim Verarbeiten der Gruppenrichtlinie. Der Name eines Domänencontrollers konnte nicht abgerufen werden. Dies kann auf einen Fehler bei der Namensauflösung zurückzuführen sein. Überprüfen Sie, ob DNS (Domain Name System) konfiguriert ist und richtig ausgeführt wird.
Folgefehler:
Fehler bei der Verarbeitung der Gruppenrichtlinie. Der Benutzername konnte nicht aufgelöst werden. Dies kann mindestens eine der folgenden Ursachen haben:
a) Fehler bei der Namensauflösung mit dem aktuellen Domänencontroller.
b) Active Directory-Replikationswartezeit (ein auf einem anderen Domänencontroller erstelltes Konto hat nicht auf dem aktuellen Domänencontroller repliziert).
Folgefehler:
Der Computer konnte eine sichere Sitzung mit einem Domänencontroller in der Domäne XXXX aufgrund der folgenden Ursache nicht einrichten:
Der RPC-Server ist nicht verfügbar.
Dies kann zu Authentifizierungsproblemen führen. Stellen Sie sicher, dass der Computer mit dem Netzwerk verbunden ist. Wenden Sie sich an den Domänenadministrator, wenn das Problem weiterhin besteht.

ZUSÄTZLICHE INFORMATIONEN
Wenn dieser Computer ein Domänencontroller der bestimmten Domäne ist, wird eine sichere Sitzung zum primären Domänencontrolleremulator in der bestimmten Domäne eingerichtet. Andernfalls richtet dieser Computer eine sichere Sitzung zu einem beliebigen Domänencontroller in der bestimmten Domäne ein.

- sieht nach einem DNS Problem aus, ist es aber nicht!
- ich hatte jetzt am Montag neugestartet, nach meinem denken fällt er morgen oder spätestens am Donnerstag wieder aus
oder mein letzer Versuch fruchtet
- dannach wollte ich mir den Taskmanager mal anschauen wenn das System gecrasht ist, ob irgendwas auf Last läuft und eventuell den Fehler
verrursacht

MfG
Markus
Member: Criemo
Criemo Nov 04, 2014 at 09:21:26 (UTC)
Goto Top
Für mich sieht es eher nach einem Netzwerk Problem aus, vielleicht die Netzwerkschnittstelle des eigentlichen Servers.
Irgendwie bekommt mir der Server zu viele Timeouts.
Ich fasse das mal ein wenig zusammen.

GPO können nicht verarbeitet werden weil er den DNS nicht erreicht. = Netzwerk, DNS
DC kann er nicht auflösen weil er den DNS nicht erreicht. = Netzwerk, DNS
RPC geht nicht weil kein Server verfügbar ist. = Netzwerk


Also entweder ist es das Netzwerk oder der DNS.
Bist du dir gaaaaanz sicher, dass der DNS sauber läuft?

hebe den Server evtl. nochmal aus der Domäne und erneut in die Domäne.

lokale Windowsfirewall, ICMP zu DC und DNS NSlookup...

führe mal folgende test in der CMD durch:

DCDIAG /TEST:DNS /V /E /F:<filename.log>

DCDIAG /TEST:DNS /V /S:<DCNAME> /F:<filename.log>

und

NLTEST /DSGETDC:<NetBIOS or DNS domain name>


VG
Criemo
Member: Captnemo
Captnemo Nov 04, 2014 updated at 10:13:34 (UTC)
Goto Top
Nur mal so ne Idee:

Ist ein Zeitserver konfiguriert? Also ein regelmäßiger Zeitabgleich mit einem NTP-Server im Internet?
Weil wenn z.B. die Uhr nach einer gewissen Zeit mehr als x (weiß nicht genau wieviel) abweicht, fängt ein Windows an bestimmte Zugriffe zu verweigern.
Z.B. wenn auf Netzwerklaufwerke nicht mehr zugegriffen werden kann, oder auch Internet teileweise nicht mehr geht, kann das damit zusammenhängen dass die Zeit auf dem Server zu sehr von den Gegenstellen abweicht.
Auch bestimmte Windowsdienste (DNS, GPO usw) können davon betroffen sein.

Ist nur mal eine Idee, aber das könntest du ja mal prüfen, bzw. den Zeitraum zwischen den Zeitabgleichen verkürzen.

Was mir noch einfällt, ich hatte mal eine Switch, der nach ein gewissen Zeit auf einzelnen Ports Blödsinn gemacht hat. Nach einem kurzen Disconnect lief er wieder ein gewisse Zeit fehlerfrei. Auch da mal auf verdacht Port wechseln oder wenn es geht mal einen anderen Switch dran hängen. Vlt. kannst du ja bei dem auch die Fehlerrate auslesen.

Gruß Dieter
Member: Litz22
Litz22 Nov 04, 2014 at 10:49:40 (UTC)
Goto Top
Hi,

Zeitserver ist konfiguriert, auch hatte ich am anfang den verdacht das es hier abweichungen gibt.
Auf Verdacht Batch Datei geschrieben und Zeitgeber-Dienst alle 24h neugestartet, da dann auf jeden Fall
sync gemacht wird. Keine Besserung.

Switch wurde der Port schon gewechselt, ist ein großer Managementbarer HP Switch. LogFiles sind hier unauffällig.

Der DCdiag Test ist nochmal ein Ansatz, momentan komm ich aber nicht zum prüfen.
Ich bin zwar ein Firmeninterner Admin, aber so an einem Problem verheizen kann ich mich auch nicht.
Der DC Diag scheint mir sinnvoll wenn die Kiste nochmal aussteigt und anschliessend nach dem Re-boot zum
vergleichen. Würde mich diesbezüglich nochmal melden.

Noch andere Ideen?

MfG
Markus
Member: colinardo
colinardo Nov 04, 2014 updated at 14:25:06 (UTC)
Goto Top
Hallo Markus,
hört sich verdächtig nach einem unerwartet beendeten lebenswichtigen Windows-Dienst/Socket/Treiber an. Vergleiche also auch mal alle laufenden Dienste wenn er läuft und wenn der Fehler auftritt.

Grüße Uwe
Member: Litz22
Litz22 Nov 04, 2014 at 14:39:11 (UTC)
Goto Top
Hi,

das ist meine Vermutung, aber ich habe bis jetzt noch nicht einmal ein Ansatz welcher. face-sad
Es bringt keine Besserung( nach einem Crash), die Netzwerkkarte neuzustarten und auch nicht den Server bzw. Workstation Dienst.
Nur als Info.
Eine andere Vermutung ist der Lan Manager. Aber daran rumszuschrauben...eijeijei.

Ich will jetzt erstmal abwarten, bis der Crash wieder auftritt und mir dann nochmal die laufenden Dienste anschauen sowie
den DC Diag Test machen.
Ist halt immer lästig allen Kollegen bescheid zu sagen das die Netzlaufwerke und Warenwirtschafts SQL Datenbanken mal für 15min
nicht erreichbar sind. Aber mein Hauptproblem sind die verfluchten Sicherungen über Arcserve die dann aussteigen.

Ich danke euch allen trotzdem erstmal für eure Hilfestellung/Zeit.

Ich werde mich nach den Tests wieder hier melden.

MfG
Markus
Member: Captnemo
Captnemo Nov 04, 2014 at 15:06:08 (UTC)
Goto Top
Zitat von @Litz22:
Aber mein Hauptproblem sind die verfluchten Sicherungen über Arcserve die dann aussteigen.


MfG
Markus

Wenn du dir bezüglich Sicherung erst einmal etwas mehr Luft verschaffen willst, dann
sichere doch erst mal mit DriveSnapShot auf einer externen Festplatte oder einem NAS.
Eine Batchdatei (incl. E-Mail-Benachrichtigung) kannst du von mir haben.
Das Drivesnapshot kannst du ohne Installation irgendwo in die Ecke packen und hättest dadurch
keine Veränderung am System.
Voraussetzung wäre natürlich dass sich die Aufgaben denn anmelden können. Wenn das
natürlich auch nicht geht, hast du schlechte Karten.
Member: Litz22
Litz22 Nov 10, 2014 at 07:35:53 (UTC)
Goto Top
Hi,

das Problem wurde nun endlich identifiziert.
Die Software der Watchguard hatte diesen Fehler verursacht.

Nach einem erneuten Fehler dieser Art, wurde die Software testweise deinstalliert und der Server
reagierte sofort wieder wie er soll.
Software wurde neu aufgespielt, seit dem läuft alles wieder in gewohnten Bahnen.

Danke für eure Hilfe.

MfG
Markus