Top-Themen

AppleEntwicklungHardwareInternetLinuxMicrosoftMultimediaNetzwerkeOff TopicSicherheitSonstige SystemeVirtualisierungWeiterbildungZusammenarbeit

Aktuelle Themen

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit
GELÖST

BSOD (STOP 0x0000009F) aller virtuellen Server unter VMware vSphere ESX 4.1 nach MS-Updates

Frage Microsoft Windows Server

Mitglied: JawCruncher

JawCruncher (Level 1) - Jetzt verbinden

05.08.2013 um 14:37 Uhr, 2454 Aufrufe, 4 Kommentare

Hallo,

am Wochenende habe ich hier meine Server durchgepatcht (also alle MS-Patches von Juli). Direkt im Anschluss fiel auf, dass einige nicht mehr sauber herunterfahren.

Ich habe es soweit eingrenzen können, dass dies offenbar alle meine Systeme unter Windows 2008 R2 betrifft, jedoch nur virtuelle Server. Konkret: ich habe hier zzt. 8 Systeme unter 2k8R2 laufen, 3 davon sind physische, der Rest virtuell auf 2 VSphere ESX 4.1. Ich habe 3 der 5 virtuellen getestet, alle drei zeigten das Problem. Die drei vServer liegen auf 2 verschiedenen Servern, vCenter kommt nicht zum Einsatz.

Das Problem ist ein Hänger beim Shutdown. Nach 10 Minuten wird der dann durch einen BSOD mit Fehler 0x0000009F (DRIVER_POWER_STATE_FAILURE) abgebrochen und ein Dump geschrieben.

Google brachte keine Erkenntnisse über aktuelle Probleme in dieser Richtung, Supportverträge mit VMware oder MS haben wir nicht, ich ahne auch schon, dass die beiden sich schön gegenseitig den Ball zuspielen werden.

Andere Gemeinsamkeiten die ich außer dem ESX-Server sehe sind die VMware-Tools, der Virenscanner (McAfee VirusScan Enterprise) und der Backup-Client (Backup Exec 2010 R3). Ansonsten haben die Kisten unterschiedliche Aufgaben, also auch andere Software on board.

Ich bin mir recht sicher, dass das Problem vor einem Monat noch nicht existierte, kann aber nicht ausschließen, dass es schon im Rahmen der letzten Serverwartung entstanden ist, da die Server sonst nicht heruntergefahren werden.

Derzeit setzte ich eine jungfräuliche Maschine auf um das Verhalten mit einem nicht produktiven System zu testen, außerdem habe ich schon mal den Memory-Dump einer Maschine in den Debugger gegeben:

0: kd> !analyze -v 
******************************************************************************* 
*                                                                             * 
*                        Bugcheck Analysis                                    * 
*                                                                             * 
******************************************************************************* 
 
DRIVER_POWER_STATE_FAILURE (9f) 
A driver has failed to complete a power IRP within a specific time (usually 10 minutes). 
Arguments: 
Arg1: 0000000000000003, A device object has been blocking an Irp for too long a time 
Arg2: fffffa8001c9e060, Physical Device Object of the stack 
Arg3: fffff80001920748, nt!TRIAGE_9F_POWER on Win7, otherwise the Functional Device Object of the stack 
Arg4: fffffa80035ef010, The blocked IRP 
 
Debugging Details: 
------------------ 
 
 
DRVPOWERSTATE_SUBCODE:  3 
 
IMAGE_NAME:  pci.sys 
 
DEBUG_FLR_IMAGE_TIMESTAMP:  4ce7928f 
 
MODULE_NAME: pci 
 
FAULTING_MODULE: fffff8800117a000 pci 
 
DEFAULT_BUCKET_ID:  WIN7_DRIVER_FAULT 
 
BUGCHECK_STR:  0x9F 
 
PROCESS_NAME:  System 
 
CURRENT_IRQL:  2 
 
TAG_NOT_DEFINED_c000000f:  FFFFF80001920FB0 
 
STACK_TEXT:   
fffff800`019206f8 fffff800`01b478c2 : 00000000`0000009f 00000000`00000003 fffffa80`01c9e060 fffff800`01920748 : nt!KeBugCheckEx 
fffff800`01920700 fffff800`01ae284c : fffff800`01920830 fffff800`01920830 00000000`00000000 00000000`00000001 : nt! ?? ::FNODOBFM::`string'+0x33af0 
fffff800`019207a0 fffff800`01ae26e6 : fffffa80`02794c58 fffffa80`02794c58 00000000`00000000 00000000`00000000 : nt!KiProcessTimerDpcTable+0x6c 
fffff800`01920810 fffff800`01ae25ce : 000000c8`622b5f0e fffff800`01920e88 00000000`00540c03 fffff800`01c552e8 : nt!KiProcessExpiredTimerList+0xc6 
fffff800`01920e60 fffff800`01ae23b7 : fffff800`01c52ec2 fffff800`00540c03 fffffa80`01834050 00000000`00000003 : nt!KiTimerExpiration+0x1be 
fffff800`01920f00 fffff800`01adad05 : 00000000`00000000 fffffa80`01d47660 00000000`00000000 fffff800`01b8f420 : nt!KiRetireDpcList+0x277 
fffff800`01920fb0 fffff800`01adab1c : 00000000`00000046 fffff800`01ad41f9 fffff800`01c52e80 fffffa80`02f500f8 : nt!KyRetireDpcList+0x5 
fffff880`0241b250 fffff800`01b22a1c : 00000000`0002625a 00001f80`00000200 00000000`10480014 fffffa80`02f500f8 : nt!KiDispatchInterruptContinue 
fffff880`0241b280 fffff800`01ae0bca : 00000000`00000010 00000000`00000246 fffff880`0241b708 fffffa80`01ff98d0 : nt!KiDpcInterrupt+0xcc 
fffff880`0241b410 fffff880`00f469e5 : fffffa80`020e71a0 00000000`00000001 00000000`00000000 fffffa80`020e71a0 : nt!KeReleaseSpinLock+0x2a 
fffff880`0241b440 fffff880`00f40321 : 00000000`00000000 00000000`00000000 fffff880`00000032 00000000`c0000000 : NDIS! ?? ::LNCPHCLB::`string'+0x5326 
fffff880`0241b520 fffff880`00f41fd1 : 00000000`00000000 00000000`00000000 fffffa80`020e7100 fffff880`0000ff00 : NDIS!ndisPnPNotifyAllTransports+0x1e1 
fffff880`0241b690 fffff880`00f420fd : fffff880`0241bae8 00000000`00000000 fffffa80`027faa90 00000000`00000000 : NDIS!ndisInitializeBindingEx+0x9a1 
fffff880`0241b980 fffff880`00f3ff72 : 00000000`00000000 fffffa80`020e5600 fffffa80`c0000001 fffff880`0241bae8 : NDIS!ndisInitializeBinding+0x4d 
fffff880`0241bab0 fffff880`00f4309a : fffffa80`02f7e3b0 ffffffff`80000770 fffffa80`020e71a0 fffffa80`01f1bad0 : NDIS!ndisCheckAdapterBindings+0x292 
fffff880`0241bbf0 fffff880`00eb264a : 00000000`00000080 fffff880`00f04110 fffffa80`027fabd0 00000000`00000000 : NDIS!ndisCheckProtocolBindings+0x13f 
fffff880`0241bd10 fffff800`01d75ede : fffffa80`01d47660 fffffa80`018ad9e0 00000000`00000000 fffffa80`01bbd3c0 : NDIS!ndisWorkerThread+0xba 
fffff880`0241bd40 fffff800`01ac8906 : fffff880`009b8180 fffffa80`01d47660 fffff880`009c2f40 00000000`dc9fffff : nt!PspSystemThreadStartup+0x5a 
fffff880`0241bd80 00000000`00000000 : fffff880`0241c000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiStartSystemThread+0x16 
 
 
STACK_COMMAND:  kb 
 
FOLLOWUP_NAME:  MachineOwner 
 
FAILURE_BUCKET_ID:  X64_0x9F_3_E1G6032E_IMAGE_pci.sys 
 
BUCKET_ID:  X64_0x9F_3_E1G6032E_IMAGE_pci.sys 
 
Followup: MachineOwner
Riecht für mich nach Netzwerkkartentreiber (die virt. Hardware kann man ja wohl ausschließen
Unnötig zu sagen, dass der nicht geändert worden ist.

Hat wer eine brauchbare Idee, wie man da weiterkommt?

Danke schon einmal,

Jens
Mitglied: Sascha-1
07.08.2013 um 17:25 Uhr
Hallo Jens,

ich gehe davon aus, es ist "nur" ein Problem beim herunterfahren? Also die Systeme laufen noch?

Würde auch von einem Treiberproblem ausgehen, jedenfalls ist die Fehlermeldung ein Hinweis darauf. Ich gehe einmal davon aus, das es auch zu deinen Aufgaben gehört sich um die ESX zu kümmern!?

Um das einzugrenzen würde ich mir die Patches mal genauer ansehen und den Zusammenhang zu 4.1 in seiner bei die Laufenden Version suchen. Natürlich spielt hier auch die vor Ort verwendete HW eine Rolle.

Sascha
Bitte warten ..
Mitglied: JawCruncher
07.08.2013 um 21:06 Uhr
Hallo Sascha,

Jupp, für die Serverlandschaft bin ich komplett (und alleine) verantwortlich.

Das "nur" Problem beim Herunterfahren führt dann dazu, dass der Server nach dem BSOD wieder startet, VMware aber noch auf das Abschalten wartet. Dann sind keine Snapshots mehr möglich und damit klappt meine Datensicherung nicht mehr.

Ich habe in der Zwischenzeit SEHR viel Zeit in das Problem gesteckt und konnte eingrenzen, dass nach der Deinstallation von KB2850851 das Problem behoben ist, nach Neuinstallation wieder kommt.

Via MSCONFIG habe ich alle nicht-Microsoft-Dienste auf einem Server deaktiviert. Problem behoben. Der Reihe nach wieder aktiviert und den Übeltäter isoliert. Leider war dieser Dienst nur auf diesem einen Server aktiv. Folglich zeigte der Test auf einem weiteren Server einen anderen Verursacher. Also ohne Ergebnis einen Tag in den Sand gesetzt.

Außerdem habe ich einen neuen virtuellen Server aufgesetzt (wie oben schon beschrieben), mit der bei uns üblichen SW betankt und durchgepatcht. Natürlich zeigte sich kein Problem. Wäre ja auch ein Hinweis gewesen, Murphy lässt das aber wohl nicht zu...

3,5 Arbeitstage habe ich da nun reingesteckt ohne Ergebnis. Es bei dem "nur"-Problem beim Shutdown zu belassen behagt mir nicht. Nach meiner Erfahrung fällt einem das dann später auf die Füße (wenn man es noch weniger gebrauchen kann).

Suche nach Patches von VMware werde ich wohl morgen mal angehen. Ich hatte aber vor ein paar Wochen erst die Server auf die U3 gebracht und dabei auch nach anderen Updates gesucht.

Jens
Bitte warten ..
Mitglied: Sascha-1
09.08.2013, aktualisiert um 10:34 Uhr
Hallo Jens,

ich denke, wenn dir die VMs nach der Patchaktion nicht wieder hoch gefahren wären, hättest du einen etwas anderen Stressfaktor. Daher das nur. Solange die Systeme noch laufen, auch wenn ein Fehler auftritt hat man ja noch die Möglichkeit, wie in deinem Fall zu handeln und das Problem ohne den Benutzerstress zu lösen.
Tja das Leben eines Admin. Da sind ein Paar Tage bei einem Problem schon mal weg und bei Aktualisierungen sollte man sich neben dem Samstag auch keine Termine am Sonntag vornehmen, denn unverhofft kommt doch all zu oft.
Halt uns auf dem Laufenden, würde mich interessieren, ob die Aktualisierung der VM Umgebung geholfen hat.

Gruß
Sascha
Bitte warten ..
Mitglied: JawCruncher
28.08.2013 um 21:18 Uhr
So, nach nun doch ein paar Wochen möchte ich dann auch die Auflösung hier hineinschreiben.
Ich hatte einen Case bei Microsoft aufgemacht, das war anstrengend, wenn auch nicht besonders erfolgreich. Unabhängig davon habe ich, unterstützt von einem netten Kollegen, weiter an der Lösung des Problems gearbeitet und sie dann auch gefunden.
Wie schon ganz oben beschrieben, roch es ja schon anfangs nach dem Netzwerkkartentreiber. Ich habe die vNIC der Maschine dann mal geändert auf VMXNET 3 und schon waren die Probleme behoben.

Heute habe ich außerdem ein anderes Problem auf meinen virtualisierten Win 2k8R2-Servern gesucht und isoliert. In diesem Fall war es der McAfee-Virenscanner, der sich nicht mehr aktualisieren wollte. Warum? Weil mir "ipconfig /all" auf den beiden betroffenen Maschinen den Media State mit "Media unoperational" anzeigte. Beide holten sich auch keine neuen Adressen mehr vom DHCP, in ein paar Tagen wäre mir das heftig auf die Füße gefallen bei Ablauf der Lease Time.

Microsoft sieht keinen Bug, das Problem wäre fremdverschuldet (auch wenn der Treiber für die virt. NIC im Lieferumfang von Windows 2008 R2 enthalten ist und das Problem erst durch den Patch KB2850851 ausgelöst wurde). Mir wurscht, auch wenn die Hilfe von Microsoft von dem netten Kollegen als "Pre-Level-0" bezeichnet wurde.

Danke allen, die sich Gedanken gemacht haben, auch wenn sie hier nix geschrieben haben.

Jens
Bitte warten ..
Neuester Wissensbeitrag
Windows 10

Powershell 5 BSOD

(5)

Tipp von agowa338 zum Thema Windows 10 ...

Ähnliche Inhalte
Heiß diskutierte Inhalte
LAN, WAN, Wireless
gelöst Server erkennt Client nicht wenn er ausserhalb des DHCP Pools liegt (28)

Frage von Mar-west zum Thema LAN, WAN, Wireless ...

Windows Server
Server 2008R2 startet nicht mehr (Bad Patch 0xa) (18)

Frage von Haures zum Thema Windows Server ...

Outlook & Mail
Outlook 2010 findet ost datei nicht (18)

Frage von Floh21 zum Thema Outlook & Mail ...

Netzwerkmanagement
gelöst Anregungen, kleiner Betrieb, IT-Umgebung (17)

Frage von Unwichtig zum Thema Netzwerkmanagement ...