buebue
Goto Top

Server Dell PowerEdge T310 Zweitmeinung Software-Hardware-Fehler

Liebe Forummitglieder

Da ich nicht mehr weiterkomme, möchte ich um Eure Hilfe bitten. Mir geht es quasi um eine vom Verkäufer unabhängige "Zweitmeinung".

Am 14.6.2011 kaufte ich bei Dell einen Server (Power Edge T310). Mit dem Server kaufte ich eine Garentieverlängerung bis 06/2014 (Reaktion am nächsten Geschäftstag… nicht mal die mails werden in dieser Frist beantwortet) und einen Pro-Suppurt.

Schon nach wenigen Tagen bekam auf dem Display eine Fehlermeldung bezüglich eines fehlerhaften Speicherchips (gelbes Display) .

Später (ca. 3 Monate nach Kauf) begannen dann Hardware-Crashs vom Feinsten: Innert Bruchteilsekunden schmierte der Server ab und bootete dann nicht mehr neu, sondern verblieb -unbemerkt auch tageweise - in einem Zustand mit maximal heulendem Lüfterbetrieb, ohne auch nur das Bios zu starten. Dieser undefinierte Zustand barg sicherlich Gefahren einer Überhitzung und eines Brandes, denn die maximale Drehzahl hält wohl kein Lüfter während mehrerer Tage durch. Dies interessierte den Dell - Support aber nur unmerklich. Wegen der permanenten Hardware-Crashs waren unsere sensiblen Daten massiv gefährdet (ich möchte hier nicht erwähnen um was für Daten es sich handelt…..Dell weiss es). Unser Geschäftsbetrieb lag fast lahm. Ich bekam die triviale Antwort, ich müsse halt Backups machen. Bei einem System, welches alle 2 Stunden so massiv abschmiert, dass es nicht mal das BIOS wieder hochfährt, nicht ganz einfach, da die Gefahr sehr gross ist, gute Daten mit korrupten Daten zu überschreiben.

Die Crashs waren übrigens zweiffellos von der Software unabhängig: Sie passierten auch während einer geöffneten Bios-Sitzung oder bei einer über eine CD gestarteten Linux-Sitzung, also ganz eindeutig Hardware-Fehler bei fast fabrikneuem Gerät.

Die Crashs waren in der Häufigkeit progredient, anfänglich sehr selten, schlussendlich mehrmals am Tag.

Es begann nun eine zähe Odyssee und Salamitaktik, gemäß Trial and error: Speicherchips wechseln, dann Mainboard - Wechsel, dann Wechsel der vorderen USB- Einheit.
Die Abstürze persistierten immer in gleicher Form, nämlich unabhängig vom Betriebssystem.

Nun kam der Vorschlag, das Mainboard ein 2. Mal zu wechseln. Ich war massiv erstaunt über diesen Vorschlag : In einem fabrikneuen Server soll nun das dritte !!!!!!!!!! Mainboard eingebaut werden?

Für mich war das eine irrationale Reaktion: Die rein statistische Wahrscheinlichkeit, dass in einem neuen Gerät 2 mal ein faules Mainboard eingebaut wird, ist in etwa so gross wie die Abräumung des Lotto-Jackpots. Viel grösser ist die Wahrscheinlichkeit, dass eine andere Komponente eben dieses Mainboard zerstört oder dass ein verbleibendes Teil, z.B. der Prozessor, die Ram-Chips, das Gehäuse (Erdung!!!) faul ist, die Spannungsversorgung ruckelt, vielleicht auch nur ein chinesisches Haar sich querstellt.

Ich verstand nicht, warum eine renommierte Firma ein solch offensichtlich massiv faules Gerät nicht zurücknimmt, um es im Detail zu untersuchen. Ich verstehe es nicht mal auf der monetären Ebene, da die Serviceeinsätze die ursprünglichen Kosten des Servers bereits um ein mehrfaches multiplizieren….

Anyhow….. und aus gesundem Menschenverstand heraus kaum zu glauben: Mit dem 3. Mainbaord war dann vorerst Ruhe. Der Server lief während ca. 8 Monaten anstandslos bis etwa Mitte Februar 2013. Änderungen außer den üblichen Updates (Windows, Acronis, Trend micro) waren keine durchgeführt worden.

Mitte Februar 2013 begann der Spuk von Neuem: Ebenfalls in der Häufung progredient kommt es wiederum zu Abstürzen. Im Februar einer, im März 4, nun 2-3 pro Tag.

Die jetzigen Abstürze werden nun jeweils mit einem Event-ID 41 protokolliert (bei den früheren konnte ich gar nichts erkennen). Dieses ID kann natürlich alles bedeuten und ist kein Beweis für einen Hardware-Fehler. Der Bug-Check-Code ist fast immer null, einmal sah ich ein 195, zweinmal ein 25.
Ein Minidump wird nicht erstellt. Auch Bluescreens erhalte ich nicht.

Aus der Vorgeschichte heraus, würde ich behaupten, dass das initiale Problem (faules Gerät) nicht behoben wurde. Die Abstürze sind nun aber klar anders und nicht mehr beweisbar hardwareabhängig: Zumindest bootet der Server nun wieder. Andererseits wurde das letzte Memory-Dump im Februrar geschrieben. Auch Bluescreens erhalte ich keine (das System wurde so eingestellt, dass der Server bei einem Bluescreen nicht automatisch hochfahrt, damit dieser erfasst werden könnte).

Ich bin kein Fachmann und wirklich ratlos und sehr dankbar um jede Meinung. Wie würdet ihr vorgehen?

Wie kann ich zum Beispiel das Event-ID 41 eingrenzen. Wie kann ich herausfinden, ob ein Software- oder Hardware-Fehler vorliegt?

Auf das 4. Mainboard habe ich ehrlich gar keine Lust. Da der Server mittlerweile fast ausgeweidet wurde, habe ich kein Vertrauen auf weitere Reparaturen. Ich fühle mich so ziemlich ausgeliefert....

Vielen Dank für eure Tipps.

Martin

Content-Key: 205000

Url: https://administrator.de/contentid/205000

Printed on: April 24, 2024 at 06:04 o'clock

Member: Hitman4021
Hitman4021 Apr 15, 2013 at 11:14:07 (UTC)
Goto Top
Hallo,

ich würde mir ein Ersatzgerät von einem anderen Hersteller (IBM, HP) besorgen, alles umziehen. Und danach den Dell Server zurückgeben, da ein Hardware defekt nicht behoben wurde.

Gruß
Member: keine-ahnung
keine-ahnung Apr 15, 2013 at 11:29:44 (UTC)
Goto Top
Zitat von @Hitman4021:
ich würde mir ein Ersatzgerät von einem anderen Hersteller (IBM, HP) besorgen
Yep, ich empfehle einen ProLiant face-wink. Letztlich ist das Problem des TO ein rechtliches: wenn es keinen Zusammenhang zu den ersten Fehlfunktionen zu beweisen gibt, ist quasi ein neuer Garantiefall offen: das heisst nachbessern, wieder nachbessern und dann weiter sehen ...

BTW: hat das Teil redundante Strömlinge? Hängt eine USV davor? Eventuell gibt es ja Spannungsschwankungen, die irgendwo nicht abgefangen werden können ...

LG, Thomas
Member: buebue
buebue Apr 15, 2013 at 11:46:58 (UTC)
Goto Top
Ganz herzlichen Dank um die Rückmeldung.

Ja, der Server hat 2 redundante Netzteile. Natürlich, der Server hängt an einer ausreichend dimensionierten USV, welche keine Ausfälle anzeigt.

Vielen Dank!
Member: buebue
buebue Apr 15, 2013 at 11:58:48 (UTC)
Goto Top
Danke für Deine Antwort....

Zurückgeben.... würde ich natürlich gerne. Ich glaube aber nicht, dass ich hier eine Chance hab....

Ich bin seit 15 Jahren bei der Firma, natürlich ein kleiner Fisch. Ca. 12 Geräte. Natürlich werde ich wechseln...

Aber zürückgeben? Mein Aufwand übersteigt natürlich, bei weitem die Anschaffung eines neuen HP-Servers, aber irgenwie mag ich's einfach nicht durchgehen lassen und möchte halt, dass es korrekt abläuft....

Jedenfalls bin ich ermutigt und werde es so versuchen.....
Member: rana-mp
rana-mp Apr 15, 2013 at 11:59:03 (UTC)
Goto Top
Welche Prozessoren sind verbaut? Ich hatte eine sehr aehnliche Prozedur bei einem R610, der etwa genauso alt ist wie dein T310:
3 Mainboards, 2 RAID Kontroller, die iDRAC, der komplette RAM wurden getauscht.
Zum Schluss dann die Prozessoren... Nachdem ich wiedermal sehr unentspannt angerufen habe, hat sich der Techniker den DSET Report betreffs der Prozzessoren angeschuat und festgestellt, anhand einer ID (die ich leider nicht kenne) das die Prozessoren aus einer bekannt defekten Charge kamen.
Bei mir verbaute Prozessoren: Xeon E5645


Gruss,

ana-mp
Member: killtec
killtec Apr 15, 2013 at 12:24:15 (UTC)
Goto Top
Hi,
ich würde dann eher auch auf einen anderen Hersteller zurück greifen. Das ganze evtl. als Virtualisierung laufen lassen um in einem Fehlerfall die Hostmaschine zu wechseln.
Ich kann nur HP empfehlen.
Wenn das alles umgezogen ist, dann nochmal "sauber" um den Dell kümmern. - Support bemühen, Druck machen. Etwas sagen, wie extra Dell gekauft weil super Support usw. nen bisschen "honig um den Mund schmieren" und so Druck ausüben. ggf noch sagen, dass man keinen Dell weiter empfehlen kann?

P.S.: Mein Laptop ist ein Dell, da war der Support eigenltich ok. -> kam zwar etwas verspätet, aber der Typ hat alles ordenltich gemacht. (Display Tausch)

Gruß
Member: buebue
buebue Apr 15, 2013 at 12:28:43 (UTC)
Goto Top
Das mit dem ProLiant tut mir wirklich gut face-wink. Und ich dachte, ich könnte einfach die Firma wechseln.... Humor hilft aber immer und in jeder Situation !
Member: buebue
buebue Apr 15, 2013 at 12:39:33 (UTC)
Goto Top
Zitat von @killtec:
Hi,
ich würde dann eher auch auf einen anderen Hersteller zurück greifen.
um in einem Fehlerfall die Hostmaschine zu wechseln.
Ich kann nur HP empfehlen.

Ich denke, dass dies strategisch richtig ist und mir am wenigsten Aerger machen wird und v.a. einen laufenden Betrieb garantiert. Wahrscheinlich bleibe ich aber auf dem faulen Dell sitzen.....


P.S.: Mein Laptop ist ein Dell, da war der Support eigenltich ok. -> kam zwar etwas verspätet, aber der Typ hat alles
ordenltich gemacht. (Display Tausch)

Ich möchte auch nichts Grundsätzliches gegen den Support sagen, zumindest die Leute an der Basis verhielten sich korrekt und freundlich, die machen das schon recht, sie sind halt an Weisungen und Direktiven gebunden....
Member: killtec
killtec Apr 15, 2013 at 12:44:48 (UTC)
Goto Top
Ich möchte auch nichts Grundsätzliches gegen den Support sagen, zumindest die Leute an der Basis verhielten sich korrekt
und freundlich, die machen das schon recht, sie sind halt an Weisungen und Direktiven gebunden....

Ich denke so etwas gibt es bei jedem Hersteller irgendwo.
Wie gesagt, ich würde die Maschine nachehr auf einer VM laufen lassen. Dann hast du später weniger ärger und kannst dann die Vm auf jeden x-belibigen PC laufen lassen wenn es sein muss - dann halt langsamer, aber man kann weiter arbeiten. UNd ich denke mal, dass ist am wichtigsten.
HP, Dell und Fujitsu bieten sogar fertige ESXi-System an, bzw. die als Embedded (Internet USB-Stick). In der Fa. haben wir Fujitsu Maschine mit ESXi auf einer Storage, zuahuse habe ich einen HP mit vmware. Alle Maschinen rennen.

Aber das nur so am Rande face-smile
Ich denke mal, du solltest Dell nochmal ran lassen, erklärst ihnen alles und dann sollen die nochmal einen Vorschlag machen. Kannst ihnen ja sagen, dass sie das Gerät tauschen könnten (als Vorschlag).

Gruß
Member: buebue
buebue Apr 15, 2013 updated at 13:05:11 (UTC)
Goto Top
Welche Prozessoren sind verbaut? Ich hatte eine sehr aehnliche Prozedur bei einem R610, der etwa genauso alt ist wie dein T310:

Windows® Small Business Server 2011 Standard
Service Pack 1
Manufacturer: Dell
Model: Server T310
Processor: Intel(R) Xeon(R) CPU X3440 @ 2,53GHz 2.53 GHz
Installed memory (RAM): 16.0 GB
System type: 64-bit Operating System
Windows is activated

3 Mainboards, 2 RAID Kontroller, die iDRAC, der komplette RAM wurden getauscht.
Zum Schluss dann die Prozessoren... Nachdem ich wiedermal sehr unentspannt angerufen habe, hat sich der Techniker den DSET Report

Tönt ja schrecklich...... Und? Läuft er jetzt?

Liebe Grüsse

Martin
Member: buebue
buebue Apr 15, 2013 updated at 13:22:07 (UTC)
Goto Top
ich würde dann eher auch auf einen anderen Hersteller zurück greifen.

Ja am liebsten, auf denjenigen, welcher die verkauften Server auch in seinem Data-Center laufen hat face-wink

Ich bekomme: schneller, neuer, besser, billiger....
Ich wünsche: zuverlässig, sorglos, funktionierend....

face-wink
Member: rana-mp
rana-mp Apr 15, 2013 at 13:25:19 (UTC)
Goto Top
Ja, seit dem die Prozessoren beide getauscht wurden (Techniker war 2x da, beim ersten mal war einer der Prozessoren DoA) laueft die Maschine einwandfrei. Zwischendurch wurde auch versucht das Problem auf das Betriebssystem zu schieben, das konnte aber schnell abgewuergt werden weil im beisein des Technikers die Maschine zweimal im BIOS angeschmiert ist.
Das war auch das erste und bis jetzt einzige Mal das ich mit dem DELL Support unzufrieden war. Ansonsten habe ich nie solche Probleme und die Maschinen laufen einfach. Unentspannt war ich halt dabei vorallem weil die das Problem wohl in ihrer Knowledgebase stehen hatten, es aber zu Anfang immer hiess das die Prozessoren "nie beide kaputtgehen". Erst als es darum ging die ganze Maschine zu tauschen wurden da wohl Techniker mit viel Ahnung rangeholt.


Gruss,

rana-mp
Member: buebue
buebue Apr 20, 2013 updated at 11:45:35 (UTC)
Goto Top
Bin immer noch nicht weiter nach Stunden Fehlersuche und Übermittlung von DSETS an den Support, Hardware-Diagnoseprogrammen.

---> Wie beurteilt Ihr, dass die Abstürze immer ein Event-ID 41 mit Bug-Check-Code 0 produzieren und nie ein Memory-Dump geschrieben wird, lässt sich daraus was schliessen? Eher Hardware, eher Software?

Im Moment lasse ich den Server über Nacht im BIOS laufen und hoffe (so wie beim initialen Hardwarefehler) auf einen Absturz auf dieser Ebene. Das Problem ist natürlich, dass hierbei keine Belastung des Servers, Processors etc.

Liebe Grüsse

Martin