keine-ahnung
Goto Top

ECC Diagnostik

Moin miteinander,

ich habe mal wieder keine-Ahnung ... mit der ECC-Fehlerkorrektur.

Problembär:

ProLiant ML350p G8

In der Nacht zum Mittwoch habe ich aus dem ILO eine alert-mail bekommen: "EVENT (16 Jul 01:10): Corrected Memory Error threshold exceeded ((Processor 1, Memory Module 4))". Im Ilo selbst war der Riegel degraded. Ich habe einen case bei meinen bulgarischen Freunden aufgemacht, geht immer wieder schick und rasch (noch), und erste Reaktion: Maschine nicht auf aktuellem patchlevel, neuestes SPP einspielen bitte.

Das Windows-OS selbst hat nicht gemuckert, der eingebaute RAM wurde komplett erkannt.

In vorauseilendem Gehorsam habe ich gerade das SPP auf die Maschine gebügelt und siehe da: im ILO alles schick und grün.

Aber: in insight Diagnostik bekomme ich für den betroffenen Riegel folgenden Status:

Status: Grenzwert für korrigierbare Fehler überschritten Schwellenwert korrigierbarer Fehler überschritten
Nicht korrigierbarer Fehler: Status Keine DIMM-Fehler ermittelt

Da ich den case noch offen habe --> wer kennt sich von Euch mit diesen Stati aus? Für mich heisst das, das eine ECC-Korrektur in diesem Riegel nicht mehr erfolgen kann, also Schrott?

Irgendwie muss ich mich dem support gegenüber artikulieren, waäre lieb, wenn irgendjemand mit mehr Ahnung als ich mir das mal erklären könnte ... und eventuell mal eine Prognose über mögliche RAM-bedingte Systemabstürze bei diesem Zustand abgeben könnte.

Danke und LG, Thomas

Content-Key: 243980

Url: https://administrator.de/contentid/243980

Printed on: April 25, 2024 at 19:04 o'clock

Member: falscher-sperrstatus
falscher-sperrstatus Jul 17, 2014 at 20:22:07 (UTC)
Goto Top
Moin Thomas,

nicht zufällig der neue Riegel aus der Bucht?

;)
Member: keine-ahnung
keine-ahnung Jul 17, 2014 at 20:26:00 (UTC)
Goto Top
Das würdest Du Klasse finden, was face-wink?

Nee, die sind noch gar nicht da ... ist Erstaustattung.

LG, Thomas
Member: falscher-sperrstatus
falscher-sperrstatus Jul 17, 2014 at 20:28:16 (UTC)
Goto Top
Ne, ich dachte nur, das schliesse ich mal davor aus. Vielleicht sind die sauer, weil du andere Module geeordert hast und begehen nun harakiri? ;)

Aber zur Problembehebung: Probier den Dimm einfach mal auszubauen und gegen einen funktionierenden zu tauschen, vielleicht hat sich das iDr..äh ilo nur verschluckt.
Member: keine-ahnung
keine-ahnung Jul 17, 2014 at 20:35:36 (UTC)
Goto Top
Aber zur Problembehebung: Probier den Dimm einfach mal auszubauen und gegen einen funktionierenden zu tauschen
Würde ich gerne machen, aber ich habe (noch face-wink) keinen Ersatz da. Ich würde das Teil ja auch erstmal mit 24Gbyte laufen lassen, wäre mir Wurscht. Aber ich habe die Kiste derartig eingebaut, dass ich die nicht dreimal in der Woche aus ihrer Nische ziehen und darin rumoperieren will.

Beurteilst Du das ähnlich wie ich - der Chip ist selber noch funktional, kann aber keine Fehler mehr korrigieren, wenn da noch mal was passiert --> und dann BOD?

Die Bulgaren werden das Teil vermutlich ersetzen ... wird ja aber auch dauern, Morgen ist Freitag. Und ob ich bis dahin den Speicher aus der Bucht schon habe ... keine-ahnung face-wink!

LG, Thomas
Member: falscher-sperrstatus
falscher-sperrstatus Jul 17, 2014 at 20:37:31 (UTC)
Goto Top
Die Meldung ist uneindeutig. Momentan tipp ich eher auf einen Fehlalarm.

Daher einfach mal zwei DIMMS im Steckplatz tauschen? Also wenn du dir die Mühe machen möchtest.
Member: keine-ahnung
keine-ahnung Jul 17, 2014 at 20:43:33 (UTC)
Goto Top
Ich werde erst mal warten, was der support morgen sagt, informiert sind die. Eventuell klingelt ja auch der Postbote und gibt ebay-RAM bei mir ab - würde passen. Momentan bin ich eh zuhause.
Ich werde das morgen entscheiden ... solange muss die Büchse halt noch. Aber wenn ich die Truhe bei diesen Temperaturen aus ihrem Versteck ziehe, will ich da schon eine endgültige Lösung.

LG und gut's Nächtle, Thomas
Mitglied: 108012
108012 Jul 17, 2014 at 21:34:55 (UTC)
Goto Top
Hallo,

Grenzwert für korrigierbare Fehler überschritten
Das heißt nur das es sich um korrigierbare Fehler handelt und
eben der dafür festgelegte Grenzwert überschritten wurde.

Schwellenwert korrigierbarer Fehler überschritten
Dito.

Nicht korrigierbarer Fehler: Status Keine DIMM-Fehler ermittelt
Ist doch alles tutti, denn nicht korrigierbare Fehler sind dann ja auch
nicht vorhanden und an dem DIMM selber sind auch keine gefunden worden.

Nicht das ich Dir den neuen RAM nicht gönne, aber anders herum würde ich
mir schon Gedanken machen.

Gruß
Dobby
Member: keine-ahnung
keine-ahnung Jul 17, 2014 at 22:37:34 (UTC)
Goto Top
Hi Dobby,

mir ist das von den Termini her unklar ... schon in der alertmail stand ja, dass der Fehler korrigiert wurde. Warum wird der Riegel dann degraded? Und warum merkt das OS nix davon? Nur ein schlampig programmiertes GUI?

Was wollen mir die Fehlermeldungen in insight diagnostic sagen? Reine Information? Funktionalität der Fehlerkorrektur ist intakt oder nicht? Letztlich sollte sich der Ram inclusive der Pufferbereiche für's ECC doch entladen - warum bringt der mir die Info nach dem reboot??

Ich habe jetzt wirklich keinen Bock, an der Kiste rumzuopern, ich brauche jetzt auch nicht neuen RAM, wenn das nicht notwendig ist, aber so richtig nachvollziehbar ist das für mich nicht ...

LG, Thomas
Mitglied: 108012
108012 Jul 18, 2014 at 00:24:24 (UTC)
Goto Top
Hallo,

mir ist das von den Termini her unklar ...
Ok, und ich weiß eben nicht was ein Tremor ist!

schon in der alertmail stand ja, dass der Fehler korrigiert wurde.
Also das Bios wird niemals den RAM Riegel bzw. das Modul reparieren können!

Warum wird der Riegel dann degraded?
Es werden Grenz- und/oder Schwellenwerte definiert und wenn eben diese
Überschritten werden meldet das der Controller und möchte das OS und den
Rest des Systems schützen und dann wird der RAM Riegel bzw. das Modul
degradiert bzw. deaktiviert.

Und warum merkt das OS nix davon?
Hauptspeicherfehler
Also wenn die Fehler korrigiert werden, ist ja auch immer alles in "Butter"
nur bei einer Häufung oder aber zu vielen Fehlern wird ein Alarm ausgelöst.

Nur ein schlampig programmiertes GUI?
Ne das denke ich weniger, eher schon das der Server in einer Ecke steht und
dort Stromschwankungen sind!

Was wollen mir die Fehlermeldungen in insight diagnostic sagen? Reine Information?
Das ist nur von wo aus die Diagnose statt gefunden hat bzw. der Bereich im Bios dem das
aufgefallen ist bzw. wo die Schwellen- und Grenzwerte hinterlegt sind.

Funktionalität der Fehlerkorrektur ist intakt oder nicht?
Ja und zwar auf jeden Fall sogar, sonst wäre der Schwellenwert nicht überschritten worden
sondern man hätte gemeldet das der RAM Riegel defekt ist und/oder das die Fehler nicht
hätten korrigiert werden können.

Letztlich sollte sich der Ram inclusive der Pufferbereiche für's ECC doch entladen
Ja das schon aber die Fehler wurden ja vorher festgestellt und wenn die Meldungen
dann weg wären würde das ja die Fehlersuche auch beeinträchtigen.

- warum bringt der mir die Info nach dem reboot??
Das Soft Fehler entstanden sind die Anzahl so groß war bzw. ist das der festgelegte
Schwellenwert überschritten wurde.

Ich habe jetzt wirklich keinen Bock, an der Kiste rumzuopern,
Kann ich verstehen, aber eventuell etwas luftiger aufstellen bei den Temperaturen?
Und nicht dort wo Stromquellen sind?

ich brauche jetzt auch nicht neuen RAM, wenn das nicht notwendig ist,
aber so richtig nachvollziehbar ist das für mich nicht ...
Es wäre natürlich schon schick zu wissen wer die Fehler verursacht
und was das genau für Fehler sind, ebenso natürlich was denn passiert
wenn das "degradierte" Modul in einen anderen Slot steckt.

Aber warte erst einmal ab was der Support dazu sagt wenn der sich noch einmal
meldet.

Gruß
Dobby
Member: keine-ahnung
keine-ahnung Jul 18, 2014 at 07:33:31 (UTC)
Goto Top
Moin Dobby,

zu welchen Zeiten bist Du denn noch unterwegs face-wink?
Das:
Also das Bios wird niemals den RAM Riegel bzw. das Modul reparieren können!
und das:
Also wenn die Fehler korrigiert werden, ist ja auch immer alles in "Butter" nur bei einer Häufung oder aber zu vielen Fehlern wird ein Alarm ausgelöst
beisst sich. Es geht ja auch nicht um die Reparatur defekten RAM's, sondern um die Korrektur fehlerhafter Verarbeitung im RAM. In der Alert-mail stand "Corrected Memory Error threshold exceeded", mit dieser Info hat ILO laut GUI den Riegel degraded - nur das OS hat das nicht gemerkt face-wink.
Nach dem patchen der Büchse ist ILO wieder schick, dafür bekomme ich nach dem reboot in insight diagnostic: "Schwellenwert korrigierbarer Fehler überschritten", was ich mal für den nichtdeutschstämmigen Boardnutzer übersetzen darf in: "corrected Memory Error threshold exceeded" face-wink. Hmmh ... verstehst Du, was ich meine?

Mir kommt das irgendwie so vor wie in der Daimlerniederlassung: Du kannst mit Deiner Kiste kommen, womit Du willst: Elektronikprobleme, Automatik schaltet nicht richtig, Frontscheibe geborsten, Totalschaden durch Frontalaufprall mit 250km/h ... als Allererstes versuchen die boys, mittels einbrennen irgendeiner von gefühlt 400 firmwares pro Auto den Schaden zu heilen ... und zumindest in der Anzeige des Bordcomputers ist der Fehler dann auch beseitigt face-smile!

Mal gucken, noch haben die Bulgaren sich nicht gemeldet ... oder die Mädels haben nicht durchgestellt face-sad

LG, Thomas
Member: keine-ahnung
keine-ahnung Jul 18, 2014 at 11:58:28 (UTC)
Goto Top
So, update:

Der Support meint dann doch, dass der Riegel defekt ist ("bei den Anderen hat das ILO-update fast immer geholfen" face-wink). Also muss ich doch in den sauren Apfel beissen ... wenn es einen Schutzheiligen für Freizeitadmins gibt: "Senke die Temperaturen am Wochende auf unter zwanzig Grad - BITTE!!

LG, Thomas