Top-Themen

AppleEntwicklungHardwareInternetLinuxMicrosoftMultimediaNetzwerkeOff TopicSicherheitSonstige SystemeVirtualisierungWeiterbildungZusammenarbeit

Aktuelle Themen

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit
GELÖST

ECC Diagnostik

Frage Hardware CPU, RAM, Mainboards

Mitglied: keine-ahnung

keine-ahnung (Level 5) - Jetzt verbinden

17.07.2014 um 22:20 Uhr, 2437 Aufrufe, 11 Kommentare

Moin miteinander,

ich habe mal wieder keine-Ahnung ... mit der ECC-Fehlerkorrektur.

Problembär:

ProLiant ML350p G8

In der Nacht zum Mittwoch habe ich aus dem ILO eine alert-mail bekommen: "EVENT (16 Jul 01:10): Corrected Memory Error threshold exceeded ((Processor 1, Memory Module 4))". Im Ilo selbst war der Riegel degraded. Ich habe einen case bei meinen bulgarischen Freunden aufgemacht, geht immer wieder schick und rasch (noch), und erste Reaktion: Maschine nicht auf aktuellem patchlevel, neuestes SPP einspielen bitte.

Das Windows-OS selbst hat nicht gemuckert, der eingebaute RAM wurde komplett erkannt.

In vorauseilendem Gehorsam habe ich gerade das SPP auf die Maschine gebügelt und siehe da: im ILO alles schick und grün.

Aber: in insight Diagnostik bekomme ich für den betroffenen Riegel folgenden Status:

Status: Grenzwert für korrigierbare Fehler überschritten Schwellenwert korrigierbarer Fehler überschritten
Nicht korrigierbarer Fehler: Status Keine DIMM-Fehler ermittelt

Da ich den case noch offen habe --> wer kennt sich von Euch mit diesen Stati aus? Für mich heisst das, das eine ECC-Korrektur in diesem Riegel nicht mehr erfolgen kann, also Schrott?

Irgendwie muss ich mich dem support gegenüber artikulieren, waäre lieb, wenn irgendjemand mit mehr Ahnung als ich mir das mal erklären könnte ... und eventuell mal eine Prognose über mögliche RAM-bedingte Systemabstürze bei diesem Zustand abgeben könnte.

Danke und LG, Thomas



Mitglied: certifiedit.net
17.07.2014 um 22:22 Uhr
Moin Thomas,

nicht zufällig der neue Riegel aus der Bucht?

;)
Bitte warten ..
Mitglied: keine-ahnung
17.07.2014 um 22:26 Uhr
Das würdest Du Klasse finden, was ?

Nee, die sind noch gar nicht da ... ist Erstaustattung.

LG, Thomas
Bitte warten ..
Mitglied: certifiedit.net
17.07.2014 um 22:28 Uhr
Ne, ich dachte nur, das schliesse ich mal davor aus. Vielleicht sind die sauer, weil du andere Module geeordert hast und begehen nun harakiri? ;)

Aber zur Problembehebung: Probier den Dimm einfach mal auszubauen und gegen einen funktionierenden zu tauschen, vielleicht hat sich das iDr..äh ilo nur verschluckt.
Bitte warten ..
Mitglied: keine-ahnung
17.07.2014 um 22:35 Uhr
Aber zur Problembehebung: Probier den Dimm einfach mal auszubauen und gegen einen funktionierenden zu tauschen
Würde ich gerne machen, aber ich habe (noch ) keinen Ersatz da. Ich würde das Teil ja auch erstmal mit 24Gbyte laufen lassen, wäre mir Wurscht. Aber ich habe die Kiste derartig eingebaut, dass ich die nicht dreimal in der Woche aus ihrer Nische ziehen und darin rumoperieren will.

Beurteilst Du das ähnlich wie ich - der Chip ist selber noch funktional, kann aber keine Fehler mehr korrigieren, wenn da noch mal was passiert --> und dann BOD?

Die Bulgaren werden das Teil vermutlich ersetzen ... wird ja aber auch dauern, Morgen ist Freitag. Und ob ich bis dahin den Speicher aus der Bucht schon habe ... keine-ahnung !

LG, Thomas
Bitte warten ..
Mitglied: certifiedit.net
17.07.2014 um 22:37 Uhr
Die Meldung ist uneindeutig. Momentan tipp ich eher auf einen Fehlalarm.

Daher einfach mal zwei DIMMS im Steckplatz tauschen? Also wenn du dir die Mühe machen möchtest.
Bitte warten ..
Mitglied: keine-ahnung
17.07.2014 um 22:43 Uhr
Ich werde erst mal warten, was der support morgen sagt, informiert sind die. Eventuell klingelt ja auch der Postbote und gibt ebay-RAM bei mir ab - würde passen. Momentan bin ich eh zuhause.
Ich werde das morgen entscheiden ... solange muss die Büchse halt noch. Aber wenn ich die Truhe bei diesen Temperaturen aus ihrem Versteck ziehe, will ich da schon eine endgültige Lösung.

LG und gut's Nächtle, Thomas
Bitte warten ..
Mitglied: Dobby
17.07.2014 um 23:34 Uhr
Hallo,

Grenzwert für korrigierbare Fehler überschritten
Das heißt nur das es sich um korrigierbare Fehler handelt und
eben der dafür festgelegte Grenzwert überschritten wurde.

Schwellenwert korrigierbarer Fehler überschritten
Dito.

Nicht korrigierbarer Fehler: Status Keine DIMM-Fehler ermittelt
Ist doch alles tutti, denn nicht korrigierbare Fehler sind dann ja auch
nicht vorhanden und an dem DIMM selber sind auch keine gefunden worden.

Nicht das ich Dir den neuen RAM nicht gönne, aber anders herum würde ich
mir schon Gedanken machen.

Gruß
Dobby
Bitte warten ..
Mitglied: keine-ahnung
18.07.2014 um 00:37 Uhr
Hi Dobby,

mir ist das von den Termini her unklar ... schon in der alertmail stand ja, dass der Fehler korrigiert wurde. Warum wird der Riegel dann degraded? Und warum merkt das OS nix davon? Nur ein schlampig programmiertes GUI?

Was wollen mir die Fehlermeldungen in insight diagnostic sagen? Reine Information? Funktionalität der Fehlerkorrektur ist intakt oder nicht? Letztlich sollte sich der Ram inclusive der Pufferbereiche für's ECC doch entladen - warum bringt der mir die Info nach dem reboot??

Ich habe jetzt wirklich keinen Bock, an der Kiste rumzuopern, ich brauche jetzt auch nicht neuen RAM, wenn das nicht notwendig ist, aber so richtig nachvollziehbar ist das für mich nicht ...

LG, Thomas
Bitte warten ..
Mitglied: Dobby
18.07.2014 um 02:24 Uhr
Hallo,

mir ist das von den Termini her unklar ...
Ok, und ich weiß eben nicht was ein Tremor ist!

schon in der alertmail stand ja, dass der Fehler korrigiert wurde.
Also das Bios wird niemals den RAM Riegel bzw. das Modul reparieren können!

Warum wird der Riegel dann degraded?
Es werden Grenz- und/oder Schwellenwerte definiert und wenn eben diese
Überschritten werden meldet das der Controller und möchte das OS und den
Rest des Systems schützen und dann wird der RAM Riegel bzw. das Modul
degradiert bzw. deaktiviert.

Und warum merkt das OS nix davon?
Hauptspeicherfehler
Also wenn die Fehler korrigiert werden, ist ja auch immer alles in "Butter"
nur bei einer Häufung oder aber zu vielen Fehlern wird ein Alarm ausgelöst.

Nur ein schlampig programmiertes GUI?
Ne das denke ich weniger, eher schon das der Server in einer Ecke steht und
dort Stromschwankungen sind!

Was wollen mir die Fehlermeldungen in insight diagnostic sagen? Reine Information?
Das ist nur von wo aus die Diagnose statt gefunden hat bzw. der Bereich im Bios dem das
aufgefallen ist bzw. wo die Schwellen- und Grenzwerte hinterlegt sind.

Funktionalität der Fehlerkorrektur ist intakt oder nicht?
Ja und zwar auf jeden Fall sogar, sonst wäre der Schwellenwert nicht überschritten worden
sondern man hätte gemeldet das der RAM Riegel defekt ist und/oder das die Fehler nicht
hätten korrigiert werden können.

Letztlich sollte sich der Ram inclusive der Pufferbereiche für's ECC doch entladen
Ja das schon aber die Fehler wurden ja vorher festgestellt und wenn die Meldungen
dann weg wären würde das ja die Fehlersuche auch beeinträchtigen.

- warum bringt der mir die Info nach dem reboot??
Das Soft Fehler entstanden sind die Anzahl so groß war bzw. ist das der festgelegte
Schwellenwert überschritten wurde.

Ich habe jetzt wirklich keinen Bock, an der Kiste rumzuopern,
Kann ich verstehen, aber eventuell etwas luftiger aufstellen bei den Temperaturen?
Und nicht dort wo Stromquellen sind?

ich brauche jetzt auch nicht neuen RAM, wenn das nicht notwendig ist,
aber so richtig nachvollziehbar ist das für mich nicht ...
Es wäre natürlich schon schick zu wissen wer die Fehler verursacht
und was das genau für Fehler sind, ebenso natürlich was denn passiert
wenn das "degradierte" Modul in einen anderen Slot steckt.

Aber warte erst einmal ab was der Support dazu sagt wenn der sich noch einmal
meldet.

Gruß
Dobby
Bitte warten ..
Mitglied: keine-ahnung
18.07.2014 um 09:33 Uhr
Moin Dobby,

zu welchen Zeiten bist Du denn noch unterwegs ?
Das:
Also das Bios wird niemals den RAM Riegel bzw. das Modul reparieren können!
und das:
Also wenn die Fehler korrigiert werden, ist ja auch immer alles in "Butter" nur bei einer Häufung oder aber zu vielen Fehlern wird ein Alarm ausgelöst
beisst sich. Es geht ja auch nicht um die Reparatur defekten RAM's, sondern um die Korrektur fehlerhafter Verarbeitung im RAM. In der Alert-mail stand "Corrected Memory Error threshold exceeded", mit dieser Info hat ILO laut GUI den Riegel degraded - nur das OS hat das nicht gemerkt .
Nach dem patchen der Büchse ist ILO wieder schick, dafür bekomme ich nach dem reboot in insight diagnostic: "Schwellenwert korrigierbarer Fehler überschritten", was ich mal für den nichtdeutschstämmigen Boardnutzer übersetzen darf in: "corrected Memory Error threshold exceeded" . Hmmh ... verstehst Du, was ich meine?

Mir kommt das irgendwie so vor wie in der Daimlerniederlassung: Du kannst mit Deiner Kiste kommen, womit Du willst: Elektronikprobleme, Automatik schaltet nicht richtig, Frontscheibe geborsten, Totalschaden durch Frontalaufprall mit 250km/h ... als Allererstes versuchen die boys, mittels einbrennen irgendeiner von gefühlt 400 firmwares pro Auto den Schaden zu heilen ... und zumindest in der Anzeige des Bordcomputers ist der Fehler dann auch beseitigt !

Mal gucken, noch haben die Bulgaren sich nicht gemeldet ... oder die Mädels haben nicht durchgestellt

LG, Thomas
Bitte warten ..
Mitglied: keine-ahnung
18.07.2014 um 13:58 Uhr
So, update:

Der Support meint dann doch, dass der Riegel defekt ist ("bei den Anderen hat das ILO-update fast immer geholfen" ). Also muss ich doch in den sauren Apfel beissen ... wenn es einen Schutzheiligen für Freizeitadmins gibt: "Senke die Temperaturen am Wochende auf unter zwanzig Grad - BITTE!!

LG, Thomas
Bitte warten ..
Neuester Wissensbeitrag
Windows 10

Powershell 5 BSOD

(8)

Tipp von agowa338 zum Thema Windows 10 ...

Ähnliche Inhalte
Server-Hardware
ECC Ram bei Produktionspc (7)

Frage von Tutter zum Thema Server-Hardware ...

Heiß diskutierte Inhalte
Microsoft
Ordner mit LW-Buchstaben versehen und benennen (20)

Frage von Xaero1982 zum Thema Microsoft ...

Outlook & Mail
gelöst Outlook 2010 findet ost datei nicht (19)

Frage von Floh21 zum Thema Outlook & Mail ...

Netzwerkmanagement
gelöst Anregungen, kleiner Betrieb, IT-Umgebung (18)

Frage von Unwichtig zum Thema Netzwerkmanagement ...

Festplatten, SSD, Raid
M.2 SSD wird nicht erkannt (14)

Frage von uridium69 zum Thema Festplatten, SSD, Raid ...