gijoe
Goto Top

CPU Temperatur über 90 Grad

hi@all,

Ich habe hier einen Sun Server mit mehreren CPU-Boards. Das Diagnose Tool zeigt mir bei einer CPU eine Temperatur von 94° an. Die anderen drei CPUs liegen zwischen 70-80°. Ich habe noch einen zweiten Server, dort wird ebenfalls mit dem Onbaord-Tool (prtdiag) die Daten ausgelesen, und dort befinden sich die Temperaturen zwischen 50-60°. Ich gehe mal davon aus, das dass ° Celsius sind, Fahrenheit wären da ja schon etwas kühl. Der Serverraum ist Konstant 24°.

Meine Frage, kann das überhaupt sein oder ist da die Messung kaputt? Ab wann steigt sone CPU dann aus?

Content-Key: 117929

Url: https://administrator.de/contentid/117929

Printed on: April 23, 2024 at 20:04 o'clock

Member: BCCray
BCCray Jun 10, 2009 at 12:55:55 (UTC)
Goto Top
Es kann sehr wohl sein, das die Sensoren z.B. defekt sind oder das Diagnosetool die Temperaturen falsch liest bzw. interpretiert. Hier hilft (zum absoluten Sicherstellen) oft nur ein Laserthermometer (kann man sich auch unter Umständen beim Installateur oder Baumarkt leihen)

CPU´s dürften ab einer Temp von über 90 Grad schon aussteigen, bzw. throtteln (wenn die Funktion unterstützt wird) dann auf eine niedrigere Taktfrequenz runter.

Absolut(!) tödlich ist eine Temp ab 90°C auf Dauer!
Member: pieh-ejdsch
pieh-ejdsch Jun 10, 2009 at 12:58:31 (UTC)
Goto Top
Hat denn die CPU mit 94°C eine so wesentlich höhere CPU-Auslastung als die anderen drei?
Ich würde erstmal nach dem Grund schauen warum denn diese eine CPU eine höhere Temp hat.

Maximum drehzahl des Lüfters erreicht bzw. Lüfter defekt oder Schmutz im Kasten?
Bedenklich ist diese Temp deswegen noch nicht GPUs gehen so bis 115°C mit.
Ich würde aber zusehen, das die Temp runterkommt.
Member: aqui
aqui Jun 10, 2009 at 13:37:49 (UTC)
Goto Top
Hast du den Server mal aufgeschraubt und nachgesehen ob sich der Lüfter noch dreht ???
Vermutlich ist das schlicht und einfach der Fehler das der Lüfter defekt ist und die CPU nur noch mit Kühlkörper arbeitet oder der Kühlkörper hat sich gelöst... !!

Ob es ggf. normal ist, was eher unwahrscheinlich ist..) kann doch ganz einfach ein schneller Anruf bei der lokalen Sun Hotline klären aber sicher nicht Sun Halbwissen (oder gar kein Wissen) in einem Forum ??!!
Member: gijoe
gijoe Jun 10, 2009 at 13:49:55 (UTC)
Goto Top
Also was die Lüfter betrifft: Ich glaube die haben keine CPU-Lüfter im herkömmlichen Sinn, sondern so "allgemeine" - Es gibt zwei Lüfter für alle CPU-Boards, werden auch als Primäre CPU Lüfter angezeigt. Die Drehzahlen sind aber in Ordnung.

Wie seh ich denn die Auslastung eines einzelnen CPU unter Solaris? Muss mal googeln...
Member: BCCray
BCCray Jun 10, 2009 at 13:53:28 (UTC)
Goto Top
Zitat von @pieh-ejdsch:
Bedenklich ist diese Temp deswegen noch nicht GPUs gehen so bis
115°C mit.

DAS würd ich auf gar keinen Fall behaupten!
CPUs mit GPUs zu vergleichen noch dazu in bezug auf die Temperaturen geht gar nicht!

Meine GPU daheim läuft im Schnitt mit 90 Grad unter Volllast im Dauereinsatz... Ich will sehen das du mit einer Intel oder AMD-CPU diese Temp auf dauer fahren kannst, ohne das deine CPU geschrottet wird.

Unter Intel Processorfinder kannst du nachschlagen, für welche Temperatur deine CPU auf dauer maximal ausgelegt ist. Alles was über diese Temperaturen geht ist auf jedenfall nicht gut und schlägt sich auf die Lebensdauer deiner CPU nieder.

Aber wie schon erwähnt - Frag doch die SUN-Pro´s face-smile Das ist die einzige Aussage, auf die ich mich verlassen würd.
Member: gijoe
gijoe Jun 10, 2009 at 14:01:38 (UTC)
Goto Top
Also die Auslastung (Mit iostat) liegt schon ab und zu zwischen 50-60%, aber nicht konstant, sinkt dann wieder unter 10%.
Member: gijoe
gijoe Jun 10, 2009 at 14:08:24 (UTC)
Goto Top
Ja, es ist eine SPARC-Maschine (falls das was zur Sache tun)

SUN Hotline => Geht nicht ohne Service-Vertrag...oder?
Member: pieh-ejdsch
pieh-ejdsch Jun 10, 2009 at 15:38:13 (UTC)
Goto Top
CPUs mit GPUs zu vergleichen.....
sorry sollte nur ein Beispiel sein aber um das nochmal zu Verdeudlichen...

Ich hatte meinen GPU Lüfter abgehängt weil ich die Sicherungsfuntion der Graka getestet habe - also meine GPU ging bei 115°C auf die Bremse. Das heist für mich sie ging bis 115°C mit.
Es sollte aber deswegen nicht anders verstanden werden bzw ich hätte behauptet meine GPU arbeitet bei dieser Temp ohne Probleme.
Zum zweiten:
Wenn die CPU Temp von 94°C angezeigt wird und die Kiste immernoch läuft warum sollte die CPU diese Temp nicht aushalten????
Die Frage ist doch nur wie lange wird das die CPU mitmachen.
Wenn das Board so ein bisschen AI drin hat wird es sicherlich die Kiste bei einer Bedenklichen Temp Überschreitung automatisch abschalten bzw. runterfahren.
Ich Persönlich würde Zusehen, dass die Temps mit Lüftern wieder nach unten kommen.
Ich will sehen das du mit einer Intel oder AMD-CPU diese Temp auf dauer fahren kannst, ohne das deine CPU geschrottet wird.
geht nicht bei mir da schaltet der AI vom Mainboard die Kiste ab......!

Meine MB-CPU Diode zeigt unter Vollast max 55°C und die Core-Diode max 64°C an. Dabei hat der CPU Lüfter noch nicht seine volle Drehzahl erreicht, damit ich die Reinigungsintervalle meiner Kiste nicht alle zwei Monate machen muss und falls mal mehr Staub aufm Kühler ist - die Lüfter schneller drehen können.

Hast Du mal nach Dreck in der Kiste nachgeschaut??? Vllt bekommt dieser Kühler den Hauptluftstrom ab und verdreckt dadurch am ehesten....

Denn bei max 60% CPU Last würde ich mir doch mal nen Kopp machen warum die Temp so hoch ist.
Wie hoch ist denn die CPU Last bei den anderen?
Member: gijoe
gijoe Jun 11, 2009 at 07:45:08 (UTC)
Goto Top
Wie gesagt, zwischen 70-80° C.
Member: pieh-ejdsch
pieh-ejdsch Jun 11, 2009 at 13:53:27 (UTC)
Goto Top
Zitat von @gijoe:
Wie gesagt, zwischen 70-80° C.
Was für eine Frage hast Du damit beantwortet...? Wissen wir das nicht schon?
Zitat von @gijoe:
Also was die Lüfter betrifft: Ich glaube.......Es gibt......
Ja was denn nun eigentlich?

So ein rumgewurschtel hier - alles muss man Dir aus der Nase ziehen!
Ich versuchs nochmal.

-Diagnose
aus irgendeinem unklaren Grund weist eine CPU-Temp einen höheren wert auf

erster Server ist ein Sun Server mit mehreren CPU-Boards (genaugenommen 4 Stück)
  • ein CPU-Board misst eine CPU-Temp von 94° (irgendwas, wir nehmen an es sind Celsius.)
  • die Last dieser CPU liegt nicht konstant bei 50-60% aber auch nicht höher
  • die anderen drei CPU-Baords messen eine CPU-Temp von 70-80°(Celsius)
  • die Last dieser drei CPUs ist nicht bekannt -> Frage: wie ist diese Auslastung?
  • es werden für insgesamt alle 4 Boards zwei Primäre Lüfter angezeigt
  • die Drehzahl dieser Lüfter ist OK -> bedeutet ? drehen sich ein wenig? -> Frage: wie ist diese Lüftergeschwindigkeit?
  • Frage: Dreck im Kasten? Rasselnde Lüfter?

zweiter Server ist Vorhanden -> Frage gleicher Typ?
  • die CPU-Temps dieses Servers sind alle 50-60°(Celsius)
  • Frage: wie hoch ist hier die CPU-Last und wie schnell drehen die Lüfter?


-zur Behandlung
  • Achtung! Vorher! Elektrostatisch Entladen am Gehäuse durch anfassen des Blanken Gehäuses. Kiste Vorher ausmachen und danach vom Netz nehmen!
  • wenn die Lüfter rasseln sind die Lager ausgeschlagen bzw ein Rotorblatt ist beschädigt. -> Bitte den Lüfter durch einen neuen Ersetzen.
  • Lüfter werden auch lauter wenn sich mit der Zeit Staub auf den Rotorblättern ablagert. Durch den Staubbefall steigt nicht nur der Stromverbrauch des Lüfters sondern auch der Stromverbrauch des zu Kühlenden elektronischen Bauteiles. Es hat also nicht nur Ergonomische Aspekte den Lüfter zu reinigen, sondern spart auch Energie.
  • prüfe bitte ob die Kühlkörper auf den CPUs fest sitzen. es kann auch sein, dass die Wärmeleitpaste hart geworden ist und dadurch die Wärmeableitung nicht mehr gewährleistet ist. -> Alte Wärmeleitpaste mit einem Tuch vollständig entfernen und Neue Wärmeleitpaste (dünn) auftragen.
  • es kann sein, dass Rotorblatter vom Lüfter und Rippen vom Kühlkorper leichte bis hohe Staubablagerungen nach langer Betriebszeit aufweisen. wenn dies der Fall ist nimmtst Du einen Pinsel mit mittelharten Borsten und fegst diese Verschmutzungen weg. Dann den Staub mit einem Sauger und zwischendurch pusten - wegsaugen. Auf elektronische Bauteile achten und diese nicht Berühren bzw Verdrücken.
  • Lüfter haben meist auch auf der Rückseite der Rotorblätter Verschmutzungen. dazu die Lüfter Abschrauben bzw ausklinken (auch um die Kühlrippen besser zu reinigen.) und reinigen.
Member: gijoe
gijoe Jun 11, 2009 at 15:57:58 (UTC)
Goto Top
Jo, das hast du doch schön zusammengefasst! Ich habe deine letzte Frage falsch aufgefasst (Dachte du redest von der Temp).
Die Auslasung ist gesammthaft um die 50% (wie ich die Auslastung einzeln sehe, habe ich nicht rausgefunden unter Solaris) , Umdrehungen der beiden Lüfter sind 3200 rpm. Ich werde denn Kasten mal öffnen und mitteilen ob's daran lag. Komischerweise gibt das Diagnose-Script des Servers ein "OK" aus bei allen CPU's, obwohl ein paar Grad heisser und die Maschine würde wieder abstellen...
Member: pieh-ejdsch
pieh-ejdsch Jun 11, 2009 at 16:40:28 (UTC)
Goto Top
3200rpm ist schon ziemlich hoch aber bei der Temp kein Wunder.

Hast Du schonmal hier nachgeschaut?
http://www.ikt-ret.dk/projects/whatshot.shtml

Kannst also mit dem Programm Monitoring betreiben. auch für die einzelnen CPUs, Fans etc.
Zitat:
The /usr/platform/platform-name/sbin/prtdiag -v command on a Sun/Solaris box will output detailed hardware information.
...
In this example, only the CPU temperature is measured. The prtdiag -v can, (depending on the hardware), give you information about disk status, error LEDs, fan speed, power supplies, etc. You will have to modify the regular expressions of the program accordingly.
Member: gijoe
gijoe Jun 27, 2009 at 11:03:30 (UTC)
Goto Top
Komisch, ich hatte schon vor einiger Zeit auf deinen Thread geantwortet, vermutlich wiedermal auf "antworten" statt auf "senden" gedrücktface-smile

Also, zur Zeit werte ich mit einem (selbergeschriebenen) Plugin in Nagios genau diese Werte aus, die mir prtdiag -v auf einer Solaris-Kiste ausgibt. Und aus diesem Grund habe ich diese hohe Temperatur auch bemerkt. Nach dem Staubabsaugen und diversen Kühlungsmasnahmen im Serverraum ist die Temperatur ein wenig besser, aber immer noch >93° (Zwischenzeitlich war sie bis zu 101°) . Was jetzt noch fehlt ist die Entstaubung Innerhalb des Servers, was aber vermutlich in die Ferien-Phase fallen muss, da Risiko sonst zu gross.

Danke soweit mal für die Inputs