itkoa
Goto Top

VSphere 6.7U2 mit Intel XEON 2176G - Performanceprobleme und nicht plausible Messwerte

Hallo zusammen,

wir haben einen kleinen Testserver mit Intel XEON 2176G, SSD Raid und Hypervisor 6.7U2.
Der Testserver diente initial für Virtualisierungs Tests auf NVMe Speicher.

Der Server erreichte nicht die erwartete NVMe Performance und die Vermutung war zuerst dass es an Treiberproblemen liegt.
Inzwischen wurde der Server mit einem SSD SATA Raid 0 gemessen und zeigte weiter Probleme im Bereich 4k Random Bandbreite.

Bei der weiteren Prüfung konnte eine hohe CPU Last seitens esxtop ermittelt werden (siehe Screenshot).
Das merkwürdige ist jedoch dass die Hypervisor GUI zu gleicher Zeit eine CPU Auslastung von ca. 20% darstellt.
Auch die Summierte Host MHz gemessen an den VM`s entspricht eher einen Kern als dem gesamten Prozessor.

Kann es sein dass die GUI 100% CPU Last auf Basis der 6 Kerne und der MHz je Kern darstellt. Sprich 6x 3,7GHz = 100% vom CPU Trend?
Warum ist esxtop der Meinung dass 100% CPU Last vorhanden ist wenn die GUI ca. 20% Darstellt. Die 20% wären auch seitens VM Lastverhalten Plausibel.

Ist jemanden so ein Fall bekannt oder gibt es die Möglichkeit mittels esxtop die CPU Last in MHz/GHz darzustellen?

Die einzige Idee welche noch vorhanden ist dass es irgendein Problem seitens CPU Powermanagement gibt.
Sämtliche FW ist aktuell, alle Einstellungen sind hinsichtlich Performance getrimmt.

Eventuell hat jemand einen Tipp zur weiteren Fehleranalyse oder kennt sogar die Ursache.

Danke vielmals für euer Feedback.

Viele Grüße
ITKOA
cpu load
cpu
esxtop

Content-Key: 520760

Url: https://administrator.de/contentid/520760

Printed on: April 27, 2024 at 09:04 o'clock

Member: Vision2015
Vision2015 Nov 30, 2019 at 20:36:52 (UTC)
Goto Top
moin...
Zitat von @ITKoa:

Hallo zusammen,

wir haben einen kleinen Testserver mit Intel XEON 2176G, SSD Raid und Hypervisor 6.7U2.
Der Testserver diente initial für Virtualisierungs Tests auf NVMe Speicher.
was ist das genau für NVMe Speicher... wie ist der angebunden? SATA... PCIe?

Der Server erreichte nicht die erwartete NVMe Performance und die Vermutung war zuerst dass es an Treiberproblemen liegt.
was genau hast du erwartet... wie hast du gemessen, was hast du gemessen?
Inzwischen wurde der Server mit einem SSD SATA Raid 0 gemessen und zeigte weiter Probleme im Bereich 4k Random Bandbreite.
mit was für einem Raid Controller, was für ssd´s? da gibbet unterschiede wie tag und nacht...

Bei der weiteren Prüfung konnte eine hohe CPU Last seitens esxtop ermittelt werden (siehe Screenshot).


Das merkwürdige ist jedoch dass die Hypervisor GUI zu gleicher Zeit eine CPU Auslastung von ca. 20% darstellt.
bei was... einer VM? VCore ?
Auch die Summierte Host MHz gemessen an den VM`s entspricht eher einen Kern als dem gesamten Prozessor.

Kann es sein dass die GUI 100% CPU Last auf Basis der 6 Kerne und der MHz je Kern darstellt. Sprich 6x 3,7GHz = 100% vom CPU Trend?
Warum ist esxtop der Meinung dass 100% CPU Last vorhanden ist wenn die GUI ca. 20% Darstellt. Die 20% wären auch seitens VM Lastverhalten Plausibel.

Ist jemanden so ein Fall bekannt oder gibt es die Möglichkeit mittels esxtop die CPU Last in MHz/GHz darzustellen?

Die einzige Idee welche noch vorhanden ist dass es irgendein Problem seitens CPU Powermanagement gibt.
Sämtliche FW ist aktuell, alle Einstellungen sind hinsichtlich Performance getrimmt.

Eventuell hat jemand einen Tipp zur weiteren Fehleranalyse oder kennt sogar die Ursache.
hm... die Ursache von was genau... wie sind deine VM´s eingerichtet- mit welcher hardware usw...wie und was wurde gemessen?

Danke vielmals für euer Feedback.

Viele Grüße
ITKOA
Frank
Member: ITKoa
ITKoa Dec 01, 2019 at 11:50:32 (UTC)
Goto Top
Hallo Frank,

NVMe (Samsung 960) wurde via PCIe angebunden, Datendurchsatz lesen:
Seq ~ 2200MB/sec
4K32 ~ 110MB/sec
4K ~ 24MB/sec

In Summe ist der Durchsatz deutlich langsamer (speziell im 4K Bereich) als ohne Hypervisor. Ich dachte zuerst an einen Controller Engpass (Onboard) und hatte in Folge den SSD Test mit einem LSI CP400i Controller und 2 Samsung 860 SSD im Raid0 durchgeführt. Das Merkwürde ist auch hier dass der Datendurchsatz (speziell im 4K Bereich) langsamer ist als ohne Hypervisor.

In Folge und aufgrund von esxtop Messungen galt der Prozessor als verdächtig da esxtop eine zu hohe CPU load average Auslatung >1 auswies.
Die Bilder von dem vorherigen Post zeigen einmal die esxtop load average Auslastung bei >1 und einen Screenshot welcher zur gleichen Zeit erstellt wurde der die CPU Auslastung von dem vSphere Host (siehe localhost im Bild) darstellt.

Was mir im Speziellen unklar ist (unabhängig der schlechten SSD Performance) warum esxtop eine Auslastung von >1 Darstellt während der CPU Auslastung-Trend des vSphere Hosts bei ~20 liegt.

Ich würde dazu noch ein neues Bild anhängen welches zeitgleich esxtop bei einer CPU load von ~20% darstellt während der Host seitens GUI GHz verbrauch bei ca. 5% liegt. Es wirkt für mich als würde die GUI die verfügbare Leistung richtig darstellen, sprich 6x3,7 GHz = ~22GHz jedoch kann der Host die Leistung nicht beziehen.

Danke schon mal für dein Feedback
Viele Grüße
ITKOA
unbenannt
Member: ITKoa
ITKoa Dec 01, 2019 at 12:04:35 (UTC)
Goto Top
Anbei nochmals ein Bild bei esxtop >1 sprich 100% CPU load.
intel 2176g
Member: Vision2015
Vision2015 Dec 01, 2019 at 12:10:59 (UTC)
Goto Top
moin...
Zitat von @ITKoa:

Hallo Frank,

NVMe (Samsung 960) wurde via PCIe angebunden, Datendurchsatz lesen:
Seq ~ 2200MB/sec
4K32 ~ 110MB/sec
4K ~ 24MB/sec
nun... für consumer hardware ist das eigentlich ok....

In Summe ist der Durchsatz deutlich langsamer (speziell im 4K Bereich) als ohne Hypervisor. Ich dachte zuerst an einen Controller Engpass (Onboard) und hatte in Folge den SSD Test mit einem LSI CP400i Controller und 2 Samsung 860 SSD im Raid0 durchgeführt. Das Merkwürde ist auch hier dass der Datendurchsatz (speziell im 4K Bereich) langsamer ist als ohne Hypervisor.
mit dem Controller ist das normal... der hat nicht mal Cache.....ist eben ein einstiegs model!

In Folge und aufgrund von esxtop Messungen galt der Prozessor als verdächtig da esxtop eine zu hohe CPU load average Auslatung >1 auswies.
bei was genau? einer VM... oder bei alle zusammen?
CPU Überbucht?
was für wunder erwartest du von deinen 6 kernen? laufen da 4 VM´s drauf?
Die Bilder von dem vorherigen Post zeigen einmal die esxtop load average Auslastung bei >1 und einen Screenshot welcher zur gleichen Zeit erstellt wurde der die CPU Auslastung von dem vSphere Host (siehe localhost im Bild) darstellt.

Was mir im Speziellen unklar ist (unabhängig der schlechten SSD Performance) warum esxtop eine Auslastung von >1 Darstellt während der CPU Auslastung-Trend des vSphere Hosts bei ~20 liegt.
dein vCenter braucht eben etwas zum aktualisieren, esxtop ist da schneller...


Ich würde dazu noch ein neues Bild anhängen welches zeitgleich esxtop bei einer CPU load von ~20% darstellt während der Host seitens GUI GHz verbrauch bei ca. 5% liegt. Es wirkt für mich als würde die GUI die verfügbare Leistung richtig darstellen, sprich 6x3,7 GHz = ~22GHz jedoch kann der Host die Leistung nicht beziehen.
soweit, wie ich das sehe, ist da alles ok!
wie hast du deine VM´s eingerichtet?
Fujitsu Custom Image für den ESXI ?

Danke schon mal für dein Feedback
Viele Grüße
ITKOA
Frank
Member: ITKoa
ITKoa Dec 01, 2019 at 13:44:03 (UTC)
Goto Top
Hallo Frank,

es wurde das Custom Image sowie VMware Image getestet. Das Hauptproblem liegt noch immer an dem CPU verhalten.
Wenn CPU Stress Tests durchgeführt werden steigt die Host MHz Auslastung nicht über ~20-25%, die Core Util liegt dabei bei 100%. Der Zustand kann dauerhaft beibehalten werden, sprich die GUI bzw. der MHz Zuwachs ist ersichtlich und stoppt bei den genannten Kennzahlen.

Ich werde das Thema auch bei Fujitsu adressieren.
Viele Grüße
Member: GrueneSosseMitSpeck
GrueneSosseMitSpeck Dec 01, 2019 at 13:45:41 (UTC)
Goto Top
meine Güte was für eine Schwachsinnsdiskussion.

Das Wort NVME hat da nichts verloren, die gibts erst ab Evo 960 und die Evo 860 ist eine SSD, die man mit nem M.2 Anschluß kriegt.

Evo 860

und hier das NVME Modell, der Preisunterschied ist so marginal daß man bei einem Neukauf nicht unbedingt ein SSD Modell in Betracht zieht.

Evo 970

Hat man vier von den Evo 860 davon als Raid 0 dann macht sie die vierfache SSD Performance, also 2 GB/Sec oder 1,5 GB/Sec als Raid 5, aber dann rechnet sich die CPU nen Ast. Und mit so nem billigen Controller macht man die eigentlich guten Latenzen der Evos kaputt, nur optimiert das VMware da ein wenig. Auch sind reine CPU-Leistungsdaten für die Katz, man muß die Interrupt Zeit mit betrachten, denn das ist die Wartezeit auf den Storage was ebenfalls als volle CPU last auftaucht nur hat die CPU da nix getau außer sehr intensiv nach neuen Daten im Puffer zu suchen.

Eine einzige echte NVME hätte schon die doppelten Leistungsdaten und null Latenzen und null Interrupt Zeit face-smile
Und wenns schnell sein soll der Xeon den ihr da nehmt müßte eigentlich VROC können falls das Board in der Lage ist, einen PCIEx16 Steckplatz in 4x4 aufzuteilen, gibt ne Handvoll Karten die alle unter 100 Euro kosten und ne Hand voll Boards die das können.
Member: ITKoa
ITKoa Dec 01, 2019 at 19:29:11 (UTC)
Goto Top
Danke für deine Erläuterung,

bitte alle die den Beitrag lesen fokussiert bleiben. Ich werde das Hauptproblem nochmals schildern:

Unter vSphere 6.7U2 mit XEON E-2176G wird bei bewusst erzeugter CPU Last (Benchmark) ein esxtop CPU load average von >2 und core util % 99 erzeugt. Zeitgleich stellt der Hypervisor seitens GUI eine Host CPU Last von nur 22% dar. Mittels Bencharktests lässt sich der Wert von 22% nicht überschreiten da esxtop bereits eine zu hohe CPU last aufweist.

Die Daten sind in dem angehängten Screenshot ersichtlich

- Hat jemand einen Ansatz warum maximal 4,8GHz von den gesamt verfügbaren 22,2GHz bezogen werden und esxtop bereits eine CPU Überbuchung seitens CPU load average aufweist? Auffällig ist dass PCPU used % 10 nicht überschreitet. Wo ist der Flaschenhals?

Bitte nur konstruktive Ansätze und keine Vermutungen.

Danke vielmals
fujitsu