infomatrixx
Goto Top

Thinkserver RD440 mit XenServer 6.2 (Schlechte IO Performance)

Hallo zusammen

vielleicht kann mir jemand bei einem Performanceproblem auf unserem neuen Thinkserver RD440 helfen. Die aktuelle Konfiguration die auch nach Citrix HCL kompatibel ist:

Thinkserver RD440
2 physical CPUs (each 12 cores)
64GB RAM
4 x 600GB SAS 15k disks RAID 5
4x 1TB SAS 7,2k disks RAID 5
1x Hardware RAID 500 Adapter II (LSI MegaRaid SAS 9240)

CPU Load:

690c6be8984724ed33c7d9d68803fb70

Disk Performance:

3c6c9b43f0967414734098296de508e1

Aktuell haben wir eine extrem hohe Storage Latenz, was dazu führt, dass unsere VMs massiv langsam reagieren und teilweise sogar einfrieren. Unter Last liegt die Latenz zwischen 30 und 100ms auf den lokalen Platten!. Ich habe bereits versucht den Dom0 zu tunen, um hier ein Bottleneck auszuschließen. Aktuell ist der Dom0 mit 6 vCPUs non-pinnend und 4GB RAM konfiguriert. (http://support.citrix.com/servlet/KbServlet/download/33698-102-696928/x ..). Dies hat aber bisher noch zu keiner Verbesserung geführt. Nach Rücksprache mit Lenovo haben wir bereits den RAID Controller auf den aktuellen Firmwarestand gebracht und die Xen spezifischen Controller Treiber installiert.

Auffällig ist, dass der Prozess ksoftirqd unter Volllast im dom0 läuft und zwar immer dann, wenn Schreib und Leseoperationen auf der Festplatte ausgeführt werden.

Hat jemand eine Idee, wie wir hier weiter vorgehen können?

Danke vorab!

Gruß,

Fabian

Content-Key: 266885

Url: https://administrator.de/contentid/266885

Printed on: April 25, 2024 at 05:04 o'clock

Member: Anton28
Anton28 Mar 20, 2015 at 07:16:27 (UTC)
Goto Top
Hallo Fabian,

wie viele VMs laufen auf dieser Büchse ?

Welche Aufgaben haben diese VMs ?

Was wurde geändert seit der Installation ?

War das immer schon so ?

Ich würde mal vermuten, aus Kostengründen die großen langsamen Platten genommen, oder ?

Grundsätzlich würde ich mehr kleinere Platten mit 10k oder 15k bevorzugen.
Einfache Grundregel, je mehr spindeln um so mehr IO.

Ist die Firmware der Servers und der Platten auf dem aktuellen Stand ?
Sind alle Patches des Xen-Servers aktuell ?

Gruß

Anton
Member: psannz
psannz Mar 20, 2015 at 07:36:16 (UTC)
Goto Top
Sers,

mehr IOPS besorgen face-smile

OK, Raid5 is prinzipiell nicht die beste Wahl um VMs bereitzustellen....

Wie viele VM welcher Art? Mal über IntelliCache oder - speziell wenn VDI - VDS Cache nachgedacht?

Grüße,
Philip
Member: Infomatrixx
Infomatrixx Mar 20, 2015 at 08:45:13 (UTC)
Goto Top
Also:

Der XEN ist 6.2 SP1 with latest patches. Bisher liefen die Kisten auf HP DL360G5 mit 2x146GB SAS im RAID 1. Die VMs reichen von Standard Domaincontroller, bis hin zum Exchange (welcher aus am meisten Probleme bereitet, was ja klar ist).

ABER! Der XEN macht ja schon Probleme, wenn nur eine einzelne Windows 7 VM mit ein wenig IO läuft.

Das Thema IntelliCache ist ein guter Hinweis. Damit muss ich mich mal beschäftigen. Aber jetzt seien wir mal ehrlich ein SAS RAID 5 mit 4 Platten muss doch mehr als 12 MB/s schaffen !

Viele Grüße,

Fabian
Member: psannz
psannz Mar 20, 2015 at 10:59:27 (UTC)
Goto Top
Zitat von @Infomatrixx:
Aber jetzt seien wir mal ehrlich ein SAS
RAID 5 mit 4 Platten muss doch mehr als 12 MB/s schaffen !

Ist das Array fertig initialisiert? Oder läuft da noch im Hintergrund die Initialisierung? Evtl. auch die Konsistenzprüfung im Hintergrund. Festplattencache im Controller aktiviert? Muss evtl. erzwungen werden. Nehme an dein Controller hat wie der referenzierte LSI keinen Cache?
Was ist mit den Einstellungen auf dem Volume selbst? Stripe Size? Vorauslesen?

Um es anders zu sagen: Wenn das Array noch am initialisieren ist, dann können die 12MB/s bei einem Raid 5 durchaus sein.
Veranschlagen wir mal 30% BGI reine Schreibvorgänge bei 4 verbrauchten IOPS pro effektivem Schreibvorgang, eingerechnet dass die VMs auch noch lesen und schreiben, du also massiv Kopfbewegung, sprich eher Random Zugriffe als Sequentials hast, und du oben drauf nicht mal auf die Cache Hits im nicht vorhandenen Controller Cache hoffen kannst.... Ohja.

Wenn dann die VHDs noch dynamisch sind.... ohne Worte ;)

Mach aus dem RAID 5 für die VMs lieber ein RAID 10. Schreibzugriffe haben dann nur noch eine IOPS Penalty von Faktor 2, statt der aktuellen 4.
Member: Infomatrixx
Infomatrixx Mar 20, 2015 at 11:33:23 (UTC)
Goto Top
Also Initialisierung ist schon durch, kann also ausgeschlossen werden. Strip size ist 64KB. Der Raid Controller hat keinen Battery Write Cache und daher ist der Write Cache deaktiviert.

Nach einem Test mit einem XEN Benchmark komme ich im Lesen (Random) auf immerhin 55MB/s und 10-20MB im Schreiben (Random und Sequential).

Jetzt werde ich mir mal Gedanken machen, wie ich es am unkompliziertesten auf RAID10 bekomme face-smile

Schauen wir mal, ob das auch nochmal was bringt face-smile
Member: psannz
psannz Mar 20, 2015 updated at 12:01:37 (UTC)
Goto Top
Zitat von @Infomatrixx:

Also Initialisierung ist schon durch, kann also ausgeschlossen werden. Strip size ist 64KB. Der Raid Controller hat keinen Battery
Write Cache und daher ist der Write Cache deaktiviert.

Und dann wunderst du dich?!! Über deine Performance? Ein deaktivierter Schreibcache auf der Festplatte bedeutet dass deine Warteschlangen sequentiell abgearbeitet werden. Als ob du deine Queue Depth permanent 1 wäre. Sprich, die I/O Vorgänge können nicht von der Festplatte optimiert werden.....


Nach einem Test mit einem XEN Benchmark komme ich im Lesen (Random) auf immerhin 55MB/s und 10-20MB im Schreiben (Random und
Sequential).

Xen Benchmark also auf dem in Xen sichtbaren Volume, nicht aus einer VM heraus. Und ich nehme an dass sonst nichts auf dem Datenträger aktiv war, sprich die VMs die drauf liegen aus waren?
Die Werte scheinen mir bei obiger Information nicht unrealistisch.

Jetzt werde ich mir mal Gedanken machen, wie ich es am unkompliziertesten auf RAID10 bekomme face-smile
Wird nichts am Cache Problem lösen.

Fazit: Tu dir einen Gefallen und nimm einen RAID Controller mit Cache und BBU. Dann noch die Umstellung auf Raid 10 und du wirst erstaunt sein wie das Ding abgeht.

:edit: Nachtrag: Der "RAID 500 Adapter II" basiert auf dem LSI SAS 2008, und der RAID 5 wurde per "Key" zugekauft & läuft nicht wirklich in Performance. :/edit:
Member: Infomatrixx
Infomatrixx Mar 20, 2015 at 12:01:01 (UTC)
Goto Top
Zitat von @psannz:
Fazit: Tu dir einen Gefallen und nimm einen RAID Controller mit Cache und BBU. Dann noch die Umstellung auf Raid 10 und du
wirst erstaunt sein wie das Ding abgeht.

Wahrscheinlich die beste Lösung. Ich werde mal schauen, wo ich den auf die Schnelle herbekomme ...
Member: psannz
psannz Mar 20, 2015 at 12:08:41 (UTC)
Goto Top
Zitat von @Infomatrixx:

> Zitat von @psannz:
> Fazit: Tu dir einen Gefallen und nimm einen RAID Controller mit Cache und BBU. Dann noch die Umstellung auf Raid 10
und du
> wirst erstaunt sein wie das Ding abgeht.

Wahrscheinlich die beste Lösung. Ich werde mal schauen, wo ich den auf die Schnelle herbekomme ...

Wenn du bei Orginal Lenovo bleiben möchtest bietet die Serie den "RAID 700 Adapter II", oder besser den "RAID 710 Adapter". Letzterer neben bietet 1 GB Cache (statt 512MB beim 700er) mit CacheCade 2.0 eine SSD Cache Technik die unabhängig von XEN läuft (für den Fall dass evtl. IntelliCache nicht lizneziert ist).
Kauf bitte auch das zugehörige BBU mit. Dann kannst du auch getrost den Cache auf den Festplatten selbst aktivieren.