108399
Goto Top

VMWare vSphere ESX 5.1 in Verbindung mit NFS auf Windows 2012 Storage Server Basis

Liebe Community

Bei meinem neuen Projekt bin ich im Moment auf ein etwas nerviges Problem gestossen. In erster Linie möchte ich nun jedoch kurz den aktuellen Aufbau beschreiben:

Hypervisor: VMWare vSphere ESX 5.1 Essential
Storage Server: Windows Storage Server 2012 Standard, 2x RAID10 mit je 4TB WD HDDs zu einem Storage Pool zusammengenommen.
Netzwerk: 2x24 Port Gbit Zyxel Switchs, 2x 8 Port 10GBits Netgear Switch.
Verbindungen: Internet per GBit über einen Zyxel Switch, Storage per 10Gbit dedicated auf einem Netgear Switch.

Der NFS Storagepool konnte ohne Probleme im VMware Server eingebunden werden. Als erster Test wollte ich eine virtuelle Maschine auf den neuen Storage übertragen, hierbei erreiche ich jedoch nur einen Speed von 80-500MBit/s, wobei die Übertragung scheinbar sehr instabil ist (Geschwindigkeit schwankend). Übertragung findet vom VMware Server mit einer Intel X540 10Gbit Karte zum 10 Gbit Netgear Switch, dann vom Netgear Switch weiter auf den Intel X540 (on board) Controller des Supermicro Storage Servers.

So, virtuelle Maschine verschieben ging leider mal garnicht. Nächster Test war das Aufsetzen eines neuen Servers (Windows Server 2008 R2), wobei hier nun der Storage Server - sobald die Installation beginnt (Daten werden kopiert (0%)...) hängts dann auch und der Storage "schwirrt" ab und wird als inaktiv markiert.

Die Kommunikation findet im Moment bewusst nur über eine Leitung statt, damit ich Fehler in der Kommunikation verhindern kann. Später soll die Kommunikation dann auf 20 Gbit/s Redundant erhöht werden, was aber im Moment nicht priorität hat.

Ebenfalls gibt das Log von VMWare zum Zeitpunkt des Fehlers (inaktivität des NFS Datenspeichers) keine weiterführenden Informationen aus, welche ich als Anhaltspunkt verwenden könnte.

Hat jemand von euch noch eine Idee?

Freue mich auf eure Antwort!

Liebe Grüsse
Raphael S.

Content-Key: 205781

Url: https://administrator.de/contentid/205781

Printed on: April 19, 2024 at 19:04 o'clock

Member: affabanana
affabanana Apr 29, 2013 at 05:53:26 (UTC)
Goto Top
Hallo Raphael

1tens Raid 10 mit 4TB Festplatten (4kb) sehe ich schon mal nicht als Performance an.
2tens Raidcontroller ?? oder nur über die neuen Storage Spaces?? wenn 2tes Sehr Mutig von Dir.

Wenn Du noch am testen bist Könnstes mal ein kleines Linux installieren und das ganze dort über NFS testen ob der Speed der Hardware reicht und Du nur ein Problem mit dem Windows 2012 hast.

Ich habe hier auch ein 2012 Server Standard der auch NFS für nen ESX i 5.1 macht. Dort habe ich nur ISO Dateien abgelegt.
Performance für Installation nicht ausreichend.

gruass affabanana
Mitglied: 108399
108399 Apr 29, 2013 updated at 14:00:17 (UTC)
Goto Top
Hallo affabanaba

Danke für deine Antwort!

1. 2x RAID10 mit je 4TBs, das ganze per Backplane auf 2 LSI 8 Port Controller mit je 4 Intel SSDs als Cache. Der Storage Pool dient lediglich zum zusammenfassen als ein Storage. Somit sollte rein HW Technisch genug Resourcen da sein (ohne Cache - ~500MB/s).

2. Siehe oben face-wink

Es wird mir wohl nichts anderes übrig bleiben, als dies mit einem Linux zu testen. Hast du da Erfahrung bezüglich einem Load Balanced Cluster (ausschlaggebender Grund, wessalhb ich Storage Server 2012 Standard als System verwenden wollte).

Gruss
Raphael S.
Member: psannz
psannz Apr 29, 2013 at 08:49:21 (UTC)
Goto Top
Sers,

könntest du bitte genauer auf die HDD Aufstellung eingehen? Was sind das für Platten? Sind das 4 Platten à 4 TB je RAID10 Array, oder wie genau ist das aufgebaut?
Wie steht es um den Storage Pool den du drüber gelegt hast? Wie gibt der das ganze weiter?
Und vor allen Dingen, wenn du Journaling (für Parity) in dem Pool nutzt, läuft das Journal auch auf dem Pool?

An was für einem Controller hängen die Platten, wie steht es um die Konfiguration vom SSD Cache?

Was du sonst noch tun kannst:
  1. Den Storage Pool als "mit BBU und USV gesichert" markieren damit Caches genutzt werden:
Set-StoragePool -FriendlyName <Storage Pool Name> -IsPowerProtected $True
Dafür sollte der Server dann natürlich mit jenen schönen BBU und USV ausgerüstet sein, Konsequenzen sollten bekannt sein!

  1. SSD als Journal Disk verwenden:
Add-PhysicalDisk -StoragePoolFriendlyName "<your storage pool name>" -PhysicalDisks <physical disk name> -Usage Journal

Code ist natürlich für Powershell.

Das einfach mal so vorn weg.

Zitat von @affabanana:
1tens Raid 10 mit 4TB Festplatten (4kb) sehe ich schon mal nicht als Performance an.

4kB Sektoren machen aus Microsoft-Sicht durchaus Sinn, da VHDX-Containerdateien in 4kB organisiert sind.

Grüße,
Philip
Mitglied: 108399
108399 Apr 29, 2013 at 12:04:31 (UTC)
Goto Top
Hallo Philip

Kein Problem, hier die HD Auflistung:

1. LSI RAID Controller - RAID10 bestehend aus 4x HD WD RE SAS 3.5" SAS 6 Gb/s 4TB (7200rpm, 32MB, 3.8ms, NCQ, 24x7, SAS)
2. LSI RAID Controller - RAID10 bestehend aus 4x HD WD RE SAS 3.5" SAS 6 Gb/s 4TB (7200rpm, 32MB, 3.8ms, NCQ, 24x7, SAS)

Auf beiden LSI Controllern wird die LSI Funktion "LSI CacheCade Pro" mit je 4 Intel Flash 520 Series 120GB (550MB/s lesen, 520 MB/s schreiben) - Total 8 SSDs.

Storage Pool: RAID10 (Controller 1) + RAID10 (Controller 2) im Modus "Simple" (für mich RAID0 - schreiben auf beide LSI RAIDS)

Soll ich für den Storage Pool die Verwendung des Caches nun dennoch aktivieren?

Gruss
Raphael
Member: psannz
psannz Apr 29, 2013 at 13:20:17 (UTC)
Goto Top
Ok, Platten wären damit bekannt. Bleiben noch die Controller. Details bitte. CacheCade gibt es als v1.x und v2, wobei nur die v2 auch als Schreibcache benutzt werden kann.

Um ehrlich zu sein steig ich immer noch nicht hinter den Grund für dein Anliegen nen Storage Pool aufzumachen. Aber naja.
Es geht auf jeden Fall gegen die Best Practice. Die lautet nämlich Raid Controller in den HBA Modus zu setzen. Was dir aber wiederum deine SSD Caching Pläne zunichte macht.

Ja, du willst die Cache-Nutzung für den Storage Pool auf True setzen.
Nein, da du den Simple-Mode fährst hast du kein Journal. Brauchst das ergo also auch nicht zu konfigurieren.

Storage Spaces selbst sind ja für NTFS und ReFS optimiert, das darfst du nicht vergessen wenn du NFS auf das Volume legst.

Welche Stripe Size hast du in den Raid10 eingestellt? Dir ist klar dass du die noch verdoppelst?
Mitglied: 108399
108399 Apr 29, 2013 at 14:04:25 (UTC)
Goto Top
Hallo Philipp

Danke erstmal für deine kompetenten Antworten!

Ich will mit dem Storage Pool den Speicher zu einem zusammenfassen, im Case haben dann noch ein paar Platten mehr Platz, wobei ich diese dann nach und nach mit RAID10 (4x4TB) füllen und dem Storage Pool hinzufügen möchte.

Stripe Size ist im Moment bei 256KB, sollte also - da ich die mit dem Storage Pool bei 128 KB liegen - oder versteh ich da was falsch?

LSI Controller sind MegaRAID SAS 9266-8i montiert.

Storage Space ist im Moment auf NTFS formatiert, darin existiert ein Ordner welcher für NFS freigegeben wurde.

Danke nochmals für deine Unterstützung!

Gruss
Raphael
Member: psannz
psannz Apr 30, 2013 at 05:39:20 (UTC)
Goto Top
Sers,

Eine Frage vorweg: waren die Raids auf den LSIs schon komplett initialisiert, oder lief da noch die Background Initialisierung?

Hast du mal nen Performancetest auf dein Konstrukt ohne Storage Spaces gemacht?

Schön auf jeden Fall dass deine Controller CacheCade 2.0 unterstützen, sprich wenn du es aktiviert hast auch Schreibcaching können. Ist nur die Frage ob dir dabei auch die SSDs durchhalten. Aber das ist ein anderes Thema.

Zwecks Stripe Size: Wie lautet die Einstellung auf den Raidcontrollern? Die 128kB sind hoffentlich das Stripe Set und nicht die Stripe Size (bzw Chunk Size), sonst hast du ein Problem (sprich: jede Schreib/Leseoperation müsste je Platte 128 / 4 = 32 Sektoren bearbeiten).

Versuch mal folgendes: Stell einen der Controller in den HBA Modus, häng 8 von den HDDs dran und bau dir damit nen Storage Pool. Nimmst erst vier je und baust dir Simples draus und schnappst dir dann die zwei Simples und legst ein Mirror drüber. Dabei dann nicht vergessen Caching für die Pools via PowerShell zu aktivieren.

Und wenn das Ding steht dann teste mal die Performance.

Aber egal was, die Storage Spaces werden nicht auf die Performance von deinen LSI Controllern kommen. Storage Spaces ist eigentlich eher als Ersatz für teure Raid Controller gedacht. Wenn du direkt deine 4er RAID10s samt SSD Cache als NFS Volumes bereit stellst fährst du von der Performance her wesentlich besser.

Alternativ kannst ja auch 8 von den SAS HDDs über nen Expander mit 4 SSDs auf einen Controller hängen. Die anderen 4 SSDs langweilen sich dann eben. CacheCade unterstützt derzeit insgesamt leider nur max. 512 GB SSD Kapazität.

Grüße,
Philip
Mitglied: 108399
108399 Apr 30, 2013 at 07:23:59 (UTC)
Goto Top
Hallo Philip

Die RAIDs wurden Fast Initialisiert - soll ich eher ein Full machen?

Controller hat ChacheCade 2 mit Schreibcaching aktiviert, da liegst du vollkommen richtig. Die Intel SSDs sollten ein wenig durchhalten, Lieferant von uns meint Sie hätten bei Intel SSDs bezüglich Retouren und eigenen Projekten die beste Erfahrung gemacht. Ebenfalls ist der SSD Cache als "RAID-" Cache (oder wie auch immer ich das Schreiben soll) - eingerichtet. Somit hält Sie dem Absturz einer SSD stand.

Ich glaub, ich arbeite lieber ohne Storage Pool und teste das mal so. Im gleichen Spielzug kann ich ja dann mal dein Vorschlag bezüglich HBA Modus testen.

Mit welchem Tool würdest du am Besten die Performance des RAIDs testen?

Liebe Grüsse
Raphael S.
Member: affabanana
affabanana Apr 30, 2013 at 08:01:35 (UTC)
Goto Top
Member: psannz
psannz Apr 30, 2013 updated at 08:48:30 (UTC)
Goto Top
Zitat von @108399:
Die RAIDs wurden Fast Initialisiert - soll ich eher ein Full machen?

'Tschuldigung, bitte was? Fast heisst das im Hintergrund das Array initialisiert wird, üblicherweise mit einer Geschwindigkeit von etwa 30%. Bei der Arraygröße kann das gut und gern 1-2 Tage dauern während du dicke Performanceeinbußen hinnehmen musst.
Initialisiert werden muss immer. Der Vorteil an "Fast" aka "Background Initialisierung" ist einfach dass du nach etwa 30sec schon mit dem Array arbeiten kannst statt darauf zu warten dass die Initialisierung abgeschlossen ist.

Da darst du dich also überhaupt nicht über miese Performance wundern. Speziell wenn oben drüber noch ein Storage Pool liegt.


Dass dir Intel 520er als Schreibcache empfohlen werden... nunja. Intel garantiert für die Teile eine Write Endurance von 20 GB je Tag für 5 Jahre. Sprich Garantie gibt es nur für etwa 36 TB Writes (20Gb/Tag über 5 Jahre). Und da die Garantie von Intel über 5 Jahre eine Limited Warranty ist wird dir Intel, wenn die 36 TB nach 3 Wochen geschrieben wurden und die Platte dir drauf geht, auch keine neue Platte geben, sondern dir eine neue verkaufen.
Als Lesecache? Schicke SSDs, aber als Schreibcache? Nie im Leben...
Zum Vergleich: Eine aktuelle SM843T mit 120GB garantiert dir im Worst Case 500GB/Tag über 3 Jahre, also grob 450 TB. Preislich sind beide nicht weit auseinander.

Wie hattest du eigentlich SSDs für den "Raid-Cache" konfiguriert? Raid 0, 1 oder 10? Und falls 1 bzw. 10 als "Write Through" oder "Always Write Through"?

Wenn man es mal durchrechnet... könntest eigentlich auch alle 8 HDDs und 8 SSDs an einen Controller hängen. Jeweils eben mit Expander. Mit dem SSD Caching als Raid1 oder Raid10 konfiguriert kämst immernoch bei 480 GB effektivem Cache raus, wärst also noch innerhalb des Limits von 512 GB.

:edit:
Zur Performancemessung kann ich keine Tools empfehlen. Das Problem ist ja dass dir der Cache die Werte verfälschen wird bzw. teils erst nach einer Lernperiode mitarbeitet. Eine Möglichkeit wäre wohl eine massig Daten aufs Volume zu legen und dann diese unterschiedlich oft wiederholt zu lesen. Dadurch kriegst mit der Zeit semiakkurate Werte zur Leseleistung mit und ohne SSD-Cache. Wichtig dabei wäre auf jeden Fall dass mehr Daten auf dem Volume liegen und gelesen werden als total in den Cache passen. Grob 4-5 TB Daten bei 480GB Cache wären mal mein Richtwert.

Grüße,
Philip
Mitglied: 108399
108399 Apr 30, 2013 at 10:04:44 (UTC)
Goto Top
Hi Philip

*Hust, hust...* man lernt nie aus...

Die Fast Initialisation ist schon einige Tage her, somit können wir den Punkt eigentlich ausschliessen...

Das mit den SSDs schaue ich mir etwas später nochmals im Detail an - danke für den Hinweis!

CacheCade ist auf RAID1 konfiguriert (hatte kein RAID10 zur Auswahl), Write Policy ist auf Write Back gestellt.

Die SAS RAID10 (beide) laufen auf Write Through, da kein BBU montiert ist und bereits über die SSDs gecachet wird - oder ist dies eine falsche Überlegung meinerseits?

Thx für deinen Support!

Gruss
Raphael S.
Member: psannz
psannz Apr 30, 2013 at 10:55:08 (UTC)
Goto Top
Zitat von @108399:
Hi Philip

*Hust, hust...* man lernt nie aus...

Die Fast Initialisation ist schon einige Tage her, somit können wir den Punkt eigentlich ausschliessen...

Schau bitte im Raid Manager Utility nach. Dort siehst du ob der Vorgang abgeschlossen ist oder nicht. Fakten schaffen, weisst schon ;)

Das mit den SSDs schaue ich mir etwas später nochmals im Detail an - danke für den Hinweis!

CacheCade ist auf RAID1 konfiguriert (hatte kein RAID10 zur Auswahl), Write Policy ist auf Write Back gestellt.

Wenn du den SSD-Schreibcache aktiviert haben willst ist das die richtige Einstellung. Wichtig dazu: Sobald der Raid1 aus den SSDs degraded ist stellt der Controller den Schreibcache ab und arbeitet nur noch als Lesecache. Bis der Degradedzustand behoben wurde.

Die SAS RAID10 (beide) laufen auf Write Through, da kein BBU montiert ist und bereits über die SSDs gecachet wird - oder ist dies eine falsche Überlegung meinerseits?

Das kannst du so machen. Musst aber bedenken dass auch deine SSDs bzw. der Controllercache nicht wirklich gesichert sind. Write-Back wäre also auch eine Möglichkeit. Das solltest du für dich entscheiden. Deine Variante ist auf jeden Fall die sicherere.

Soll der Server denn Produktiv eingesetzt werden, oder ist das "nur" eine Spielewiese? Wenn produktiv würde ich auf jeden Fall das BBU in Betracht ziehen. Die sicherlich vorhandene USV nehm ich jetzt einfach mal als gegeben.

Grüße,
Philip
Mitglied: 108399
108399 Apr 30, 2013 updated at 12:08:17 (UTC)
Goto Top
Hallo Philip

Server soll später Produktiv eingesetzt werden, im Moment ist es noch ein "Kennenlernen" und Dokumentieren. Später ist der Produktive Einsatz gedacht, obwohl ich die momentane Konfiguration nochmals am überdenken bin.

Die USV ist natürlich vorhanden, die Stromanbindung (da 2 PSU) ist auch auf 2 Phasen und somit auch auf 2 USVs verteilt.

Bezüglich Cache Einstellungen werde ich dies so belassen.

PS: Initialisation ist gemäss LSI Manager definitiv durch.

PPS: Habe jetzt mal ne 1TB Datei von einem - zum anderen RAID kopiert. Durchsatz (bei aktiven Cache lag bei 990MB/s) danach lief der Cache voll, jetzt raffelt er auf 260MB/s. Dies bei zwei einzelnen RAIDs, ich hänge jetzt nochmals die NFS Shares auf dem VMWare ein und teste, ob ich jetzt überhaupt ne Virtuelle Maschine aufsetzen kann.

Melde mich gleich wieder.

Gruss
Raphael S.
Mitglied: 108399
108399 Apr 30, 2013 at 13:01:21 (UTC)
Goto Top
Hallo Zusammen

Scheinbar lag es bezüglich NFS Verbindungsproblem wirklich am Storage Pool. Werde nun die Systeme noch bis ins kleinste Detail Testen und nochmals bericht geben.

Bis jetzt nochmals vielen vielen Dank an Philip und Affabanana für die Unterstützung -> Danke, Danke, Danke!

Gruss
Raphael S.
Mitglied: 108399
108399 May 01, 2013 updated at 20:30:37 (UTC)
Goto Top
Hallo Zusammen

Wie versprochen hier noch mein kleiner Statusbericht.

Neue virtuelle Maschinen können ohne Probleme auf dem NFS in Betrieb genommen werden (egal ob Windows oder Linux). Durchsatz und verhalten der Systeme ist im Grundsatz richtig gut.

Sobald ich jedoch Daten von einem lokalen zum anderen NFS Storage verschieben will, bricht die Transferrate zusammen (z.B. Übertragung via Netzwerkfreigabe oder Anschluss einer HD auf anderem Storage).

Zudem gab es vorhin gerade das erste Mal Probleme, dass eine hinzugefügte Platte nicht korrekt formatiert werden konnte (hängte sich auf).

Die RAIDs habe ich nochmals getestet, hin und herkopieren von grossen und kleinen Files - alles mit einem normalen, guten Durchsatz und ohne Probleme.

Im Kernel Log vom VMWare Server finde ich auch keine weiteren Anhaltspunkte, keine Fehlerlogs, nichts.

Habt Ihr noch eine Idee, wo ich noch weitersuchen kann?

Danke für eure Unterstützung!

--EDIT--
Weiterer Test hat nun noch ein paar Ergebnisse mehr gebracht, das Problem scheint nur auf einer Freigabe respektive einem RAID zu liegen. Die Probleme treten auf der anderen Freigabe nicht auf. Jedoch ist die Konfiguration der RAIDs, dessen Hardware und auch dessen Durchsatz (beim kopieren untereinander auf den RAIDs) gleich...

--EDIT2--
Auch der erste Storage, der vermeintlich sauber gemäss Aussage oben lief, hat mir jetzt nen Strich durch die Rechnung gemacht. Auf der Testumgebung des Webservers war das Filesystem auf einmal auf Read only gesetzt. Im Moment gehe ich davon aus, dass es einen Verbindungsunterbruch zum Storage gab und somit der Linux Client auf Read only gesetzt wurde... Die Nacht ist ja noch jung...

Gruss
Raphael S.