stefankittel
Goto Top

Ketzerische Frage: RAID 1 mit SAS und FBU gegen Enterprise SSD

Hallo,

RAID 1 wurde entwickelt um gegen den Ausfall einer Festplatte geschützt zu sein.
Dafür nimmt man eventuelle Störungen durch den RAID-Controller selber in kauf, da die Gesamtausfallquote immer noch geringer ist.

Wie sieht es aber im direkten Vergleich aus zu einer Enterprise SSD aus?

Als Basis habe ich einen Fujitsu TX1320M3 für einen SOHO-Kunden.
Datenmenge = ca. 60 GB OS, ca. 200 GB Dateien und ca. 10 GB Postgres DB.
Der Server läuft mit vSphere und das OS ist aktuell noch 2008 R2.

Performance spielt nur eine kleine Rolle.
Aktuell wird ein Server mit Onboard-Intel-RAID mit 2x 500GB SATA verwendet.
Und der Kunde ist wegen der Performance nicht unglücklich.

A)
RAID-Controller EP400i mit TFM und FBU (basierend auf LSI MegaRAID SAS3108)
2x SAS 600GB 10k

B)
Read-Intensiv 800GB Enterprise SSD

B ist schneller und hat weniger "Teile".
Weniger Teile = weniger Komplex = weniger Probleme (KISS)

B ist ca. 600 Euro günstiger

Laut diesem Dokument ohne Datum liegt das Ausfallrisiko von RAID über dem einer Enterprise SSD.
https://www.hivelocity.net/blog/ssd-sata-vs-sata-raid-1-a-comparison-of- ...
SSD annual failure rate- ~1.5%
SATA annual failure rate- ~5%
RAID card annual failure rate- ~3%
Aber es gibt keine Quellenangabe.

Der Server wird mit einer Monitoring-Software überwacht die täglich einen Smart-Test durchführt.
Auch die Schreibgrenzen werden bei diesem SOHO-Kunden wohl nie erreicht werden.

Was meint Ihr?

Viele Grüße

Stefan

Content-Key: 370514

Url: https://administrator.de/contentid/370514

Printed on: May 4, 2024 at 18:05 o'clock

Member: Lochkartenstanzer
Lochkartenstanzer Apr 09, 2018 updated at 05:50:10 (UTC)
Goto Top
Zitat von @StefanKittel:

Was meint Ihr?


Moin,

RAID 1 dient hauptsächlich dazu, die downtime gering zu halten. (Backup hat man doch eh immer face-smile).

Von daher würde ich auch mit SSD ein RAID1 machen, allein um schon den Datenverlust zwischen letztem Backup und dem Ausfall der SSD gering zu halten und ggf. das Recovery zu sparen.

Wenn also die HDDs von der Performance her reichen, würde ich die lassen, ansonsten ein RAID1 mit SSD.

Die Preisfrage ist immer: was kostet es den Kunden, wenn bei Ausfall der SPOF, in diesem Fall die SSD, bis die Kiste wieder produktiv läuft. Das ist der Richtwert, an dem man sich für die Investition orientieren kann,

lks
Member: Vision2015
Vision2015 Apr 09, 2018 at 05:52:42 (UTC)
Goto Top
Moin...

ich würde auch zu einen Raid 1 mit SSD´s tendieren!


Frank
Member: StefanKittel
StefanKittel Apr 09, 2018 updated at 05:54:44 (UTC)
Goto Top
Moin,

wenn aber die Wahrscheinlichkeit eines Ausfalls bei 2x HDD mit RAID-Controller bei ca. 3% liegt und die Ausfallrate bei einer Enterprise SSD ohne RAID nur bei ca. 1,5% warum dann einen RAID-Controller?

Wenn die Zahlen richtig sind erhöht der RAID-Controller die Ausfallwahrscheinlichkeit (und die Komplexität).
Hat Jemand andere Zahlen?

RAID 1 mit SSD ist teurer.
Da die Performance nicht benötigt wird, wird es dann ein RAID 1 mit SAS.
Es gibt nur A oder B face-smile

Stefan
Member: Vision2015
Vision2015 Apr 09, 2018 at 06:03:12 (UTC)
Goto Top
Moin...
Zitat von @StefanKittel:

Moin,

wenn aber die Wahrscheinlichkeit eines Ausfalls bei 2x HDD mit RAID-Controller bei ca. 3% liegt und die Ausfallrate bei einer Enterprise SSD ohne RAID nur bei ca. 1,5% warum dann einen RAID-Controller?
und wo genau steht das?

Wenn die Zahlen richtig sind erhöht der RAID-Controller die Ausfallwahrscheinlichkeit (und die Komplexität).
Hat Jemand andere Zahlen?
ich würde mich auf die zahlen nicht verlassen....

RAID 1 mit SSD ist teurer.
natürlich...
Da die Performance nicht benötigt wird, wird es dann ein RAID 1 mit SAS.
Es gibt nur A oder B face-smile
dann bleib bei A
es kommt ja auch auf die verfügbarkeit an, wenn ein ausfall von einem vormittag etc... nicht so doll ist, ist eine SSD ok!
dann würde ich aber 2 x am tag sichern wollen...

Stefan
Frank
Member: Lochkartenstanzer
Solution Lochkartenstanzer Apr 09, 2018 at 06:04:57 (UTC)
Goto Top
Zitat von @StefanKittel:

Moin,

wenn aber die Wahrscheinlichkeit eines Ausfalls bei 2x HDD mit RAID-Controller bei ca. 3% liegt und die Ausfallrate bei einer Enterprise SSD ohne RAID nur bei ca. 1,5% warum dann einen RAID-Controller?

Wenn der Raid-Controller die Grätsche macht, baut man einfach den Reserve-Controller ein und arbeitet weiter. Downtime ist dann im Idealfall wenige Minuten bis einen Tag. Wenn die einzelne SSD die Grätsche macht, hast Du zumindest das Delta zwischen letztem Backup und dem Ausfall verloren und die Recovery-Zeit als Ausfall.

Ich persönlich ziehe es vor, immer ein RAID1 zu haben (notfalls ein Softraid, wenn die Performance unkritisch ist), um die Downtime zu minimieren.

lks
Member: Looser27
Looser27 Apr 09, 2018 at 06:06:11 (UTC)
Goto Top
Moin,

dann nimm doch Consumer SSD im RAID 1. Damit hättest Du das beste aua beiden Welten und das Ende der SSD wird bei so geringer Läßt wohl nie erreicht.

Gruß Looser
Member: StefanKittel
StefanKittel Apr 09, 2018 at 06:07:14 (UTC)
Goto Top
Moin,

Die Quelle steht oben im Text.
Eine bessere habe ich bis jetzt nicht gefunden.

Und ja, das ist springende Punkt an meiner Frage.

Stefa
Member: Archeon
Archeon Apr 09, 2018 at 06:16:13 (UTC)
Goto Top
Guten morgen,

bedenke auch, wenn du kein RAID hast du und dir die SSD verstirbt, steht der Server sofort und arbeitet nicht mehr auf dem zweiten Medium weiter, wenn du dann nicht eine passende SSD in Reserve hast, verlängert sich deine Ausfallzeit nur noch unnötig weiter.
Ich würde nicht auf ein RAID verzichten wollen, dann lieber etwas Performance einbüßen, wenn es da eh nicht drauf an kommt.

Gruß
Member: Kraemer
Solution Kraemer Apr 09, 2018 at 06:24:45 (UTC)
Goto Top
Moin,

in deinem Beispiel wird eine SATA-Disk für ein Backup mit aufgeführt. Diese fehlt oben in deinen Überlegungen.
Ich persönlich bevorzuge noch immer Raids, weil der Ausfall einer Platte im allgemeinen nicht zu einem Ausfall des Servers führt. Allerdings gibt es noch diverse andere spof in einem Server - von daher kann man über das Konstrukt mit SSD und SATA-Platte als Backup durchaus nachdenken. Allerdings würde ich dann auch wie Frank mindestens zwei mal täglich sichern wollen.
Leider bist du auf LKS seinen Einwand nicht eingegangen, dass das Ganze eine simple Rechenaufgabe ist. Wenn Downtime und Verlustdelta im akzeptablen Bereich sind, kann man alles mögliche bauen.

Gruß
Member: ukulele-7
Solution ukulele-7 Apr 09, 2018 updated at 06:36:05 (UTC)
Goto Top
Bleiben wir mal bei der "Milchmädchen-Rechnung". Ich sage nicht das der Gedankengang schlecht ist aber man kann natürlich faktisch keine so einfache Rechnung anwenden, zumindest nicht für ein System.

Der Punkt (den Lochkartenstanzer schon angesprochen hat) ist ein Anderer: Du hast zwar mit 1,5% gegenüber 3% eine geringere Ausfallwahrscheinlichkeit aber der Ausfall wird ja nicht extrem unwahrscheinlich sondern kann immer noch statt finden. Die Mehrkosten für einen RAID (SSD oder HDD) werden also nicht nur für den Ausfall getätigt (egal wie schnell er eintritt). In diesem Fall ist der Mehrwert das ein Ausfall dann besser abgefangen wird. Im Idealfall merkt der Anwender nichtmal, das sein Server eine defekte Platte hat und diese getautscht wird/wurde, er arbeitet weiter. Ohne RAID und mit nur einer SSD/HDD steht der Server, und das kostet. Außerdem verlierst du die Arbeitsleistung zwischen Ausfall und letztem Backup und hast ein paar genervte Anwender die ihre gedruckte Excel Tabelle wieder eingeben müssen und sich erinnern dürfen was sie überhaupt getan haben um es nochmal zu tun.

Die Ausfallwahrscheinlichkeit ist nur eine Eigenschaft von Speichersystemen, du bezahlst aber für alle Eigenschaften als Ganzes.
Member: StefanKittel
StefanKittel Apr 09, 2018 at 06:52:02 (UTC)
Goto Top
Moin,

Ihr überseht den Vergleich.
Es geht mir nicht um den Ausfall einer HDD.
Es geht um den Ausfall oder eine Fehlfunktion des RAID-Controllers.
HDDs ohne RAID würde ich auch nicht machen.

Machen wir mal einen anderen Vergleich auf.

Der Server hat Next-Business-Day Support von Fujitsu.

A)
Wenn eine HDD/SSD im RAID stirbt passiert in 99% der Fälle gar nichts.
Bei einem Elektronikschaden kann trotzdem das RAID ausfallen bis man das defekte Laufwerk ersetzt.

B) Wenn der RAID-Controller ausfällt steht alles.
Nach dem Austausch ist zu 99% der Fälle alles wieder da.
In 1% der Fälle hat der Controller vorher Informationen auf den HDD/SSDs verfälscht/gelöscht oder gegrillt.
Effektiv 1% von 3% = 0,03% (wenn ich den Zahlen von Oben folge)

C) Wenn die einzelne SSD ausfällt steht alles.
Nach dem Austausch muss die Datensicherung wiederhergestellt werden.
Effektiv 1,5% (wenn ich den Zahlen von Oben folge)


Ok, ich habe nicht ausreichende darüber nachgedacht.

(wenn ich den Zahlen von Oben folge)
Bei dem RAID-Controller ist die Wahrscheinlichkeit dass er ausfällt doppelt so hoch wie bei der Enterprise SSD.
Aber in den meisten Fällen läuft der Server nach dem Tausch des Controllers wieder.
Dies kann durch Fujitsu erfolgen. Genau wie der Tausch der HDD.

Bei der SSD ist die Wahrscheinlichkeit des Ausfalls geringer, aber die letzte Datensicherung wird immer benötigt.
Es entsteht immer ein Datenverlust solange es tagsüber auftritt.
Dies muss durch mich erfolgen.

Also RAID mit SAS (oder ggf. SATA)

Stefan
Member: ukulele-7
ukulele-7 Apr 09, 2018 at 07:06:05 (UTC)
Goto Top
Verstehe aber die Voraussetzung ist dann tatsächlich das der Controller häufiger ausfällt als eine einzelne SSD. Ich hab da nicht viel Erfahrungswerte aber das kann ich mir erlich gesagt nicht vorstellen. Berücksichtigt diese Annahme auch Verschleiß oder gilt die vielleicht nur für das erste Jahr?
Member: elix2k
Solution elix2k Apr 09, 2018 at 08:25:23 (UTC)
Goto Top
Wenn der RAID-Controller stirbt, klemmst du einfach eine HDD an den onBoard SATA-Anschluss an und es geht weiter.
Member: keine-ahnung
Solution keine-ahnung Apr 09, 2018 at 08:52:16 (UTC)
Goto Top
Moin,
Es entsteht immer ein Datenverlust solange es tagsüber auftritt.
das ist der springende Punkt. Da kannst Du backup'pen, bis der Arzt kommt - ohne einen RAID-Verbund ab level I verlierst Du jede Form von Datenredundanz, in Berufszweigen, die auf eine kontinuierliche Datenerfassung angewiesen sind, ist das nicht akzeptabel. Insbesondere dann nicht, wenn die Daten dann nicht oder nur mit einem Maximalaufwand wieder rekonstruierbar sind.
Nimm mal eine Arztpraxis --> da werden u.U. in 4 Stunden > 50 Versichertenkarten eingelesen, Rezepte gedruckt, Vitalwerte erfasst, Diagnostik dokumentiert etc. Knallt Dir dann Deine "Enterprise-SSD" wech, ist Schicht im Schacht. Die Daten sind sowas von fort ...
Anders im RAID - stirbt eine Platte, tauschst Du sie aus. Stirbt der controller, tauschst Du ihn aus. Die Daten hast Du aber trotzdem noch ...

LG, Thomas
Member: Pedant
Pedant Apr 09, 2018 at 09:34:16 (UTC)
Goto Top
Hallo Stefan,

Zitat von @StefanKittel:
Es geht um den Ausfall oder eine Fehlfunktion des RAID-Controllers.

SSD setze ich noch nicht lange genug ein, um eine persönliche Risikostatistik zu erstellen.

Meine Ausfallstatistik für meine Raid-Controller sieht so aus:

Die Betriebszeit eines Servers (mit Raidcontroller (LSI)) sind ca. 10-15 Jahre, bis er ausrangiert wird.
Etwa 10-12 Server habe ich so schon ge-/verbraucht.

Ein Raidcontroller ist mir bisher nur einmal abgeraucht und ich konnte ihn ohne Datenverlust ersetzt werden.
Eine andersartige Fehlfunktion eines Raidcontrollers habe ich bisher noch nicht bemerkt, will sagen es kam auf meinen Arrays noch nie zu einem Datenverlust.
Festplatten hingegen sind in den Arrays schon diverse ausgefallen, was einzeln betrachtet aber auch eher selten passiert.

Wichtige Daten würde ich auf Servern niemals ohne Raidlevel > 0 nutzen wollen, selbst wenn ich immer garantiert verlustfreie Backups hätte.
Auch wenn es nicht unternehmenskritisch sein sollte, wäre mir die Downtime einfach zu lästig.
Es ist viel entspannter einem laufenden System die Redundanz wiederzubeschaffen, statt sich von allen Seiten anzuhören, wann der Server wieder verfügbar sei. Ohne Redundanz muss man im Ausfallfall sofort reagieren, egal ob man Zeit dafür hat oder nicht, mit Redundanz reicht es, wenn man es zeitnah macht. (Eile, statt Hektik)

Das Vertrauen der Mitarbeiter in die Server, darf man auch nicht schwächen, sonst kommen sie auf die Idee wichtige Daten lieber (nur) lokal zu lagern, damit sie sie im Zugriff haben, auch wenn der Server "dauernd" aus ist.

Gruß Frank
Member: Lochkartenstanzer
Lochkartenstanzer Apr 09, 2018 at 16:30:40 (UTC)
Goto Top
Zitat von @elix2k:

Wenn der RAID-Controller stirbt, klemmst du einfach eine HDD an den onBoard SATA-Anschluss an und es geht weiter.

Denkste.

Nicht immer funktioniert das so svhön, vor allem wenn man mit dem Controller verschiedene Volumes erzeugt hat.

lks
Member: Pedant
Pedant Apr 09, 2018 at 17:27:12 (UTC)
Goto Top
Hallo Lochkartenstanzer,

Zitat von @Lochkartenstanzer:
...vor allem wenn man mit dem Controller verschiedene Volumes erzeugt hat.
das möchte ich nicht anzweifeln, aber fällt Dir ein Grund ein, das bei einem Raidlevel 1 zu machen.

Gruß Frank
Member: Lochkartenstanzer
Lochkartenstanzer Apr 09, 2018 at 19:05:15 (UTC)
Goto Top
Zitat von @Pedant:

Hallo Lochkartenstanzer,

Zitat von @Lochkartenstanzer:
...vor allem wenn man mit dem Controller verschiedene Volumes erzeugt hat.
das möchte ich nicht anzweifeln, aber fällt Dir ein Grund ein, das bei einem Raidlevel 1 zu machen.


Ja ein Volume für OS und ein Volume für Daten.

Das sind dann für das OS zwei verschiedene Laufwerke. Das macht einiges einfacher wenn man später mehr Platz braucht und die Volumes vergrößert. Dann muß man keine Partitionen hin- und herschieben.

lks
Member: Dr.EVIL
Dr.EVIL Apr 12, 2018 updated at 07:32:58 (UTC)
Goto Top
Hallo Stefan.

Ich denke, das die Angaben deiner Quelle zu sehr "pauschalisiert" sind.
Von welcher SSD ist die Rede? von der 256GB SATA "Read Intensive" vom Discounter oder einer 800GB SAS Write Intensive im HotPlug Rahmen vom Markenanbieter? Bei den HDD sieht es ähnlich aus: Eine 3,5" 7,2k "Nearline" SATA fällt nach meinen Erfahrungen bedeutend häufiger als eine 2,5" 10K SAS Platte aus.
RAID Controller haben eigentlich nur eine bedeutende Fehlerquelle: Die BBU!
Controller mit "Flashcache", oder Lithium Akkus fallen sicherlich bedeutend seltener aus wie solche mit Nickel-Cadmium Akku.
Wenn man auf RAID5/6 verzichten kann, dürften daher Controller ohne Batterie die zuverlässigsten sein...

Es ist also nicht nur eine "theoretische" Überlegung, sondern hängt auch von der Qualität der verwendeten Komponenten ab...

So gesehen also von mir eine eindeutige Empfehlung für den RAID Controller mit zwei 600GB SAS HDD!
Member: StefanKittel
StefanKittel Apr 12, 2018 at 08:40:34 (UTC)
Goto Top
Hallo Dr. Evil,

ja, so ist es jetzt auch geplant.

Aber RAID-Controller gehen durchaus mal kaputt.
Und dazu zähle ich nicht die Promise-Fake-RAID-Controller.

Ich hatte in den letzten 10 Jahren bestimmt 5-6 defekte "richtige"-RAID-Controller von 3ware, adaptec, etc.
Davon 2 mit komischer Macke (immer mal wieder Datenfehler auf Volumes) und der Rest die einfach tot waren.

Also das kommt schon vor.

Aber RAID1 war mir schon immer deutlich sympatischer als RAID5+6.

Stefan