Ad hoc-Lösung für Big Data

Performanceverlust, Komplexität, hohe Kosten – traditionelle Speichersysteme sind bei Big Data überfordert. Eine Sofort-Lösung wird dringend gesucht. Object Storage ist dafür eine vielversprechende Option. Von Laurent Fanichet, Product Marketing Manager Big Data EMEA and APAC bei Quantum.

12 years ago Posted in

Begünstigt durch Cloud Computingund Big Data nehmen semi- und unstrukturierte Datenmengen in Unternehmen immer mehr zu. Intelligentes, sprich, effizientes und kostengünstiges Datenmanagement wird zur Herausforderung. Neben der langfristigen Datensicherheit von bis zu mehreren Petabyte Daten, muss zukunftssichere Infrastruktur vor allem betriebliche und funktionale Flexibilität gewährleisten. In all diesen Punkten sind traditionelle RAID-Speichersysteme jedoch stark eingeschränkt: Es fehlt ihnen an einem Mechanismus zur proaktiven Erkennung von Bitfehlern (die Bitfehlerrate liegt bei einem RAID-Array mit zehn 3TB-Disks bereits bei 33 Prozent) und an der Sicherheit bei Knotenausfällen. Skalierung im Petabyte-Bereich geht bei heutigen Diskkapazitäten von 3 bis 4TB mit einer entsprechend hohen Zahl an Disks einher. Doch mit der wachsenden Anzahl der Disks nimmt auch die Wahrscheinlichkeit zu, dass diese ausfallen. Wiederherstellungszeiten liegen bei RAID-6 bereits heute in einer Größenordnung von 24 Stunden und mehr. Die Folgen sind offensichtlich: Performanceverlust, Komplexität und hohe Kosten.

Keys und Codes bewältigen Datenberg

Auf der Suche nach einer neuen Storage-Generation für Big Data verfolgt Object Storage einen grundlegend anderen Ansatz für Disk-basierte Archive als bisher. Bestehen traditionelle Speichersysteme aus einem streng hierarchischen Verzeichnis aus Ordnern und Dateien, bedient sich Object Storage einfacher Schlüssel-Wert-Paare. Ein Objekt bildet eine Einheit aus originärem Datenmaterial, seinen Metadaten und einem Key. Dies ist ein Zugangsschlüssel, der nur einmal pro Objekt vergeben wird. Er dient dem Client als Objekt-ID, so dass für ihn Daten eindeutig identifizierbar und somit schneller erreichbar sind - ein essentieller Punkt im Big Data Management. Gruppierte Objekte können zudem in sogenannten Containern zusammengefasst werden, so dass Administratoren digitale Datensätze nahezu unbegrenzt skalieren können. Neben der einfachen Adressierungslogik ist ein weiterer Vorteil von Object Storage gegenüber gängigem RAID, dass Daten global auf Rechenzentren an verschiedenen Standorten verteilt werden können, je nach Object Storage-System sogar über heterogene Disks und Knoten. Bei RAID hingegen müssen alle Daten lokal vorliegen. Üblichen Latenzen aufgrund großer Distanzen wird u.a. durch lokales Caching, Netzwerkkomprimierung und Lastenausgleich entgegengewirkt. Datenintegrität wird erreicht, indem Objekte über verschiedene Knoten mit entsprechender Redundanz mittels so genannter Erasure Codes verteilt werden. Diese werden bereits seit Jahren in der Raumfahrtkommunikation erfolgreich angewendet. Behelfen sich RAID-Systeme für die Datenintegrität ganzer Disk-Gruppen, nutzen heutige Object Storage-Systeme Algorithmen, welche sie in eindeutige Codes umwandeln. Das Besondere: Sind die Codes zur Speicherung verteilt, reicht eine zufällige Teilmenge der Codes zum schnellen Abruf der Daten. Einzelne Codes werden automatisch getestet und im Fehlerfall durch Ersatzcodes ersetzt. Auf diese Weise werden verschwiegene Bitfehler vermieden. Durch Features wie Kompression und Verschlüsselung können Administratoren die Sicherheit ihrer Daten individuell anpassen und das Level der Datenintegrität selbst definieren.

Protokolle schaffen Ad hoc-Nutzung

Der hybride Ansatz aus softwaregesteuertem Object Storage basierend auf einem Dateisystem-Namensraum setzt sich immer mehr durch. Er liefert Unternehmen für die Verwaltung von unstrukturierten Daten deutliche Vorteile: Energie und Kosten verschlingende Storage-Silos zusätzlich zur SAN- und NAS-Infrastruktur werden obsolet. Sind Object Storage-Systeme ursprünglich für die Cloud mit ihren entsprechenden Protokollen entwickelt worden, stehen heute Standartprotokolle wie CIFS und NFS zur einfachen Integration von Object Storage in die Betriebssystemumgebung zur Verfügung. Sie ermöglichen zudem einem großen Kreis an Endnutzern und Applikationen eine “Ad hoc”-Nutzung der Daten. Auf Zuverlässigkeit, Skalierbarkeit, Integrität und Flexibilität kommt es in Big Data-Umgebungen auf Petabyte-Level an - Object Storage ist dafür eine vielversprechende Option.