Nicht nur die USV zählt - Wichtige Komponenten für die Stromversorgung im Rechenzentrum

Eine zuverlässige Stromversorgung spielt in Rechenzentren eine zentrale Rolle: Schon sehr kurze Unterbrechungen können dort immense Schäden anrichten

Ein USV-System ist hier unerlässlich, aber beileibe nicht die einzige Komponente, die funktionieren muss, wie jüngst der Stromausfall im IT-Dienstleistungszentrum (ITDZ) Berlin zeigte. Neben den USV-Geräten spielen auch Notstromaggregate und weitere Komponenten eine wichtige Rolle. Selbst wenn die USV funktioniert, kann es daher zu einem Ausfall der Systeme kommen - wenn alle integrierten Bauteile nicht perfekt zusammenarbeiten. 

So hatten in Berlin Hilfsaggregate, die für die Notstromversorgung eine zentrale Rolle spielen und bei der Unterbrechung der Stromversorgung nicht ansprangen, einen Ausfall der Systeme verursacht (siehe http://www.itdz-berlin.de/aktuelles/20130815_ursache.html).
USV-Systeme überbrücken die Versorgung für eine bestimmte Zeit und helfen Datenverluste im Fall eines Stromausfalls zu vermeiden. Wie lange diese Überbrückungszeit ist, hängt von der installierten Batterieanlage und der aktuell abgerufenen Leistung ab. Die Laufzeit muss jedoch mindestens so lang sein, wie die zu schützenden Systeme benötigen, um ordnungsgemäß herunterzufahren oder bis ein zusätzliches Notstromaggregat startet. In großen Rechenzentren werden diese Anlagen meist in Verbindung mit einem Diesel-Aggregat installiert, um eine langfristigere Überbrückung der Notstromversorgung zu gewährleisten. Die Größe des Tanks bestimmt die Überbrückungszeit, die mit Notstromaggregat beispielsweise 24 Stunden und mehr betragen kann.

Monitoring-Systeme
Eine tragende Rolle spielen dabei Meldesysteme, die Störungen umgehend weitergeben. In hochverfügbaren Rechenzentren ist inzwischen auch der Einsatz einer Software zur Messung und umfassenden Überwachung der Infrastruktur zum Standard geworden. Solche Lösungen bieten neben der Überwachung der physischen Komponenten der Stromversorgung, Kühlung, Sicherheit und IT-Infrastruktur in Rechenzentren heute auch umfangreiche Planungs-Tools. So wird die Echtzeitmessung von Daten sofort ausgewertet und es werden für den Betreiber des Rechenzentrums automatisch Trendanalysen, Reports und Benachrichtigungen generiert. Dadurch können die meisten Störungen bereits durch vorbeugende Maßnahmen vermieden werden, strategische Entscheidungen können auf Grundlage valider Daten getroffen werden und der gesamte Rechenzentrums-Betrieb kann wesentlich effizienter gestaltet werden.

Regelmäßige Schulungen und Wartungen
Oft sind es aber auch ganz banale Dinge, die eine katastrophale Wirkung haben können – schon ein umgelegter Schalter verursacht mitunter einen Ausfall der Systeme. Regelmäßige Schulungen der Mitarbeiter sorgen für Abhilfe und vermeiden Fehler durch menschliches Versagen. Die Durchführung dieser Schulungen ist eine Managementaufgabe. So wird sichergestellt, dass jeder weiß, wie er im Ernstfall zu reagieren hat. Außerdem werden die Systeme so regelmäßig gemäß den Vorgaben des Herstellers durch Fachpersonal gewartet.

Notfallhandbücher
Ebenso ist ein Handlungsplan mit klaren Prioritäten und Sicherheitszielen sowie -Maßnahmen dringend notwendig, sobald es um kritische Systeme geht. Dabei empfiehlt es sich, Zuständigkeiten festzulegen: Für jede identifizierte Aufgabe muss definiert werden, wer für die Durchführung verantwortlich ist. Ebenso sollte für alle allgemein formulierten Sicherheitsrichtlinien genau festgelegt werden, für welchen Personenkreis diese verbindlich sind. Wichtig ist, dass der Vertreter auch in der Lage ist, seine Aufgaben wahrzunehmen. Checklisten geben Mitarbeitern die wichtigsten Handlungsschritte im Notfall vor und enthalten alle wichtigen Passwörter und Kontaktdaten.

Datacenter-Assessment
Schneider Electric bietet entsprechende Services zur Überprüfung bestehender Rechenzentren, die auch die Erstellung eines Notfallplans mit einbeziehen. Eine Vor-Ort-Analyse der Experten zeigt in dem Fall Schwächen in Design, Betrieb oder Wartung auf, welche die Systemverfügbarkeit bedrohen könnten und gewährleistet mit entsprechenden Empfehlungen besseren Schutz gegen Ausfallrisiken.

Blackout-Tests

Die Dokumentation der Prozesse und die Festlegung der Abläufe sind im Grunde nur der erste Schritt. Regelmäßig sollte auch ein Test stattfinden, um wirklich sichergehen zu können, dass alle Pläne korrekt sind. Hier wird der Störfall tatsächlich durchgespielt. Viele IT-Manager scheuen diese Tests aus Angst vor Systemausfällen. Doch nur bei einer solchen Probe zeigt sich, ob die Systeme nicht nur im Einzelnen, sondern auch im Zusammenspiel funktionieren. In den meisten Fällen sind alle Komponenten von unterschiedlichen Lieferanten. Im Idealfall sollten daher alle Firmen bei dem Test mit einbezogen werden.


 

Talent and training partner, mthree, which supports major global tech, banking, and business...
On average, only 48% of digital initiatives meet or exceed business outcome targets, according to...
GPUaaS provides customers on-demand access to powerful accelerated resources for AI, machine...
TMF Group, a leading provider of critical administrative services for global businesses, turned to...
Strengthening its cloud credentials as part of its mission to champion the broader UK tech sector...
Nearly all UK IT managers surveyed (98%) state cloud investment is an organisational priority for...
LetsGetChecked is a global healthcare solutions company that provides the tools to manage health...
Node4 to the rescue.