Stellen Sie sich vor, Ihr Unternehmen verliert durch einen Ausfall des Rechenzentrums innerhalb weniger Stunden Millionen Euro. Oder Ihre Kunden und Mitarbeiter können über mehrere Tage hinweg nicht auf Ihre Services zugreifen. Um solche Szenarien zu vermeiden und Rechenzentren vergleichbar zu machen, wurde das Tier-System entwickelt.
Die Tier-Topologie zur Klassifizierung von Rechenzentren wurde Ende der 1990er Jahre vom Uptime Institut mit Sitz in den USA weltweit als Standard eingeführt. Jedes „Tier“ (dt. Stufe oder Level) steht für einen bestimmten Rang, den das jeweilige Rechenzentrum bzw. dessen Subsysteme erfüllen. Es ist der am häufigsten verwendete „Standard“, um den Aufbau und die Verfügbarkeit eines Rechenzentrums zu beschreiben.
Die Tier-Topologie sieht insgesamt klar definierte Verfügbarkeitsstufen (Tier 1 bis Tier 4) vor. Diese Stufen basieren auf messbaren Kriterien für Redundanz, Wartungskonzepte und tatsächliche Betriebszeiten. Tier 1 ist dabei die am wenigsten zuverlässige Umgebung, während Tier 4 als „hochverfügbar“ eingestuft wird. Die Wahl der richtigen Verfügbarkeit ist entscheidend für den Erfolg oder Misserfolg digitaler Geschäftsmodelle. Zwar werben viele Anbieter mit Tier 4, doch die Praxis zeigt, dass Tier 3 in den meisten Fällen die wirtschaftlich sinnvollere Lösung ist.
Verfügbarkeit als Schlüsselkriterium
Verfügbarkeit bezeichnet die Wahrscheinlichkeit, dass ein System zu einem gegebenen Zeitpunkt wie geplant funktioniert. Sie wird als Verhältnis aus Ausfallzeit (engl. „Downtime“) und Gesamtzeit berechnet:
Verfügbarkeit (%) = 1 - Ausfallzeit / (Produktionszeit + Ausfallzeit)
Was bedeutet „Hochverfügbarkeit“?
Für Hochverfügbarkeit muss die Wahrscheinlichkeit, dass ein System verfügbar ist, über 99,99% liegen,was bedeutet, dass die jährliche Ausfallzeit im Minutenbereich liegt.
Die vier Verfügbarkeitsstufen des Rechenzentrums
Tier 1: Basis-Infrastruktur
- Verfügbarkeit: 99,67% (28,8 Stunden Ausfallzeit pro Jahr)
- Charakteristikum: Keine Redundanz vorhanden
- Merkmale:
- Einzelner Versorgungsweg für Energie und Kühlung
- Wartungen nur bei kompletter Betriebsunterbrechung möglich
- Hohes Ausfallrisiko durch Single Points of Failure
- Geringste Energiedichte /Kühllast: 220-320 Watt/m²
Einsatzbereich: Kleine Unternehmen mit unkritischen Arbeitslasten
Der Tier 1 Standard beschreibt einen Basis-Infrastrukturaufbau, der keine Redundanz umfasst und daher nur für nicht-kritische Workloads (Lasten) geeignet ist. Merkmale sind einfach vorhandene Komponenten zur Versorgung und Verteilung der Lasten. In diesem Aufbaumodell sind Wartungen nur geplant und bei komplett unterbrochenem Betrieb der Systeme möglich. Zudem besteht ein großes Ausfallrisiko, denn Fehler können durch technische Komponenten und durch menschliches Versagen auf allen Anschluss- und Versorgungs-Ebenen auftreten.
Tier 2: Einfache Redundanz
- Verfügbarkeit: 99,75% (22 Stunden Ausfallzeit pro Jahr)
- Charakteristikum: N+1-Redundanz für kritische Komponenten
- Merkmale:
- Redundante USV-Module, Kühleinheiten und Generatoren
- Weiterhin nur ein Verteilungspfad
- Geplante und ungeplante Ereignisse können zu Ausfällen führen
- Energiedichte /Kühllast: 430-540 Watt/m²
Einsatzbereich: Kleine und mittlere Unternehmen, firmeninterne Rechenzentren, Datensicherungen und nicht-unternehmenskritische Datenbanken
In einem Tier 2-Rechenzentrum besteht Redundanz durch redundant vorhandene Leistungs- und Kühlungskomponenten („N+1“-Redundanz), wie beispielsweise ein zusätzliches USV-Modul, weitere Kühl-Einheiten, Pumpen oder Generatoren. Der Verteilungspfad für alle Lasten ist jedoch weiterhin einfach ausgelegt, weshalb sich die Verfügbarkeit zwar erhöht aber gegenüber dem folgenden Tier 3 Level deutlich schwächer ausfällt. In diesem Aufbau, der möglicherweise als Übergangslösung gedacht ist, können geplante Maßnahmen und ungeplante Ereignisse die laufenden Systeme immer noch stark beeinträchtigen oder zum Komplett-Ausfall führen.
Tier 3: Der Marktstandard – Wartungstolerante Systeme
- Verfügbarkeit: 99,98% (1,6 Stunden Ausfallzeit pro Jahr)
- Charakteristikum: Wartung im laufenden Betrieb möglich
- Merkmale:
- N+1-Redundanz für alle kritischen Systeme
- Mehrfache, aktive und passive Versorgungswege
- Durchgehende Wartung ohne Betriebsunterbrechung
- Mehrere Brandabschnitte für erhöhte Sicherheit
- Energiedichte /Kühllast: 1.070-1.620 Watt/m²
Einsatzbereich: Unternehmen mit hohen Verfügbarkeitsanforderungen
- E-Commerce und Online-Handel (kontinuierliche Verkaufsabwicklung erforderlich)
- SaaS-Anbieter und Cloud-Services (Service Level Agreements mit Kunden)
- Fintech und digitale Finanzdienstleister (zeitkritische Transaktionen)
- Große Unternehmen mit geschäftskritischen IT-Systemen und Kundendatenbanken
- Telekommunikationsanbieter und IT-Dienstleister
- Produktionsunternehmen mit IT-gesteuerten Fertigungsprozessen
Tier 3 ist der am meisten verwendete Standard. Ein wesentlicher Unterschied zu Tier 2 ist, dass in einem Tier 3 Rechenzentrum „durchgehende Wartung“ möglich ist. Wartungen einzelner Komponenten können planbar, ohne Unterbrechung im laufenden Betrieb vorgenommen werden. Für die Versorgung und Verteilung der Last besteht dafür jeweils „N+1“-Redundanz (Lesen Sie dazu auch unseren Blog-Artikel „Wie funktioniert die redundante Stromversorgung im Rechenzentrum?“). Die maximale Ausfallzeit (im Mittel über 5 Jahre) reduziert sich dadurch auf 1,6h pro Jahr.
Tier 4: Fehlertolerante Infrastruktur
- Verfügbarkeit: 99,995% (26 Minuten Ausfallzeit pro Jahr)
- Charakteristikum: Vollständige Fehlertoleranz
- Merkmale:
- Komplette Redundanz aller Systeme (2N-Redundanz)
- Keine Single Points of Failure
- Automatische Reaktions- und Abwehrmechanismen
- Physisch isolierte, komplementäre Systeme
- Energiedichte /Kühllast: über 1.620 Watt/m²
Einsatzbereich: Mission-Critical Anwendungen mit absoluten Verfügbarkeitsanforderungen
- Kritische Infrastruktur (KRITIS): Energieversorger, Wasserversorgung, Verkehrsleitzentralen
- Finanzwesen: Börsen, Zentralbanken, Großbanken mit systemrelevanten Funktionen
- Gesundheitswesen: Universitätskliniken, Notfallzentren mit lebenserhaltenden Systemen
- Regierung und Behörden: Sicherheitsbehörden, Katastrophenschutz, Militär
- Luft- und Raumfahrt: Flugsicherung, Raumfahrtkontrollzentren
- Forschung: Wissenschaftliche Rechenzentren mit internationaler Bedeutung
Beim derzeitigen Maximal-Level Tier 4 kommen fehlertolerante Infrastruktur-Elemente hinzu. In diesem Aufbau verfügt jedes Systemelement über eigene Automatismen, die bei einem Fehler oder Ausfall einzelner Komponenten automatische Reaktions- und Abwehrmechanismen starten, die diesen entgegenwirken. Alle Kapazitäts- und Versorgungselemente sind zudem durchgängig redundant, und technisch optimal aufeinander abgestimmt angelegt. Komplementäre Systeme und Versorgungspfade werden physisch voneinander isoliert betrieben, um bei Ausfällen „Ansteckungsgefahren“ zu vermeiden. Ein Tier 4-Datacenter gilt mit einer durchnschnittlichen Verfügbarkeit von 99,995% im Jahr als „hochverfügbar“, ist im Aufbau aber sehr komplex und dementsprechend teuer in der Umsetzung.
Viele moderne Rechenzentren implementieren Tier 3+ Konfigurationen, die einzelne Tier 4 Elemente integrieren, ohne deren volle Komplexität zu übernehmen. Diese Hybrid-Ansätze bieten erweiterte Sicherheit zu wirtschaftlich vernünftigen Kosten.
Fehlertolerante Systeme
Fehlertolerante Systeme erreichen eine besonders hohe Verfügbarkeit, weil sie mithilfe von intelligenter Software auf nahezu alle erdenklichen Fehlerursachen reagieren können. Zusätzlich eliminiert der Aufbau fehlertoleranter Systeme Ursachen für Single Points of Failure (SPOF). Ein SPOF bezeichnet eine einzelne Komponente, die für die korrekte und zuverlässige Funktionsfähigkeit des Gesamtsystems zwingend erforderlich ist. Dies schließt auch das Design des Netzwerkes und der Speichertechnik mit ein: So kann ein ausgefallener Netzwerkswitch bereits dazu führen, dass der Service des Gesamtnetzwerks nicht mehr verfügbar ist.
Durch die Herstellung von Hardware- und Nezwerk-Redundanz und automatische Lastenverteilung können SPOF-Risiken eingedämmt werden. Dafür werden die einzelnen Hardware- und Netzwerk-Komponenten wie Router und Switche des selben Typs mehrfach angelegt. Im Falle eines Ausfalls kann die redundante Komponente die Aufgabe der Anderen übernehmen. Standby-Systeme (gespiegelte Rechnerhardware) und automatische Failover-Mechanismen sorgen für sofortige Umschaltung bei Komponentenausfall.
Organisatorische Aspekte der Hochverfügbarkeit
Hohe Verfügbarkeit wird nicht nur durch technische Infrastruktur erreicht. Für den sicheren Betrieb der Infrastruktur sind die organisatorischen und ausführenden Strukturen ebenso wichtig. Dazu zählen beispielsweise:
- geschultes Servicepersonal mit 24/7-Verfügbarkeit
- Strategisches Bereithalten von kritischen Komponenten und Ersatzteilen
- Umfassende Wartungsverträge mit garantierten Reaktionszeiten
- Dokumentierte Notfallprozeduren für verschiedene Szenarien
- Präzise Kommunikationsstrukturen für Störungsmeldungen
- Ereignisprotokollierung für Nachverfolgung und Optimierung
Relevante Zertifizierungsstandards
In der Welt der Rechenzentren sind neben der Tier-Klassifizierung weitere Zertifizierungsstandards relevant:
- ISO/IEC 27001: Information Security Management Systems (ISMS)
- ISO/IEC 20000: IT Service Management (ITSM)
- IT Grundschutz
- EN 50600: Europäische Norm für Rechenzentrumsplanung und -betrieb
- TSI (Trusted Site Infrastructure): Deutsche Alternative zur Tier-Klassifizierung
Für die Standards ISO/IEC 27001 und ISO/IEC 20000, ist ergänzend auch jeweils ein Leitfaden mit Best Practice Anweisungen vorhanden. Gemeint sind ISO/IEC 27002 und ITIL (IT Infrastructure Library).
Fazit zur richtigen Tier-Wahl
Die Tier-Klassifizierung ist ein bewährter Orientierungsrahmen für Verfügbarkeitsanforderungen. Doch die Realität zeigt klare Präferenzen. Tier 3 stellt den aktuellen Praxisstandard für moderne Rechenzentren dar. Mit 99,98% Verfügbarkeit und wartungsfreundlichen Systemen erfüllt Tier 3 praktisch alle Anforderungen für geschäftskritische Anwendungen. Die Möglichkeit, Wartungen ohne Betriebsunterbrechung durchzuführen, macht diesen Standard besonders wertvoll für Unternehmen mit kontinuierlichem Servicebedarf. Echte Tier 4 Rechenzentren sind in Deutschland extrem selten und rechtfertigen sich nur für absolut mission-critical Anwendungen wie kritische Infrastruktur, systemrelevante Finanzinstitute oder Regierungseinrichtungen. Der Sprung von Tier 3 zu Tier 4 verdoppelt oft die Kosten bei marginalem Verfügbarkeitsgewinn.
Empfohlene Links:
Wolfgang Heinhaus, Ulrike Ostler (2017, 30. Juni) Was sichert Rechenzentren von Tier I bis IV? URL: https://www.datacenter-insider.de/was-sichert-rechenzentren-von-tier-i-bis-iv-a-619349/
Andrea Held (2015, 6. Oktober) Hochverfügbarkeit und Downtime: Eine Einführung URL:https://www.informatik-aktuell.de/betrieb/verfuegbarkeit/hochverfuegbarkeit-und-downtime-eine-einfuehrung.html
Holger Skurk (2013, 13. Dezember) „Betriebssicheres Rechenzentrum“ URL: https://www.bitkom.org/Bitkom/Publikationen/Betriebssicheres-Rechenzentrum.html
Uptime Institut (2018, Januar) Tier Standard: Topology, Uptime Institute URL: https://uptimeinstitute.com/uptime_assets/d60e4b92ffa912e586a68d76617c4f12c3700681477064382a03207927a1ee96-00001A.pdf