Der Resilienz-Ansatz von Atlassian
Die Verfügbarkeit deiner Cloud-Produkte und der zugrunde liegenden Systeme und Dienste, die sie verwenden, sowie ihre Resilienz gegenüber Auswirkungen negativer oder ungeplanter Ereignisse, ist für uns genauso wichtig wie für dich. Damit deine Produkte verfügbar sind, wenn du sie brauchst, haben wir Technologie, Mitarbeiter und Programme eingesetzt, um die Ausfallsicherheit von Unternehmen zu gewährleisten.
Stabile Produkte entwickeln
Atlassian betreibt seine Cloud-Produkte nach einem Modell der gemeinsamen Verantwortung – Zuverlässigkeit basiert auf der Partnerschaft zwischen dir und Atlassian. Bei diesem Modell sind wir dafür verantwortlich, die Hochverfügbarkeit, Zuverlässigkeit und Wiederherstellbarkeit unserer Infrastruktur, Produkte und Dienstleistungen sicherzustellen. Deine Verantwortung besteht darin, ein Disaster-Recovery-Programm und einen Business-Continuity-Plan umzusetzen, die gewährleisten, dass du dein Unternehmen im Falle eines ungeplanten Ereignisses weiterführen kannst.
HOCHVERFÜGBARKEIT
Wir nutzen Amazon Web Services (AWS) als Cloud-Serviceanbieter und seine hochverfügbaren Rechenzentrumseinrichtungen in mehreren Regionen weltweit. Jede AWS-Region ist ein separater geografischer Standort mit mehreren, isolierten und physisch getrennten Gruppen von Rechenzentren, den sogenannten Availability Zones (AZs).
Die Availability Zones sind durch ihr Design weitgehend vor Ausfällen geschützt und gegenüber den anderen Zonen isoliert. Sie sind über ein kostengünstiges, latenzarmes Netzwerk mit anderen Availability Zones in derselben Region verbunden. Diese Hochverfügbarkeit in mehreren Zonen stellt die erste Verteidigungslinie gegen geografische und umgebungsbedingte Risiken dar und sorgt dafür, dass ein Service, der in Deployments mit mehreren Availability Zones ausgeführt wird, den Ausfall einer Availability Zone problemlos übersteht.
Weitere Informationen findest du auf der Seite zu Architektur und Betriebspraktiken.
Zuverlässigkeit
Atlassian setzt sich dafür ein, dass alle unsere Teams zuverlässige Services und Produkte anbieten. Damit dies effektiv gelingt, konzentriert sich unser Disaster Recovery (DR)-Programm auf die Implementierung von Prozessen, Richtlinien und Technologien, die sicherstellen, dass wichtige IT-Systeme und -Services verfügbar und zuverlässig sind und im Falle eines Ausfalls schnell wiederhergestellt werden können.
Zusätzlich zu den oben genannten Funktionen haben wir Überwachungsfunktionen und Warnmeldungen implementiert und führen Disaster-Recovery-Tests durch.
Überwachung und Warnmeldungen
Wir überwachen kontinuierlich eine Vielzahl von Metriken mit dem Ziel, potenzielle Probleme frühzeitig zu erkennen. Basierend auf diesen Metriken werden Warnungen so konfiguriert, dass Site Reliability Engineers (SREs) oder die entsprechenden Produktentwicklungsteams benachrichtigt werden, wenn Schwellenwerte überschritten werden. So können automatisch Maßnahmen im Rahmen unseres Incident-Response-Prozesses ergriffen werden.
SREs spielen auch eine wichtige Rolle im DR-Programm, indem sie zusammen mit unserem Risiko- und Compliance-Team daran arbeiten, die Compliance-Frameworks einzuhalten. Zu jedem unserer Teams gehört auch ein DR-Champion, der die mit diesem Team verbundenen Disaster-Recovery-Aspekte überwacht und verwaltet.
Disaster-Recovery-Tests
Unsere Disaster-Recovery-Tests decken Prozess- und Technologieaspekte ab, einschließlich relevanter Prozessdokumentation und Failover-Tests in unseren Systemen. Sie reichen von gängigen Tabletop-Simulationsübungen bis hin zu umfangreichen Availability-Zone- oder regionalen Failover-Tests. Unabhängig von der Komplexität des Tests legen wir großen Wert auf Sorgfalt bei der Erfassung und Dokumentation von Testergebnissen, bei der Identifizierung und Analyse von möglichen Verbesserungen sowie bei deren abschließender Bearbeitung mithilfe von Jira-Tickets. So können wir den Gesamtprozess kontinuierlich verbessern.
Zuverlässige Services bereitstellen
Unsere Verpflichtung zu hoher Zuverlässigkeit wird durch unsere Service Level Agreements (SLAs) belegt, die die Höhe der Verfügbarkeit definieren, die wir unseren Kunden jeden Monat garantieren müssen.
Außerdem verwenden wir Maßstäbe wie Recovery Time Objectives (RTOs) und Recovery Point Objectives (RPOs). Im Falle eines ungeplanten Ereignisses, das die Zuverlässigkeit der Cloud-Produkte von Atlassian beeinträchtigt, ist Atlassian bestrebt, den normalen Betrieb seiner Cloud-Produkte gemäß den folgenden RPO- und RTO-Vorgaben wiederherzustellen:
RPO | 1 Stunde |
---|---|
RTO | 6 Stunden |
Um die Verfügbarkeit unserer Produkte und Services einzusehen, besuche unsere Statuspage.
Wiederherstellbarkeit
Unsere hochverfügbare Architektur (HA) ermöglicht es uns, den Service bei den meisten Störungen, die sich auf die Verfügbarkeit unserer Cloud-Produkte auswirken könnten, wiederherzustellen. Es gibt jedoch auch Szenarien wie die Beschädigung oder Löschung von Daten innerhalb unserer Infrastruktur, in denen wir traditionellere Mechanismen zur Datensicherung und -wiederherstellung verwenden müssen.
Um diesen Szenarien zu begegnen, betreiben wir bei Atlassian ein umfassendes Backup-Programm. Es schließt unsere internen Systeme und Cloud-Produkte ein, bei denen unsere Backup-Maßnahmen in Einklang mit den Anforderungen zur Systemwiederherstellung erstellt wurden. Wir haben Prozesse und Tools eingerichtet, die Backups kontinuierlich testen.
Wir verwenden diese Backups jedoch nicht, um destruktive Änderungen von Kunden rückgängig zu machen, wie zum Beispiel von Skripts überschriebene Felder oder gelöschte Vorgänge, Projekte oder Sites. Um Datenverlust zu vermeiden, empfehlen wir regelmäßige Backups vorzunehmen. Weitere Informationen zum Erstellen von Backups findest du in unserer Dokumentation.
Minimierung der Auswirkungen ungeplanter Ereignisse
Das Business Resilience-Team von Atlassian arbeitet daran, sicherzustellen, dass unsere eigenen grundlegenden Funktionen während und nach Störungen des Tagesgeschäfts funktionsfähig bleiben, und zwar durch solide Praktiken zur Geschäftskontinuität (BC, Business Continuity).
Das BC-Programm ist so konzipiert, dass es mit unserem DR-Programm zusammenwirkt, wobei unsere Aktivitäten auf einem jährlichen Lebenszyklus beruhen, der sich an den Industriestandards orientiert. Im Rahmen unseres Ansatzes führen wir unsere Business Impact Analysis (BIA) mindestens einmal jährlich durch. Dies ist die Grundlage für die Entwicklung effektiver Kontinuitätsstrategien, die zum Schutz unserer Mitarbeiter, Prozesse und Technologie erforderlich sind. Die Ergebnisse dieser BIAs unterstützen unmittelbar unsere Maßnahmenstrategie im Bereich DR und BC. Dadurch sind unsere geschäftskritischen Services in der Lage, ganzheitlich effektive DR- und BC-Pläne zu erstellen, die sowohl die Wiederherstellung unserer wichtigen Technologie als auch die dahinter stehenden Menschen und Prozesse unterstützen.
Unser Ansatz zur Sicherung der Geschäftskontinuität
Wir arbeiten kontinuierlich daran, die Funktionalität und die Sicherheit unserer Strategien für Unternehmensresilienz und Wiederherstellung durch drei komplementäre Ansätze auszubauen:
- Übungen: Diese sollen helfen, bestehende Pläne zu überprüfen, und können als Tabletop-, funktionale oder umfangreiche Übung durchgeführt werden. Sie bieten allen Beteiligten die Möglichkeit, ihre Zuständigkeiten im Falle einer Betriebsunterbrechung durchzugehen. Das ermöglicht Stakeholdern, relevante Kontinuitätspläne im Detail zu überprüfen und die Verfahren so zu befolgen wie in einer echten Krisensituation.
- Erprobung von Ernstfällen: Hiermit können wir unsere Reaktion auf eine bestehende oder mögliche Bedrohung einem Stresstest unterziehen. Während wir bei der Planung alle potenziellen Gefahren berücksichtigen, ermöglicht uns die Erprobung von Ernstfällen, unseren Ansatz im Rahmen spezifischer Szenarien (die mit hoher Wahrscheinlichkeit auftreten können oder große Auswirkungen hätten) unter Druck zu testen, um sicherzustellen, dass unsere Reaktions- und Wiederherstellungsstrategien robust sind.
- Tests: Tests werden bestanden oder nicht bestanden und ermöglichen uns, die Effektivität unserer Pläne objektiv zu beurteilen. Dies ist unser Hauptansatz, wenn wir versuchen, unsere Disaster-Recovery-Strategien zu testen, um die Effektivität zu messen und zu managen.