Close

Teste Compass kostenlos

Als Unterstützung beim Entwickeln, zum Katalogisieren von Diensten und zum Optimieren des Softwarezustands.

Wie Atlassian bei der Betriebsbereitschaft hilft

Lerne Best Practices für die Betriebsbereitschaft kennen, die Zuverlässigkeit, Sicherheit und Compliance fördern

Porträtfoto von Krishna Sai
Warren Marusiak

Senior Technical Evangelist


Selbst mit modernen Projektstrukturen wie DevOps fehlt vielen Projekten ein grundlegendes kritisches Planungsverfahren — ein automatisierter Bereitschaftsbewertungsprozess. Ohne Betriebsbereitschaft wissen Softwareentwicklungsteams nicht, ob die Umgebung für das neue System oder Produkt bereit ist. Betriebsbereitschaft wird aber nicht unmittelbar vor dem Einsatz sichergestellt. Sie muss frühzeitig integriert werden, wenn die Projektanforderungen und Spezifikationen erstellt werden.

Was ist Betriebsbereitschaft?


Softwareentwicklung

Betriebsbereitschaft ist eine Reihe von Anforderungen, die Entwicklungsteams erfüllen müssen, bevor ihr Service für den produktiven Einsatz bereit ist. Die Anforderungen werden vor Beginn der Entwicklung von einem Team festgelegt und müssen erfüllt werden, bevor der Service für die Produktion bereit ist. Die Anforderungen an die Betriebsbereitschaft zwingen Teams, vom ersten Tag an Zuverlässigkeit, Sicherheit und Compliance zu berücksichtigen. Wenn sie sich von Anfang an auf diese Anforderungen konzentrieren, verhindern Teams, dass nach Start des Services Probleme bei den Kunden auftreten.

Die Betriebsbereitschaft besteht aus drei Komponenten, die Teams definieren müssen. Zunächst müssen Teams eine Reihe von Servicestufen definieren. Danach müssen Teams eine Reihe von Service Level Agreements definieren. Schließlich müssen Teams eine Reihe von Anforderungen an die Betriebsbereitschaft definieren. Für jede Servicestufe gibt es ein Service Level Agreement und eine oder mehrere Anforderungen an die Betriebsbereitschaft. Wenn ein neuer Service erstellt wird, wird ihm eine Servicestufe zugewiesen. Das Service Level Agreement der Servicestufe legt die Anforderungen an die Verfügbarkeit, Zuverlässigkeit, Datenverlust und Servicewiederherstellung fest. Ein Service muss alle Anforderungen an die Betriebsbereitschaft erfüllen, bevor er in die Produktion übergehen kann.

Unternehmenslogo
Zugehöriges Material

Was ist DevOps?

Symbol für Trophäe
Zugehöriges Material

So funktioniert DevOps

Im Folgenden wird der Betriebsbereitschaftsprozess von Atlassian beschrieben, der Teams dabei helfen kann, ihren eigenen Betriebsbereitschaftsprozess zu beschleunigen. Allerdings muss jede Organisation ihre eigenen Verfahren zur Betriebsbereitschaft auf die Arbeit und die Umgebung zuschneiden.

Servicestufen definieren


Servicestufen bieten eine Möglichkeit, Services in leicht verständliche Buckets zu gruppieren. Jede Servicestufe legt ein SLA und eine Reihe von Anforderungen an die Betriebsbereitschaft fest. Das SLA und die Betriebsbereitschaftsanforderungen basieren auf den Nutzungsszenarien der Services auf der jeweiligen Stufe. Servicestufen können als wichtige Buckets betrachtet werden. Alle Services in einem bestimmten Bucket sind gleich wichtig und sollten auf ähnliche Weise behandelt werden. Ein Bucket kritischer kundenorientierter Services hat wahrscheinlich strengere Anforderungen als ein Bucket tertiärer Services, die sich nur auf Mitarbeiter auswirken.

Die folgenden Beispiele für Servicestufen basieren auf den Servicestufen bei Atlassian:

  • Stufe 0: Kritische Komponenten, auf denen alles beruht
  • Stufe 1: Produkte und kundenorientierte Services
  • Stufe 2: Geschäftssysteme
  • Stufe 3: Interne Tools

Stufe 0: Kritische Backbone-Infrastruktur

Ein Service der Stufe 0 bietet unterstützende Infrastruktur- und Shared-Service-Komponenten, ohne die Services der Stufe 1 nicht funktionieren. Komponenten gelten als kritisch, wenn einer der folgenden Punkte auf sie zutrifft:

  • Sie sind erforderlich, um einen Service der Stufe 1 auszuführen und damit Benutzer auf ihn zugreifen können
  • Sie sind erforderlich, damit sich Kunden bei einem Service der Stufe 1 anmelden können
  • Sie werden von Mitarbeitern benötigt, um wichtige Betriebsfunktionen eines Services der Stufe 1 zu unterstützen oder auszuführen, wie zum Beispiel:

— Den Service starten/stoppen/neu starten
— Eine Bereitstellung, ein Upgrade, ein Rollback oder einen Hotfix durchführen
— Den aktuellen Status ermitteln (online/offline/beeinträchtigt)

Stufe 1: Grundlegende Services

Ein Service der Stufe 1 bietet eine wichtige Geschäfts-, Kunden- oder Produktfunktion. Das sind kundenorientierte Services oder geschäftskritische interne Services. Wenn der Service heruntergestuft oder nicht verfügbar ist, verliert das Unternehmen Geld oder ist nicht in der Lage, wichtige Geschäftsfunktionen auszuführen und/oder Funktionen, die aus Kundensicht wichtig sind, gehen verloren. Services der Stufe 1 erfordern rund um die Uhr Support, haben anspruchsvolle SLAs für wichtige Metriken und strenge Startanforderungen.

Stufe 2: Services ohne Kernfunktionen

Ein Service der Stufe 2 bietet einen kundenorientierten Service, der nicht Teil der Kernfunktionalität ist. Services der Stufe 2 bieten zusätzlichen Wert oder eine zusätzliche Benutzererfahrung, die als optional oder "nice to have" angesehen werden.

Ein Service der Stufe 2 umfasst öffentliche Services, die hauptsächlich Marketingzwecken dienen, wie z. B. öffentliche Unternehmens-Websites. Sie bieten Kunden keine direkten Services auf Unternehmensebene und keine internen Services, die von Teams zur Erfüllung ihrer Aufgaben genutzt werden, wie Tools für die Zusammenarbeit, Arbeitsverfolgung und mehr.

Services der Stufe 2 erfordern ggf. nicht rund um die Uhr Support, haben niedrigere SLAs und weniger Startanforderungen.

Stufe 3: Interne oder nicht kritische Funktionen

Ein Service der Stufe 3 bietet einem Unternehmen interne Funktionen oder experimentelle Beta-Services. Diese Stufe kann auch Services beinhalten, bei denen es sich derzeit um experimentelle Funktionen für Early Adopter handelt, bei denen eine Verschlechterung der Servicequalität während der Beta hingenommen wird. Diese Stufe bietet einen SLA-Bucket mit niedriger Priorität für Services, die nur in einem gewissen Rahmen unterstützt werden.

SLAs für Servicestufen definieren


Workflow-Fenster

Service Level Agreements (SLAs) definieren Verfügbarkeits- und Zuverlässigkeitsziele sowie Reaktionszeiten für Ereignisse, die den Service unterbrechen. Für jede Servicestufe gibt es ein Service Level Agreement. Die folgende Tabelle enthält ein Beispiel für Service Level Agreements für jede der vier in diesem Artikel definierten Servicestufen.

SLA nach Servicestufe

Stufe 0

Stufe 1

Stufe 2

Stufe 3

Metrikname

Stufe 0

Servicestufe

Stufe 0

Stufe 0

Stufe 1

Stufe 1

Stufe 2

Stufe 2

Stufe 3

Stufe 3

Verfügbarkeit

Stufe 0

99,99

Stufe 1

99,95

Stufe 2

99,90

Stufe 3

99,00

Zuverlässigkeit

Stufe 0

99,99

Stufe 1

99,95

Stufe 2

99,90

Stufe 3

99,00

Datenverlust (RPO)

Stufe 0

<1 Stunde

Stufe 1

<1 Stunde

Stufe 2

<8 Stunden

Stufe 3

<24 Stunden

Servicewiederherstellung (RTO)

Stufe 0

<4 Stunden

Stufe 1

<6 Stunden

Stufe 2

<24 Stunden

Stufe 3

<72 Stunden

Verfügbarkeit

 

 

 

Stufe 0

Stufe 1

Stufe 2

Stufe 3

Bis zu 1 Minute Ausfallzeit pro Woche. Bis zu 4 Minuten Ausfallzeit pro Monat.

Bis zu 5 Minuten Ausfallzeit pro Woche. Bis zu 20 Minuten Ausfallzeit pro Monat.

Bis zu 10 Minuten Ausfallzeit pro Woche. Bis zu 40 Minuten Ausfallzeit pro Monat.

Bis zu 1 Stunde und 40 Minuten Ausfallzeit pro Woche. Bis zu 6 Stunden und 40 Minuten Ausfallzeit pro Monat.

Zuverlässigkeit

 

 

 

Stufe 0

Stufe 1

Stufe 2

Stufe 3

Maximal 1 von 10.000 Anfragen schlägt fehl

Maximal 1 von 2.000 Anfragen schlägt fehl

Maximal 1 von 1.000 Anfragen schlägt fehl

Maximal 1 von 100 Anfragen schlägt fehl

Datenverlust (RPO)

Diese Zahl steht für die maximale Datenmenge, die im Falle eines Serviceausfalls verloren geht. Ein Service der Stufe 0 verliert bei einem Serviceausfall weniger als eine Stunde an Daten.

Servicewiederherstellung (RTO)

Diese Zahl steht für die maximal verstrichene Zeit, bis der Service wieder einsatzbereit ist. Ein Service der Stufe 0 ist in weniger als vier Stunden vollständig wiederhergestellt.

Betriebsbereitschaftsprüfungen definieren


Eine Betriebsbereitschaftsprüfung testet einen bestimmten Aspekt des Services. Sie prüft eher die Verfügbarkeit, Zuverlässigkeit und Belastbarkeit eines Services als dessen Funktionalität. Teams müssen die Betriebsbereitschaftsprüfungen definieren, mit denen sie die Betriebsbereitschaft ermitteln. Diese Prüfungen sind nicht universell. Manche Prüfungen sind nur für bestimmte Servicestufen relevant. Für einen Service der Stufe 0 gelten beispielsweise strengere Anforderungen als für einen Service der Stufe 3. Der folgende Abschnitt enthält Beispiele für Betriebsbereitschaftsprüfungen, die als Ausgangspunkt verwendet werden können.

komplexes Fenster

Backups

Wenn ein Service unterbrochen wird, müssen Teams ggf. Backups verwenden, um Daten ab einem bestimmten Zeitpunkt wiederherzustellen. Es ist wichtig, regelmäßig Backups von Daten zu erstellen, einen Wiederherstellungsprozess zu implementieren und die Backup- und Wiederherstellungsprozesse regelmäßig zu testen. Die Backup- und Wiederherstellungsprozesse sollten zuverlässig und effektiv sein. Dokumentation und Tests sind hier essenziell.

Definition von "Erledigt"

  • Die Backup- und Wiederherstellungsprozesse sind implementiert
  • Die Backup- und Wiederherstellungsprozesse sind dokumentiert und getestet
  • Die Sicherungs- und Wiederherstellungsprozesse werden regelmäßig getestet

Kapazitätsmanagement

Beschreibe klar, welchen Nutzen der Service den Verbrauchern bietet. Identifiziere insbesondere alle Einschränkungen des Services, die für die Verbraucher gelten. Implementiere Leistungstests, um sicherzustellen, dass der Service erwartungsgemäß funktioniert.

Hier sind einige Beispiele für Informationen, die du testen und den Verbrauchern zur Verfügung stellen kannst.

  • Der Service ist auf X Anforderungen pro Sekunde beschränkt
  • Der Service garantiert eine Reaktionszeit von X
  • Die Funktion X des Services wird regionsübergreifend repliziert oder nicht
  • Der Verbraucher sollte nicht X
    — den Service überlasten
    — Dateien hochladen, die größer als X sind

Definition von "Erledigt"

  • Servicegrenzen sind bekannt und dokumentiert
  • Leistungstests werden durchgeführt, um zu überprüfen, ob die Grenzwerte eingehalten werden

Kundenbewusstsein

Unterstützbarkeit ist neben Zuverlässigkeit und Benutzerfreundlichkeit ein wichtiger Aspekt der Servicequalität. Teams müssen Supportprozesse oder eine neue Funktion für einen Service erstellen, bevor er an den Start geht. Unterstützbarkeit kann einen Prozess für den Kundensupport, einen Prozess für die Änderungskontrolle, Unterstützung für Runbooks und andere auf den Support ausgerichtete Elemente umfassen.

Prozess für den Kundensupport

Entwickler müssen verstehen, was passiert, wenn Kunden das Support-Team kontaktieren und sich ihrer Verantwortung in Bezug auf den Support-Prozess bewusst sein. Das kann heißen, Teil eines Bereitschaftsservices zu sein oder Produktionsprobleme zu lösen, sobald sie auftreten.

Prozess für die Änderungskontrolle

Nicht alle Änderungen haben dieselben Auswirkungen auf Kunden. Manche Änderungen sind für Kunden nicht wahrnehmbar. Zum Beispiel ein kleiner Bugfix. Manche verursachen bei der Einführung großen Aufwand beim Kunden, zum Beispiel eine komplette Neufassung einer API. Die Änderungskontrolle hilft dabei, das Ausmaß der möglichen Auswirkungen von Änderungen auf die Kunden einzuschätzen.

Support-Runbooks

Runbooks bieten einen allgemeinen Überblick über die Funktionsweise eines Services sowie detaillierte Erklärungen zu möglichen Problemen und deren Lösung. Runbooks sollten regelmäßig aktualisiert und überprüft werden, ob die dokumentierten Support-Verfahren an Serviceänderungen angepasst sind.

Definition von "Erledigt"

  • Eine Dokumentation, welche die meisten relevanten Fragen zur Untersuchung eines Problems durch das Support-Team beantwortet
  • Ein funktionierender Prozess für die Änderungskontrolle

Disaster Recovery

Ein Teil eines Notfalls ist der Verlust einer Availability Zone. Services müssen stabil genug sein, um bei einem Ausfall einer Availability Zone weiterhin normal zu funktionieren. Die Notfallwiederherstellung besteht aus zwei Komponenten: Zum einen, einen Prozess für die Notfallwiederherstellung zu entwickeln und zu dokumentieren, und zum anderen, den dokumentierten Prozess fortlaufend zu testen. Die Notfallwiederherstellung sollte regelmäßig getestet werden. Teste die Fähigkeit, einen Ausfall einer Availability Zone zu bewältigen mithilfe des dokumentierten Plans für die Notfallwiederherstellung.

Definition von "Erledigt"

  • Der Plan für die Notfallwiederherstellung wurde dokumentiert
  • Der Plan für die Notfallwiederherstellung wurde getestet
  • Es sind regelmäßige Tests für den Plan für die Notfallwiederherstellung geplant

Protokollierung

Protokolle sind aus einer Vielzahl von Gründen nützlich, z. B. zur Erkennung von Anomalien, zur Untersuchung während oder nach einem Serviceausfall und zur Verfolgung böswilliger Aktivitäten durch das Verknüpfen verwandter Ereignisse in Services mithilfe eindeutiger Identifikatoren. Es gibt viele Arten von Protokollen. Ein paar sehr nützliche Protokolle, welche die meisten Services enthalten sollten, sind:

  • Zugriffsprotokolle
  • FEHLERPROTOKOLLE

Definition von "Erledigt"

  • Passende Protokolle werden generiert
  • Protokolle werden einfach auffindbar und durchsuchbar gespeichert

Logische Zugriffsprüfungen

Logische Zugriffsprüfungen konzentrieren sich auf die Verwaltung des Zugriffs interner Benutzer, des Zugriffs externer Benutzer, des Zugriffs von Service zu Service und der Datenverschlüsselung. Wie verhindert der Service den unbefugten Zugriff auf Funktionen und Daten? Wie werden Benutzerberechtigungen definiert, verifiziert, aktualisiert und als veraltet gekennzeichnet? Bieten diese Prüfungen ausreichenden Schutz für vertrauliche Daten?

Interne Benutzer

Es gilt, einige wichtige Fragen zu beantworten: Wie werden interne Benutzer authentifiziert? Wie wird der Zugriff gewährt/bereitgestellt? Wie wird er entzogen? Wie funktioniert eine Eskalation von Rechten? Wie sieht der Prozess für regelmäßige Zugriffsprüfungen und Audits aus?

Externe Benutzer

Wie wird die Authentifizierung von Kunden abgewickelt? Wie wird der Zugriff gewährt/bereitgestellt? Wie wird er entzogen? Wie funktioniert eine Eskalation von Rechten? Wie sieht der Prozess für regelmäßige Zugriffsprüfungen und Audits aus?

Von Service zu Service

Ähnlich wie bei internen und externen Benutzern. Teams müssen festlegen, wie sich die Services gegenseitig authentifizieren. Beispielsweise durch die Einrichtung von OAuth 2.0.

Verschlüsselung

Teams möchten Daten bei der Speicherung und Übertragung verschlüsseln. Erkläre, wie Daten vom Service verschlüsselt werden. Wie verwaltet das Team Schlüssel? Was ist die Schlüsselrotationsrichtlinie?

Definition von "Erledigt"

  • Logische Zugriffsprüfungen werden für interne Benutzer, externe Benutzer und von Service zu Service dokumentiert, implementiert und getestet
  • Ruhende Daten werden verschlüsselt
  • In der Übertragung begriffene Daten werden verschlüsselt
  • Verschlüsselung ist implementiert und getestet

Releases

Die Bereitstellung einer neuen Version des Services sollte den Kunden-Traffic nicht über das im SLA des Services definierte Maß hinaus stören. Alle Änderungen müssen von Experten geprüft, getestet und über CI/CD-Pipelines bereitgestellt werden. Vergewissere dich nach jeder Bereitstellung, dass die Bereitstellung erfolgreich war und keine Funktion beeinträchtigt hat. Eine automatische Überprüfung nach der Bereitstellung wird empfohlen. Mehrere Umgebungen wie Test, Staging, Vorproduktion und Produktion sind von Vorteil, damit Bereitstellungen getestet werden können.

Definition von "Erledigt"

  • Der Service wird ohne Ausfallzeit bereitgestellt
  • Es gibt Umgebungen, in denen der Service bereitgestellt und getestet werden muss, bevor er in die Produktion geht

Sicherheitscheckliste

Die Sicherheitscheckliste besteht aus einer Reihe von Praktiken und Standards für die Entwicklung und Wartung einer sicheren Infrastruktur und Software. Diese Standards reduzieren die Wahrscheinlichkeit von Datenschutzverletzungen und Datenpannen, was wiederum das Kundenvertrauen stärkt. Teams sollten eine Sicherheitscheckliste erstellen, die zur Art des Services passt, den sie entwickeln. Ein paar Beispielanforderungen sind aufgelistet:

Definition von "Erledigt"

  • Der Service hat nachweislich keine offenen kritischen oder hohen Sicherheitslücken
  • Gespeicherte Daten werden in allen Datenspeichern verschlüsselt
  • Der Service lässt nachweislich keine unsicheren HTTP-Verbindungen zu

Servicemetriken

Servicemetriken liefern wichtige Status- und Diagnoseinformationen zu einem Service und ermöglichen es Teams, Vorfälle zu überwachen und darauf zu reagieren. Beginne mit dem Definieren einer Reihe von Metriken, die bei jedem Service überwacht werden. Erstelle dann ein Dashboard mit diesen Metriken in einem Tool wie Datadog oder New Relic. Löse Warnmeldungen aus, wenn eine Metrik eine Grenze überschreitet und erstelle im Falle einer Warnmeldung Problemtickets.

Definition von "Erledigt"
Hier sind einige Beispiele für Dinge, die gemessen werden sollten:

  • Latenz: Die für die Bearbeitung einer Anfrage benötigte Zeit
  • Traffic: Die von externen Benutzern im Service generierten Datenmengen
  • Fehler: Die Anzahl der Benutzer beeinflussenden Fehler oder Ausfälle
  • Sättigung: Die Auslastung des Services und wie viel dieser noch bewältigt
  • Zugrundeliegende Ressourcennutzung: CPU, Arbeitsspeicher, Datenträger
  • Interne Anwendungsfunktionen wie Warteschlangen, Anzeigedauern und Fluss
  • Nutzung und Kernfunktionen deines Services: aktive Nutzer, Aktionen pro Minute

Servicestabilität

Die Anforderungen an die Servicestabilität bestimmen, ob ein Service Lastschwankungen und/oder Ausfälle verschiedener Komponenten verkraftet. Ein stabiler Service skaliert meistens automatisch und ist resistent gegenüber Ausfällen einzelner Knoten.

Automatische Skalierung

Wenn der Service automatisch skalieren kann, stelle sicher, dass die automatische Skalierung richtig konfiguriert und getestet ist. Bestimme, welche Metrik die automatische Skalierung auslöst und teste, ob sie funktioniert. Wenn der Service zum Beispiel das Speichern von Daten auf einem Datenträger erfordert, kann er den Prozentsatz an freiem Speicher auf den Datenträgern überwachen und automatisch skalieren, indem Speicherplatz hinzugefügt wird, wenn der freie Speicher unter einen bestimmten Schwellenwert fällt.

Ausfalltests für einzelne Knoten

Services sollten Ausfälle einzelner Knoten verkraften. Wenn ein einzelner Serviceknoten ausfällt, sollte der Service weiterhin funktionieren, auch wenn nur mit reduzierter Kapazität. Führe Tests durch, indem du mindestens einen Knoten im Service kappst, und beobachte das Systemverhalten. Dein Service sollte den Ausfall eines einzelnen Knotens verkraften. Die Umgebung, in der du den Ausfall eines einzelnen Knotens simulierst, sollte überwacht werden.

Definition von "Erledigt"

  • Die automatische Skalierung wurde nachweislich implementiert und getestet
  • Die Produktions- und/oder Staging-Umgebungen führen nachweislich mehrere Knoten aus
  • Der Service ist nachweislich resistent gegenüber Ausfällen einzelner Knoten

Support

Support ist der Prozess zur Unterstützung eines Services nach der Veröffentlichung. Teams müssen über Runbooks, Ops-Tools und Bereitschaftsservices verfügen, bevor das Produkt an den Start geht, damit Services, bei denen Probleme auftreten, über einen Prozess zur Behebung verfügen.

Runbooks

Runbooks bieten Bereitschaftsmitarbeitern den Kontext und die Anweisungen, die sie benötigen, um schnell auf Vorfälle zu reagieren und Behebungsmaßnahmen zu ergreifen.

Ops-Tools

Einen Service einem ausreichenden Standard nach zu betreiben, erfordert einen Bereitschaftsservice und ein Ops-Tool wie Opsgenie, um den Bereitschaftsservice zu benachrichtigen, wenn Probleme

Bereitschaftsdienst

Für einen Service der Stufe 2 bzw. 3 ist ein Bereitschaftsservice erforderlich

Für einen Service d Stufe 1 bzw. 0 ist ein rund um die Uhr erreichbarer Bereitschaftsservice erforderlich

Definition von "Erledigt"

  • Runbooks sind vom Support verfasst und abrufbar
  • Das Ops-Tool ist konfiguriert und getestet
  • Es gibt einen Bereitschaftsservice, der bei Problemen erreichbar ist

Definiere die Betriebsbereitschaftsprüfungen für die Servicestufen


Sobald ein Team eine Reihe von Anforderungen an die Betriebsbereitschaft definiert hat, muss es festlegen, welche Betriebsbereitschaftsanforderungen für die jeweilige Servicestufe angemessen sind. Einige Anforderungen an die Betriebsbereitschaft sind für alle Servicestufen geeignet, während andere nur für Services der Stufe 0 angemessen sind. Beginne mit der niedrigsten Servicestufe und füge schrittweise Anforderungen für die höheren Stufen hinzu. Services der Stufe 3 haben einige grundlegende Anforderungen an die Betriebsbereitschaft, Services der Stufe 0 erfordern jedoch alle Anforderungen an die Betriebsbereitschaft.

Für Stufe 3 empfohlene Betriebsbereitschaftsprüfungen

  • Backups
  • Protokollierung
  • Releases
  • Sicherheitscheckliste
  • Servicemetriken
  • Support

Services der Stufe 3 beginnen mit den grundlegendsten Anforderungen an die Betriebsbereitschaft.

Für Stufe 2 und Stufe 1 empfohlene Betriebsbereitschaftsprüfungen

  • Backups
  • Disaster Recovery
  • Protokollierung
  • Releases
  • Sicherheitscheckliste
  • Servicemetriken
  • Servicestabilität
  • Support

Services der Stufe 2 und 1 haben zusätzlich Betriebsbereitschaftsanforderungen an die Notfallwiederherstellung und Servicestabilität. Man sollte beachten, dass Services der Stufe 2 und Stufe 1 unterschiedliche Anforderungen an die Betriebsbereitschaft haben können. Es ist jedoch nicht erforderlich, dass die Stufen unterschiedliche Anforderungen haben. Wenn eine zusätzliche Betriebsbereitschaftsanforderung für eine bestimmte Servicestufe als notwendig erachtet wird, füge sie hinzu. Stufe 2 und Stufe 1 können je nach den Anforderungen des Teams voneinander abweichen.

Für Stufe 0 empfohlene Betriebsbereitschaftsprüfungen

  • Backups
  • Kapazitätsmanagement
  • Kundenbewusstsein
  • Disaster Recovery
  • Protokollierung
  • Logische Zugriffsprüfungen
  • Releases
  • Sicherheitscheckliste
  • Servicemetriken
  • Servicestabilität
  • Support

Services der Stufe 0 verfügen zusätzlich über Kapazitätsmanagement, Kundenbewusstsein und logische Zugriffsprüfungen.

Wie nutzen wir Betriebsbereitschaft?


Sobald die Servicestufen, Service Level Agreements und Anforderungen an die Betriebsbereitschaft definiert sind, wird jeder neue Service einer Servicestufe zugewiesen, und die Teams erfüllen im Rahmen der Entwicklung des Services die Anforderungen an die Betriebsbereitschaft. Dieser Prozess stellt sicher, dass alle Services auf einer bestimmten Servicestufe dem gleichen Standard entsprechen, bevor sie an den Start gehen.

Die Anforderungen an die Betriebsbereitschaft sind nicht statisch und können sich mit den Anforderungen des Teams ändern. Arbeitselemente können bestehende Services in Übereinstimmung mit den neuen Anforderungen bringen. Je nach Geschäftsanforderungen ist es auch möglich, bestehende Services nicht zu aktualisieren, damit sie den aktualisierten Anforderungen entsprechen.

Anzeige für die Produktionsbereitschaft


Automatisierung aufzubauen ist nützlich, um die Anforderungen an die Produktionsbereitschaft zu überprüfen. Die automatisierte Überprüfung vereinfacht es, eine Checkliste für jeden Service zu erstellen, in der die für einen Service geltenden Produktionsbereitschaftsanforderungen aufgeführt sind. Die Anforderungen an die Produktionsbereitschaft können automatisch abgehakt werden, wenn sie erfüllt sind. Wenn eine der Anforderungen an die Produktionsbereitschaft nicht erfüllt ist, sollte die Produktionsbereitschaftsanzeige rot sein. Wenn alle Anforderungen erfüllt sind, sollte die Produktionsbereitschaftsanzeige grün sein.

Platziere die Anzeige für die Produktionsbereitschaft auf der Startseite des jeweiligen Services und an jeder anderen nützlichen Stelle. Ein guter Platz für die Produktionsbereitschaftsanzeige wäre zum Beispiel eine Compass-Scorecard. Durch das Hinzufügen einer Anzeige für die Produktionsbereitschaft zur Compass-Scorecard eines Services ist diese Information leicht auffindbar und bietet einen Rahmen für die Durchsetzung von Best Practices und die Identifizierung von Bereichen, die verbessert werden sollten.

Fazit


Teams brauchen Zeit, um ihren Betriebsbereitschaftsprozess zu entwickeln. Teams sollten zunächst Servicestufen und Service Level Agreements definieren. Dann sollten Teams eine Reihe von Anforderungen an die Betriebsbereitschaft definieren und festlegen, welche Anforderungen für die jeweilige Servicestufe gelten. Wenn das grundlegende Framework vorhanden ist, kann jeder neue Service die Anforderungen an die Betriebsbereitschaft als Teil des Standardentwicklungsprozesses erfüllen, und die Teams können darauf vertrauen, dass ihr Service produktionsbereit ist, sobald die Produktionsbereitschaftsanzeige grün leuchtet.

Zusätzliche Links


Weitere Informationen zu den in diesem Artikel behandelten Themen findest du unter diesen Links.

Warren Marusiak
Warren Marusiak

Warren is a Canadian developer from Vancouver, BC with over 10 years of experience. He came to Atlassian from AWS in January of 2021.


Diesen Artikel teilen
Nächstes Thema

Lesenswert

Füge diese Ressourcen deinen Lesezeichen hinzu, um mehr über DevOps-Teams und fortlaufende Updates zu DevOps bei Atlassian zu erfahren.

Abbildung: DevOps

DevOps-Community

Abbildung: DevOps

DevOps-Lernpfad

Abbildung: Karte

Kostenlos loslegen

Melde dich für unseren DevOps-Newsletter an

Thank you for signing up