Close

Vorfallmanagement für High-Velocity-Teams

Atlassian-Handbuch für Vorfälle

Von den für technische Services zuständigen Teams wird heute erwartet, dass sie Verfügbarkeit rund um die Uhr gewährleisten.

Wenn ein Problem auftritt, sei es ein Ausfall oder ein Funktionsfehler, müssen die Teammitglieder sofort reagieren und den Service wiederherstellen. Dieser als Vorfallsmanagement bezeichnete Prozess ist für Unternehmen aller Größen eine kontinuierliche, komplexe Herausforderung.

Wir möchten Teams aus den verschiedensten Unternehmen helfen, ihr Vorfallmanagement zu verbessern. Nach dem Vorbild von Teams wie denen bei Google haben wir das vorliegende Handbuch als Zusammenfassung des Atlassian-Prozesses für das Vorfallmanagement zusammengestellt. Wir zeigen dabei, welche Erkenntnisse wir im Laufe von zehn Jahren der Vorfallbehebung gewonnen haben. Das Handbuch basiert auf unseren Erfahrungen, aber du kannst die Erkenntnisse individuell an die Anforderungen deines eigenen Teams anpassen.

Handbuch zum Vorfallmanagement

Das Handbuch in gedruckter Form oder als PDF

Wir haben eine begrenzte Auflage des Handbuchs zum Vorfallmanagement drucken lassen und versenden diese Handbücher kostenlos. Alternativ kannst du die PDF-Version herunterladen.

Wir möchten Teams aus den verschiedensten Unternehmen helfen, ihr Vorfallmanagement zu verbessern. Nach dem Vorbild von Teams wie denen bei Google haben wir das vorliegende Handbuch als Zusammenfassung des Atlassian-Prozesses für das Vorfallmanagement zusammengestellt. Wir zeigen dabei, welche Erkenntnisse wir im Laufe von zehn Jahren der Vorfallbehebung gewonnen haben. Das Handbuch basiert auf unseren Erfahrungen, aber du kannst die Erkenntnisse individuell an die Anforderungen deines eigenen Teams anpassen.


An wen richtet sich dieser Leitfaden?

Wenn du Teil eines Entwickler- oder Operations-Teams bist, das sich um Internetservices für Kunden kümmert, die Verfügbarkeit rund um die Uhr benötigen, ist dieses Handbuch richtig für dich.


Was ist ein Vorfall?

Wir definieren einen Vorfall als ein Ereignis, das zu einer Unterbrechung im Service oder zu einer Abnahme der Servicequalität führt und eine Notfallreaktion erfordert. Teams, die ITIL- oder ITSM-Verfahren nutzen, sprechen in diesem Fall möglicherweise von einem "größeren Vorfall".

Ein Vorfall gilt als erledigt, wenn der betroffene Service wieder normal funktioniert. Es geht also nur um die zur vollständigen Wiederherstellung der Funktionalität erforderlichen Aufgaben.

Die Nachbereitung von Vorfällen erfolgt jeweils nach dem Vorfall. Das Team ermittelt die grundlegende Ursache des Vorfalls und weist Aufgaben zu, die ein erneutes Auftreten verhindern sollen.


Unsere Werte für Vorfälle

Da ein Prozess für das Vorfallsmanagement nicht alle möglichen Situationen abdecken kann, geben wir unseren Teams allgemeine Ratschläge in Form von Werten an die Hand. Ähnlich wie die Unternehmenswerte von Atlassian dienen unsere Werte für Vorfälle folgenden Zwecken:

  • Sie liefern Anhaltspunkte für die eigenständige Entscheidungsfindung der Teams bei Vorfällen und Post-Mortem-Analysen.
  • Sie schaffen für alle Teams eine konsistente Kultur zum Identifizieren von Vorfällen, zum Umgang damit und zum Erkenntnisgewinn aus Vorfällen.
  • Sie geben den Teams einheitliche Hinweise auf die Haltung, die sie bei der Identifizierung, Lösung und rückwirkenden Betrachtung von Vorfällen einnehmen sollten.
Phase Wert für Vorfälle Verwandter Unternehmenswert von Atlassian Begründung
1. Erkennung Atlassian weiß Bescheid, bevor Kunden den Vorfall bemerken.

Mit Herz und Ausgewogenheit bauen

Bei einem ausgewogenen Service sind ausreichend Überwachungs- und Benachrichtigungsfunktionen implementiert, um Vorfälle zu erkennen, bevor unsere Kunden sie bemerken.

Im Optimalfall werden wir im Rahmen der Überwachung schon benachrichtigt, bevor ein Problem zu einem Vorfall führt.

2. Reaktion Eskalation ist alles.

Teamgeist ist Trumpf

Niemand wird gerne aus dem Schlaf gerissen und wir nehmen diese Verantwortung nicht auf die leichte Schulter. Mitarbeiter verstehen aber, dass sie hin und wieder für einen Vorfall geweckt werden, bei dem es sich im Nachhinein als unnötig herausstellt. Schwieriger ist es in der Regel, bei einem größeren Vorfall zu spät benachrichtigt zu werden und eine Art Aufholjagd beginnen zu müssen.

Niemand kann alles wissen – zögere daher nicht, einen Vorfall zu eskalieren.

3. Wiederherstellung Probleme passieren nun mal, bringe sie schnell in Ordnung. Versuche nicht, den Kunden hinters Licht zu führen.

Unseren Kunden ist es egal, weshalb ein Service ausgefallen ist. Sie erwarten nur, dass wir ihn so schnell wie möglich wiederherstellen.

Bemühe dich daher immer, einen Vorfall schnell zu erledigen, um die Beeinträchtigung für unsere Kunden zu minimieren.

4. Erkenntnisgewinn Keine Schuldzuweisungen! Open Company, No Bullshit Vorfälle sind beim Betreiben von Services nicht zu vermeiden. Wir verbessern unsere Services, indem wir unsere Teams zur Verantwortung ziehen, dabei aber niemandem die Schuld geben.
5. Optimierung Lasse nicht zu, dass derselbe Vorfall zweimal passiert. Sei du selbst die Veränderung, die du dir wünschst

Ermittle die grundlegende Ursache des Vorfalls und kläre, welche Änderungen nötig sind, um Vorfälle dieser Art künftig zu verhindern.

Verpflichte dich auf Fristen zur Umsetzung bestimmter Änderungen.


Erforderliche Tools

Im hier beschriebenen Prozess zum Vorfallsmanagement werden verschiedene Atlassian-spezifische Tools verwendet, für die bei Bedarf andere Tools eingesetzt werden können:

  • Verfolgung von Vorfällen: Jeder Vorfall wird in Jira als Vorgang verfolgt. Außerdem wird jeweils ein Vorgang zur Nachbereitung erstellt, um die Durchführung von Post-Mortem-Analysen zu verfolgen (Atlassian verwendet hierfür eine stark angepasste Version von Jira Software).
  • Chatraum: Ein Kanal zur Kommunikation in Echtzeit ist für die gemeinsame Diagnose und Lösung eines Vorfalls im Team unverzichtbar.
  • Videochat: Bei vielen Vorfällen erleichtert ein Team-Videochat mit einer Lösung wie BlueJeans die Diskussion und Einigung über die beste Herangehensweise.
  • Benachrichtigungssystem: Ein Tool wie OpsGenie dient zur Verwaltung von wechselnden Zuständigkeiten und Eskalationen.
  • Dokumentationstool: Wir nutzen Confluence für die Erstellung von Dokumenten zum Vorfallsstatus und zum Teilen der Nachbereitungsergebnisse in Blog-Form.
  • Statuspage: Per Statuspage teilen wir den Status mit internen Verantwortlichen und mit Kunden, damit alle auf dem Laufenden bleiben.

Verfolgung von Vorfällen

Jeder Vorfall wird als Jira-Vorgang verfolgt. Außerdem wird jeweils ein Vorgang zur Nachbereitung erstellt, um die Durchführung von Post-Mortem-Analysen zu verfolgen. Der in diesem Handbuch beschriebene Prozess bezieht sich auf unsere stark angepasste Version von Jira Software.

In der Regel werden Vorfalls-Issues von einem Support Engineer als Reaktion auf ein Kundenticket erstellt oder von einem Entwickler, der eine Überwachungsbenachrichtigung als Vorfall erkennt. Wir raten unseren Mitarbeitern dringend, ein Issue zu erstellen, sobald sie etwas beunruhigt, statt mit der Eskalation zu warten.

In Jira verfolgen wir Vorfälle mit einem einfachen Workflow bis zur Lösungsphase. Dort halten wir auch alle durchgeführten wichtigen Aktionen zur Reaktion auf den Vorfall fest.


Vorfallsmanager (Incident Manager)

Bei jedem Vorfall gibt es einen Vorfallmanager (Incident Manager, IM), der die Verantwortung und Zuständigkeit für den Vorfall innehat. Wer diese Aufgabe übernimmt, geht aus der Angabe zur zugewiesenen Person im Vorfallvorgang hervor. Der Vorfallmanager darf alle erdenklichen Maßnahmen zur Erledigung des Vorfalls ergreifen. Er kann beispielsweise andere Mitarbeiter benachrichtigen und dafür sorgen, dass sich alle an einem Vorfall beteiligten Personen ganz auf die schnellstmögliche Wiederherstellung des Service konzentrieren.

Der IM ist im Zusammenhang mit dem Vorfall keine konkrete Person, sondern eine Rolle. Das Festlegen von Rollen bei einem Vorfall hat den Vorteil, dass die beteiligten Personen austauschbar werden. Alle Mitarbeiter, die mit einer bestimmten Rolle vertraut sind, können diese für jeden beliebigen Vorfall übernehmen.


Hast du Ideen oder Vorschläge zu diesem Leitfaden?