Vorfallmanagement für High-Velocity-Teams
Warum Post-Mortem-Analysen von Vorfällen so wichtig sind
Vorfälle gehören zum Alltag.
Das ist einfach so. Wenn unsere Systeme immer größer und komplexer werden, sind Ausfälle unvermeidlich.
Vorfälle bieten aber auch eine gute Gelegenheit, etwas dazuzulernen.
Eine Gelegenheit, Schwachstellen in deinem System aufzudecken. Eine Gelegenheit, wiederholt auftretende Vorfälle abzuschwächen und die Lösungszeit zu verkürzen. Eine Gelegenheit, deine Teams zusammenzubringen und gemeinsam zu planen, wie sie beim nächsten Mal noch besser reagieren können.
Die beste Methode, um durchzugehen, was während eines Vorfalls passiert ist, und die gewonnenen Erkenntnisse zu erfassen, ist eine Post-Mortem-Analyse, die auch als Post-Incident Review bekannt ist.
Bei der Post-Mortem-Analyse eines Vorfalls setzen sich Mitarbeiter zusammen, um die Details eines Vorfalls zu besprechen: warum er passiert ist, welche Auswirkungen er hatte, welche Maßnahmen zur Problemminderung und Lösung ergriffen wurden und was getan werden sollte, um ein erneutes Auftreten zu verhindern.
Dank Tools für Versionskontrollen, Feature-Flags und Continuous Delivery können viele Vorfälle schnell "rückgängig gemacht" werden. Häufig werden Vorfälle durch einen Bug bei einer Änderung verursacht, die auf die Produktion übertragen wird, und ein Rollback dieser Änderung kann die App wieder zum Laufen bringen. Das ist wirklich vorteilhaft für alle, da der Service schnell wieder funktioniert. Aber dabei bleibt unklar, was warum fehlgeschlagen ist. Hierfür gibt es die Post-Mortem-Analysen.
Eine Post-Mortem-Analyse von Vorfällen ist ein Framework, um aus Vorfällen zu lernen und aus Problemen Fortschritt zu schaffen. Sie stärkt auch das Vertrauen von Kunden, Kollegen und Endbenutzern (im Wesentlichen alle von dem Vorfall betroffenen Personen) und informiert sie darüber, dass dein Team daran arbeitet, zukünftige Vorfälle und deren Auswirkungen zu minimieren.
Eine Post-Mortem-Analyse ist ein wichtiger Schritt im Lebenszyklus eines ständig aktiven Services. Die Erkenntnisse aus der Post-Mortem-Analyse sollten direkt in deinen Planungsprozess einfließen. Dies stellt sicher, dass die in der Post-Mortem-Analyse identifizierten kritischen Korrekturmaßnahmen ihren Platz unter den anstehenden Aufgaben finden und mit anderen bevorstehenden Arbeiten und Prioritäten abgewogen werden.
Einrichten eines Bereitschaftsplans mit Opsgenie
In diesem Tutorial erfährst du, wie du einen Bereitschaftsplan einrichtest, Regeln für Außerkraftsetzungen anwendest, Bereitschaftsbenachrichtigungen konfigurierst und vieles mehr – und das alles in Opsgenie.
Dieses Tutorial ansehenVorlagen für die Post-Mortem-Analyse von Vorfällen: Reaktionsprozess optimieren
Greife auf anpassbare Vorlagen für die Post-Mortem-Analyse von Vorfällen zu, um deine Analyse zu optimieren und zukünftige besser auf Vorfälle zu reagieren.
Artikel lesen