Vorfallmanagement für High-Velocity-Teams
Öffentliche und private Post-Mortem-Berichte zu Vorfällen
Der richtige Zeitpunkt für die Veröffentlichung einer Erklärung nach einem Vorfall
Es gab eine Zeit, in der fast jeder IT-Vorfall auf die vier Wände des Unternehmens beschränkt war, in dem er stattfand. Aufgrund von Webservices und Cloud-Infrastruktur ist dies heute jedoch selten der Fall. Technologievorfälle sind ein echtes "Eins-zu-Viele"-Problem und haben zu großen Veränderungen der Art und Weise geführt, wie Teams reagieren, lernen und über Vorfälle kommunizieren.
Sehen wir uns die Post-Mortem-Analysen von Vorfällen einmal genauer an (oft auch als Post-Incident Review – PIR bezeichnet).
Bei der Post-Mortem-Analyse eines Vorfalls setzen sich Mitarbeiter zusammen, um die Details eines Vorfalls zu besprechen: warum er passiert ist, welche Auswirkungen er hatte, welche Maßnahmen zur Problemminderung und Lösung ergriffen wurden und was getan werden sollte, um ein erneutes Auftreten zu verhindern.
Eine Post-Mortem-Analyse von Vorfällen besteht aus zwei Teilen: dem Meeting, bei dem der Vorfall diskutiert wird, und dem entsprechenden Post-Mortem-Bericht, der als Ergebnis dieses Meetings erstellt wurde.
Diese beiden Aktivitäten, das Meeting und der Bericht, werden oft synonym verwendet, wenn von einer Post-Mortem-Analyse gesprochen wird. Dabei kann beides oder auch nur eines von beidem gemeint sein.
Partner, Kunden und Endbenutzer möchten möglicherweise ebenfalls wissen, was passiert ist und welche Schritte ihr unternommen habt, um ihre Erfahrung zu verbessern. Es ist möglicherweise nicht in allen Fällen angebracht, die Post-Mortem-Analyse auf einer öffentlich zugänglichen Website zur Verfügung zu stellen, aber dein Marketing- oder PR-Team kann dabei helfen, die Analyse so zu formulieren, dass der Öffentlichkeit Informationen auf eine Weise übermittelt werden, die informativ ist und das Vertrauen in eure Services stärkt.
Wann sollte eine Post-Mortem-Analyse für einen Vorfall durchgeführt werden?
Bei Atlassian führen wir interne Post-Mortem-Analysen grundsätzlich für (größere) Vorfälle der Schweregrade 1 und 2 durch. Bei kleineren Vorfällen sind sie optional. Wir ermutigen unsere Mitarbeiter dazu, Post-Mortem-Analysen in allen Situationen anzuwenden, in denen sie von Nutzen sein könnten.
Wer übernimmt die Nachbereitung?
In der Regel ist das Team, das den Service bereitstellt, der den Vorfall verursacht hat, für die Durchführung der zugehörigen Post-Mortem-Analyse verantwortlich. Im Team wird eine Person ausgewählt, die für die Durchführung der Post-Mortem-Analyse verantwortlich ist, und der Vorgang wird ihr zugewiesen. Diese Person ist zuständig für die Post-Mortem-Analyse und leitet sie vom Entwurf über die Genehmigung bis zur Veröffentlichung. Vorfälle auf Infrastruktur- und Plattformebene wirken sich häufig überall im Unternehmens aus und machen Post-Mortem-Analysen komplizierter und aufwendiger. Aus diesem Grund weisen wir Post-Mortem-Analysen auf Infrastruktur- oder Plattformebene manchmal einem dedizierten Programmmanager zu, da diese Mitarbeiter besser gruppenübergreifend arbeiten und den erforderlichen Aufwand erbringen können.
Teilen eines internen Post-Mortem-Berichts
Sobald die Post-Mortem-Analyse genehmigt ist, können wir sie noch um ein Vielfaches wertvoller machen, indem wir das Gelernte mit dem gesamten Unternehmen teilen. Hierfür haben wir bei Atlassian eine Automatisierungsaktion, die einen Blogpost-Entwurf in Confluence erstellt, sobald das Post-Mortem-Ticket genehmigt wurde.
Einen öffentlichen Post-Mortem-Bericht erstellen
Auch wenn es weniger verbreitet ist, ist es oft eine gute Idee, nach einem Vorfall eine öffentliche Version der Post-Mortem-Analyse zu veröffentlichen.
Dies ist besonders bei großen Verbraucher-Services üblich, bei denen Ausfälle viele Benutzer betreffen. In den meisten Fällen veröffentlichen diese Teams statt des vollständigen internen Berichts eine Kurzversion davon. Dabei ist es wichtig, alle privaten oder vertraulichen Informationen zu bereinigen.
Einen öffentlichen Post-Mortem-Bericht teilen
Es kann schwierig sein, den richtigen Kanal für eine öffentliche Post-Mortem-Analyse auszuwählen. Einige Teams veröffentlichen sie direkt in ihrem Unternehmens-Blog oder auf ihrer Website. Andere Teams verfügen über einen separaten Entwickler-Blog, in den eine Post-Mortem-Analyse gut hineinpassen würde.
In unserem Produkt Statuspage können Benutzer eine öffentliche Post-Mortem-Analyse direkt auf ihrer Statusseite veröffentlichen, nachdem ein Vorfall gelöst wurde.
Informationen zur Kommunikation bei Vorfällen mit Statuspage
In diesem Tutorial zeigen wir dir, wie du mithilfe von Vorfallvorlagen bei Ausfällen effektiv kommunizierst. Sie sind an viele Arten von Serviceunterbrechungen anpassbar.
Dieses Tutorial ansehenWarum Post-Mortem-Analysen von Vorfällen so wichtig sind
Die Post-Mortem-Analyse eines Vorfalls, auch als Post-Incident Review bekannt, ist die beste Methode, einen Vorfall aufzuarbeiten und die daraus gezogenen Lehren zu dokumentieren.
Diesen Artikel lesen