Vorfallmanagement für High-Velocity-Teams
Dein Weg zu besseren Incident Timelines (und ihre Bedeutung)
Je komplexer die Technologie, umso komplizierter das Vorfallmanagement und mit ihm die Dokumentation und Kommunikation.
Aus diesem Grund nutzen immer mehr Unternehmen Incident Timelines (Vorfallzeitleisten). Dies ist ein zentralisierter Aktivitäten-Feed für Vorfälle, der Teams während eines Vorfalls auf demselben Stand hält und ihnen eine Aufzeichnung liefert, mit der sie nach einem Vorfall die grundlegenden Ursachen ermitteln und die zukünftige Leistung verbessern können.
Was ist eine Incident Timeline?
Eine Incident Timeline ist eine vollständige Echtzeitaufzeichnung eines Vorfalls. Sie enthält häufig manuelle Einträge (Chat), konsolidierte Aufzeichnungen von Seiten, Warnmeldungen und Bestätigungen sowie automatische Systemaktualisierungen (z. B. die Benachrichtigung, dass jemand den Schweregrad eines Vorfalls geändert oder ihn als gelöst markiert hat). Sie wird auch oft mit einem Chat oder einem Slack-Channel synchronisiert.
Die Incident Timeline soll das Team auf demselben Stand halten, neue Teammitglieder schnell informieren und den Prozess der Post-Mortem-Analyse eines Vorfalls vereinfachen. Die Vorfallmanagement-Lösung von Atlassian, Jira Service Management, erstellt eine robuste Timeline mit einer anpassbaren Plattform zum Erfassen von Arbeit, denn Incident Timelines sollten den kompletten Umfang der Vorfallbehebung im vollständigen Kontext aufzeigen. Durch Funktionen wie zentrale Benachrichtigung, flexible Automatisierung, integrierte Chat-Tools und Team-Arbeitsbereiche wird automatisch eine Incident Timeline erstellt, während Teams nahtlos an der Vorfallbehebung arbeiten.
"Besorge mir eine Liste aller in den letzten drei Tagen vorgenommenen Änderungen. Ohne genaue Zeitleiste können wir Ursache und Wirkung nicht ermitteln, und es kommt wahrscheinlich erneut zu einem Ausfall."
– aus "The Phoenix Project",
Gene Kim, Kevin Behr, George Spafford
Vorteile einer Incident Timeline
Zentrale Echtzeitansicht
Wenn Teams oder Stakeholder nicht ausreichend kommunizieren, gerät ein Vorfall schnell außer Kontrolle. Eine Incident Timeline reduziert dieses Risiko, weil damit allen Beteiligten dieselben Informationen in Echtzeit in einer einheitlichen Ansicht zur Verfügung stehen. Das heißt, alle – von den auf den Vorfall angesetzten Entwicklern über das für die Kundenmitteilungen zuständige Kommunikationsteam bis hin zur Unternehmensführung – bleiben auf dem Laufenden, ohne sich ständig per Telefon, E-Mail oder Chat mit den anderen verständigen zu müssen.
Die einheitliche Echtzeitansicht erleichtert es den Stakeholdern, das dem Vorfall zugrunde liegende Kernproblem zu ermitteln. Außerdem werden Risiken und potenzielle Probleme bei miteinander verbundenen Systemen sichtbar. Wenn du mehreren Teams Zugriff auf eine Incident Timeline gewährst, können diese potenzielle Probleme, Ursachen oder Risiken in miteinander verbundenen Systemen leichter identifizieren.
Fundiertere Post-Mortem-Analysen
Bei Atlassian sind Post-Mortem-Analysen von Vorfällen ein wesentlicher Bestandteil unserer Vorfall- und Problemmanagementprozesse. Dabei kommen die Beteiligten zusammen, um herauszufinden, was passiert ist, warum es passiert ist und was wir tun können, um dies in Zukunft zu verhindern. Um diesen Fragen auf den Grund zu gehen, ist es hilfreich, sämtliche Vorkommnisse während eines Vorfalls detailliert zu dokumentieren – von Warnmeldungen über Stakeholder-Updates bis hin zur endgültigen Problembehebung.
Für viele Unternehmen ist die Incident Timeline diese detaillierte Aufzeichnung. Sie dient nicht nur als Tool zur Echtzeitzusammenarbeit bei Vorfällen, sondern bietet auch eine einheitliche Ansicht dessen, was wann und manchmal auch warum passiert ist. Dank dieser Informationen können Teams in der Post-Mortem-Analyse- und Review-Phase viele Stunden Zeit sparen.
Mehr Einblick in KPIs
Eine Incident Timeline hilft Teams oft dabei, einem einzelnen Vorfall auf den Grund zu gehen. Darüber hinaus kann sie auch zusammen mit den Incident Timelines ähnlicher Vorfälle verwendet werden, damit Teams leichter Muster erkennen und größere Probleme mit wichtigen KPIs diagnostizieren können.
Woran lag es, wenn das Lösen eines Vorfalls überdurchschnittlich lange dauerte? Wie passt das mit anderen ähnlichen Vorfällen zusammen? Welche Teile des Prozesses müssen genauer betrachtet werden? Gibt es ein Muster, das auf ein größeres Problem bei der Prozess-, Technologie- oder Teameinrichtung hindeutet? Werden Warnmeldungen nach Bedarf ausgegeben, oder müssen wir unsere Warnschwellenwerte überprüfen? Bietet der Bereitschaftsplan eine ausreichende Abdeckung für Vorfälle? Sind unsere Teams richtig strukturiert?
Eine Incident Timeline kann als einzelner Datenpunkt für die Überprüfung oder als einer von vielen Datenpunkten in einer Untersuchung von SLA- und SLO-Problemen dienen.
Incident Timelines im Vergleich mit ChatOps
Incident Timelines werden in der Regel von Vorfallmanagementsystemen wie Jira Service Management bereitgestellt und innerhalb dieser verwendet, um alle Informationen zu einem Vorfall zentral zusammenzustellen.
ChatOps für das Vorfallmanagement hat das gleiche Ziel. Der einzige Unterschied besteht darin, dass bei ChatOps die Zeitleiste in der Regel nicht in einem Vorfallmanagementsystem bereitgestellt wird, sondern zentral in einem Chatprogramm wie Slack. Die Informationen werden mit Vorfallmanagementplattformen wie Opsgenie und anderen relevanten Quellen synchronisiert und von dort abgerufen.
Die Vorteile von ChatOps – teamübergreifender Zugriff auf dieselben Informationen, Kommunikation und Mitteilungen in Echtzeit, weniger Kontextwechsel, keine Telefonketten mehr und ein integrierter Datensatz für Post-Mortem-Analysen – sind dieselben wie bei Incident Timelines. Der Hauptunterschied besteht lediglich im Speicherort und der Informationsmenge. Bei den meisten Vorfallteams enthält der ChatOps-Feed neben den tatsächlich wichtigen Informationen in der Regel viel Unwichtiges. Es ist hilfreich, die umfangreichen Details in die Incident Timeline zu ziehen und das Chatprotokoll für zukünftige Referenzzwecke zu behalten.
Wenn du mehr darüber wissen möchtest, welche Vorteile ChatOps Teams bei der Behebung von Vorfällen und Jira Service Management beim Vorfallmanagement bietet, klicke unten auf die Schaltfläche.
Informationen zur Kommunikation bei Vorfällen mit Statuspage
In diesem Tutorial zeigen wir dir, wie du mithilfe von Vorfallvorlagen bei Ausfällen effektiv kommunizierst. Sie sind an viele Arten von Serviceunterbrechungen anpassbar.
Dieses Tutorial ansehenWarum Post-Mortem-Analysen von Vorfällen so wichtig sind
Die Post-Mortem-Analyse eines Vorfalls, auch als Post-Incident Review bekannt, ist die beste Methode, einen Vorfall aufzuarbeiten und die daraus gezogenen Lehren zu dokumentieren.
Diesen Artikel lesen