Vorfallmanagement für High-Velocity-Teams
Was sind Warnmeldungen zu IT-Vorfällen?
Bei der Vorfallalarmierung generieren Überwachungstools Warnmeldungen, um das Team über Änderungen, risikobehaftete Aktionen oder Fehler in der IT-Umgebung zu benachrichtigen.
Ein System zur Medikamentenverschreibung für Ärzte kann beispielsweise eine Warnmeldung generieren, wenn die vom Arzt angeforderte Dosis ungewöhnlich hoch ist, nicht zum Körpergewicht in der Patientenakte passt oder die Gefahr einer Wechselwirkung mit anderen gängigen Medikamenten besteht.
In ähnlicher Weise kann ein System zur Überwachung eines Technologieprodukts eine Warnmeldung generieren, wenn ein System offline geht, die Verarbeitung von Webanfragen länger als üblich dauert oder die Datenbanklatenz über einen festgelegten Schwellenwert hinausgeht.
Mit IT-Warnmeldungen wird das Ziel verfolgt, Probleme, die sich auf die Produktverfügbarkeit, -geschwindigkeit und -funktionalität auswirken, schnell zu identifizieren und zu lösen – rund um die Uhr und ohne manuelle Überwachung.
Warum sind IT-Warnmeldungen wichtig?
Immer verfügbare Systeme gewinnen zunehmend an Bedeutung und dementsprechend steigen auch die Kosten von Ausfällen. Experten beziffern sie auf durchschnittlich 5.600 $ bis 9.000 $ pro Minute. Da jede Minute eines Systemausfalls so teuer ist, hat die Identifizierung von Problemen, bevor sie außer Kontrolle geraten, einen großen Einfluss auf das Geschäftsergebnis (ganz zu schweigen von den Zeitplänen und Stresswerten der IT-Teams).
IT-Warnmeldungen sind die erste Verteidigungslinie gegen Systemausfälle oder Änderungen, die zu größeren Vorfällen führen können. Durch die automatische Überwachung von Systemen und die Generierung von Warnmeldungen bei Ausfällen und riskanten Änderungen können IT-Teams Ausfallzeiten minimieren – genau wie die damit verbundenen hohen Kosten.
Best Practices für Warnmeldungen
IT-Warnmeldungen sind unbestreitbar ein wichtiger Bestandteil des Vorfallmanagements. Doch sie sind keine Lösung, die einmal eingerichtet und dann vergessen werden kann. Das Festlegen zu niedriger Warnmeldungsschwellenwerte kann zu überfüllten Postfächern, unzufriedenen Bereitschaftsteams und Alarm-Fatigue führen. Bei zu hohen Schwellenwerten können kritische Warnmeldungen versäumt werden und dem Unternehmen Kosten in Millionenhöhe entstehen.
Aus diesem Grund werden die effektivsten IT-Warnmeldungssysteme unter Berücksichtigung dieser Best Practices eingerichtet.
Automatisierte Überwachung
Die beste Option zum schnellen und effektiven Identifizieren von Problemen besteht in der Automatisierung der Überwachung.
Reagiert eine Datenbank langsamer als gewöhnlich? Erleben die Nutzer deiner App längere Ladezeiten als üblich? Ist ein entscheidendes System ausgefallen? Hat ein Techniker eine potenziell riskante Anfrage gestellt? Dein System sollte automatisch nach Problemen wie diesen Ausschau halten und dich informieren, falls sie auftreten.
Schwellenwerte für intelligente Warnmeldungen
Muss jeder Warnmeldung sofort Aufmerksamkeit geschenkt werden? Für die meisten Unternehmen lautet die Antwort nein. Genau deshalb solltest du vernünftige Warnmeldungsschwellenwerte festlegen.
Zu wissen, ob ein Entwickler mitten in der Nacht geweckt werden muss oder ein Problem bis zum Morgen warten kann, kann in entscheidendem Maße beeinflussen, ob Entwickler glücklich sind und schnell reagieren oder Teams an Alarm-Fatigue leiden und das Wochenende mit der Suche nach einem anderen Arbeitsplatz verbringen.
Deduplizierung von Warnmeldungen
In einer Studie zur Alarm-Fatigue wurde festgestellt, dass bei Klinikärzten in Krankenhäusern die Aufmerksamkeit bei Warnmeldungen jedes Mal um 30 % sinkt, wenn eine doppelte Warnmeldung eingeht. Bei Entwicklern wären die Studienergebnisse mit hoher Wahrscheinlichkeit gleich. Je öfter wir die gleiche Warnmeldung sehen, umso weniger Beachtung schenken wir ihr. Deshalb ist es wichtig, Warnmeldungen zu deduplizieren und Erinnerungen zu minimieren.
Festlegung von Prioritäten und Schweregraden
Natürlich sind manche Warnmeldungen wichtiger als andere. Ein Website-Ausfall wird wahrscheinlich Vorrang vor einer kurzen Verlangsamung einer nicht häufig verwendeten Funktion haben. Bösartiges Hacking hat wahrscheinlich eine höhere Priorität als ein Bild, das in deiner App nicht korrekt wiedergegeben wird.
Dein System sollte nicht nur die Priorität und den Schweregrad von Warnmeldungen erkennen, sondern diese Priorität auch den Personen, die für die Lösung von Vorfällen verantwortlich sind, klar mitteilen. Als Best Practice gilt es hier, visuelle, akustische und sensorische Hinweise zu verwenden, um schnell und klar anzugeben, worauf sich die Teams als Nächstes konzentrieren sollten.
Handlungsorientierte Warnmeldungen
Es ist gut, zu wissen, was nicht stimmt. Doch noch besser ist es, zu wissen, was zu tun ist. Deshalb sollten deine Warnmeldungen unbedingt handlungsorientiert sein.
Hier können DevOps-Teams von der Luftfahrtbranche lernen. Wenn während eines Fluges eine Warnmeldung auf dem Dashboard des Piloten angezeigt wird, ist sie auch mit einer handlungsorientierten Checkliste verbunden. Mit Details dieser Art in deinem Warnmeldungssystem kannst du die Diagnosezeit verkürzen und Entwicklern helfen, den Prozess schnell zu durchlaufen.
Besonders hilfreich sind handlungsorientierte Alarme, wenn Entwickler mitten in der Nacht mit müden Augen arbeiten müssen und nicht in Topform sind.
Auswahl der richtigen Warnmeldungstechnologie
Die Entwicklung eines IT-Warnmeldungssystems auf Basis dieser Best Practices bedeutet, dass von Anfang an strategisch vorgegangen wird. Zudem muss die richtige Technologie dafür gewählt werden. Bei der Wahl eines Anbieters empfehlen wir, auf Folgendes zu achten:
Mehrere Warnmeldungskanäle
Für Warnmeldungen sind E-Mails oft der Kanal erster Wahl. Doch E-Mails sind eigentlich nicht immer am besten geeignet. Bei dringlichen Warnmeldungen sind vielleicht SMS, mobile Push-Benachrichtigungen oder sogar Telefonanrufe erforderlich oder erwünscht. Suche also nach einem System, das verschiedene Alarmierungsmethoden unterstützt.
Anreicherung von Warnmeldungen
Handlungsorientierte Warnmeldungen sind detaillierte Warnmeldungen. Demnach reicht eine kurze Textnachricht nicht immer aus. Hüte dich vor strengen Zeichenbeschränkungen und suche nach Technologie, die dir das Anfügen von Diagrammen, Logs, Runbooks und Checklisten ermöglicht, um den weiteren Kontext einer Warnmeldung bereitzustellen und dem Entwickler mitzuteilen, was er als Nächstes tun sollte.
Individuelle Warnmeldungsaktionen
Mit den meisten Warnmeldungstechnologien kannst du der Warnmeldung einen Hinweis hinzufügen oder die Warnmeldung schließen. Doch manchmal gibt es Schritte dazwischen. Möglicherweise muss die Warnmeldung zur weiteren Untersuchung eskaliert, ein Serviceticket erstellt oder ein Server neu gestartet werden. Halte Ausschau nach Technologielösungen, mit denen du mehr tun kannst als nur öffnen und schließen.
Automatisierte Aktionen
Bei einigen Warnmeldungen sind die nächsten Schritte kompliziert und erfordern die Unterstützung eines erfahrenen Entwicklers. Bei anderen ist ganz klar, was zu tun ist.
Bei Warnmeldungen mit klaren nächsten Schritten – Diagnosetests, Korrekturmaßnahmen – empfiehlt sich ein System, das diese Reaktionen auf eine Warnmeldung, die deine vordefinierten Kriterien erfüllt, automatisch auslöst.
Wenn eine Datenbank langsamer wird, kannst du beispielsweise festlegen, dass das Warnmeldungssystem automatisch zu einer Sicherungsdatenbank wechselt. Wenn der erste Schritt zum Beheben von Problem A darin besteht, einen Server neu zu starten, kannst du für das Warnmeldungssystem festlegen, dass es den Server neu starten und das Ergebnis beobachten soll, bevor eine Warnmeldung mitten in der Nacht gesendet wird.
Anpassung und Klassifizierung von Warnmeldungen
Wenn Warnmeldungen eingehen, sollte das Team sie organisieren, mit weiteren Informationen kennzeichnen und filtern können.
Verfolgen des Warnmeldungs-Lebenszyklus
Bei Post-Mortem-Analysen zu Vorfällen benötigst du Informationen dazu, wann die Warnmeldung eingegangen ist, wer sie erhalten hat, wann sie gesehen wurde und welche Maßnahmen ergriffen wurden. Vergewissere dich, dass deine gewählte Technologie diese Details automatisch erfasst. So kannst du besser nachvollziehen, was funktioniert und was nicht, deine KPIs leichter verbessern und frühere Vorfälle einfacher dokumentieren, sodass Bereitschaftsteams daraus lernen und sie sich zu Referenzzwecken bei künftigen Vorfällen ansehen können.
Warnmeldungs- und Benachrichtigungsrichtlinien
Wenn die Best Practice hier darin besteht, intelligente Schwellenwerte für deine Warnmeldungen festzulegen und sicherzustellen, dass kleinere Probleme deine Entwickler nicht mitten im REM-Schlaf wecken, benötigst du eine Technologie, mit der du Warnmeldungen basierend auf ihrem Inhalt und ihrem Timing ausblenden, verzögern und umgehend ausgeben kannst.
Echtzeitüberwachung deiner Überwachungstools
Wie kannst du jederzeit sichergehen, dass deine Warnmeldungssysteme funktionieren?
Die Antwort lautet: mit der richtigen Technologie – einer Technologie mit eigenem Überwachungssystem. Bei Opsgenie kommt hierfür ein Tool namens Heartbeats zum Einsatz, das kontinuierlich überprüft, ob Überwachungstools aktiv und verbunden sind und benutzerdefinierte Tasks planmäßig abgeschlossen werden. Wenn das Signal ausfällt, wirst du unmittelbar vom System alarmiert.
Einrichten eines Bereitschaftsplans mit Opsgenie
In diesem Tutorial erfährst du, wie du einen Bereitschaftsplan einrichtest, Regeln für Außerkraftsetzungen anwendest, Bereitschaftsbenachrichtigungen konfigurierst und vieles mehr – und das alles in Opsgenie.
Dieses Tutorial ansehenEin besseres Konzept für die Bereitschaftsplanung
Ein effektiver Bereitschaftsplan ist für eine nachhaltige, gesunde Bereitschaftskultur entscheidend. Wir zeigen dir häufige Fehler, Arten von Rotationsplänen und wie du es richtig machst.
Artikel lesen