Vorfallmanagement für High-Velocity-Teams
Die Sprache des Vorfallmanagements
Ein Glossar für Vorfallmanagementteams
Der Sprachgebrauch in der IT-Branche ist, gelinde gesagt, dynamisch. Nirgendwo sonst findet man eine vergleichbare Mischung aus Fachjargon, die nahtlos mit Referenzen aus Science Fiction, Mythologie, Popkultur, Geschichte und Literatur verflochten ist. Das macht die Kommunikation auf der einen Seite farbenfroh und spannend, kann auf der anderen Seite aber auch eine Quelle für Missverständnisse sein.
Wenn der Betrieb reibungslos läuft, ist das kein Problem. Wenn aber Vorfälle mit zunehmenden Schweregraden auftreten, muss unsere Sprache technisch exakt und umsetzbar sein und darf keinen Raum für Fehlinterpretationen lassen.
Das bedeutet, dass wir beim Vorfallmanagement klare Definitionen benötigen, um die Beteiligten auf dem Laufenden zu halten.
Vorfallbestätigung
In den meisten Bereitschaftswarntools kann eine generierte Vorfallwarnung von einem Benutzer bestätigt werden. Dieser Benutzer übernimmt damit die Verantwortung für das Problem und gibt an, dass er an einer Lösung arbeitet.
Umsetzbare Warnmeldung
Eine umsetzbare Warnmeldung ist eine Warnmeldung, die ein Problem und dessen Auswirkungen klar beschreibt und zur richtigen Zeit an die richtigen Personen weitergeleitet wird, damit das Team sofort Maßnahmen ergreifen kann.
Aktive Überwachung
Systeme, die mit aktiver Überwachung ausgestattet sind, werden mit Software regelmäßig überprüft oder automatisch auf Leistungsänderungen überwacht, die zu Vorfällen führen könnten.
Nachträglicher Review (After-action Review, AAR)
Ein nachträglicher Review ist ein strukturierter Überprüfungsprozess, der nach einem Ereignis stattfindet. Dabei beschreiben Mitarbeiter üblicherweise, was genau passiert ist, versuchen die Gründe dafür herauszufinden und suchen nach Bereichen mit Verbesserungspotenzial, um die gleichen oder ähnliche Ereignisse in Zukunft zu verhindern. Nachträgliche Reviews werden auch als Post-Mortem-Analysen oder Reviews vergangener Vorfälle bezeichnet.
Vereinbarte Servicezeit (Agreed Service Time, AST)
Die vereinbarte Servicezeit ist die Zeitspanne (normalerweise in Stunden pro Jahr gemessen), während der ein Service erwartungsgemäß verfügbar ist. Diese Vereinbarung wird in der Regel in einem Service Level Agreement (SLA) zwischen Anbieter und Kunde festgehalten. Hochverfügbare Services versprechen in der Regel eine Verfügbarkeit von 99,99 %, sodass pro Jahr Ausfallzeiten von weniger als einer Stunde zulässig sind.
Warnmeldung
Ein Alarm oder eine Warnung, die generiert wird, wenn Überwachungstools Änderungen, risikobehaftete Aktionen oder Ausfälle in der IT-Umgebung erkennen.
Störende Warnmeldungen
Warnmeldungen können auch störend sein: Wenn in kurzer Zeit eine große Anzahl von Warnungen erzeugt wird, können Mitarbeiter nur schwer erkennen, welche Services betroffen sind und wie sie ihre Aufgaben priorisieren sollen. Störende Warnmeldungen können zu Alarm-Fatigue beitragen.
Alarm-Fatigue
Alarm-Fatigue tritt auf, wenn Mitarbeiter durch die Menge oder Häufigkeit von Warnmeldungen überwältigt werden. Alarm-Fatigue führt häufig dazu, dass Reaktionen langsam erfolgen oder auch völlig ausbleiben, da die ständigen Warnungen von Mitarbeitern nicht mehr ernst genommen werden.
Ständig verfügbare Services
Ein Service, von dem erwartet wird, dass er kontinuierlich verfügbar ist.
Asset/Asset-Management
Komponenten eines Systems oder Netzwerks, das einen geschäftlichen Nutzen hat. Asset-Management bedeutet, dass ein Mitarbeiter oder Team eine Bestandsaufnahme dieser Komponenten durchführt, um die Auswirkungen eines Updates oder des Entfernens eines Systems zu verstehen.
Prüfung
Eine formale Prüfung der Verfügbarkeit und Nutzung eines Systems oder Prozesses sowie der Einhaltung von Richtlinien, Leitlinien und Best Practices.
Verfügbarkeit
Wenn ein Produkt oder System verfügbar ist und wie erwartet funktioniert. Wird auch als Systemverfügbarkeit bezeichnet.
Backout
Das Zurücksetzen eines Service auf einen früheren zuverlässigen Zustand oder eine Baseline. Dies ist in der Regel eine Schnellkorrektur, die angewendet wird, wenn durch ein Update oder einen Release ein Systemfehler auftritt.
Backup
Eine gespeicherte Kopie der Daten oder ein redundantes System für den Fall, dass das Original kompromittiert wird oder verloren geht.
Baseline
Ein Bezugspunkt für erwartetes Verhalten. Baselines helfen Teams bei der Messung von Änderungen und Verbesserungen.
Benchmark
Ein Bezugspunkt, der wie eine Baseline funktioniert, um den Fortschritt zu messen oder Ergebnisse zu vergleichen. Wenn in unserer Branche beispielsweise eine Verfügbarkeit von 99,99 % Standard ist, können wir uns damit mit der Konkurrenz vergleichen und erkennen, ob wir Kundenerwartungen erfüllen.
Bug
Ein unbeabsichtigtes Problem bei Software, Code, Programmen usw., das zu anormalem Verhalten oder einem Ausfall führen kann.
Business-Impact-Analyse (BIA)
Eine Business-Impact-Analyse (BIA) ist eine systematische Evaluierung der potenziellen Auswirkungen von Serviceunterbrechungen und Ausfällen aufgrund eines größeren Vorfalls. Mit der BIA soll ermittelt werden, welche Auswirkungen die einzelnen Services auf das Unternehmen haben und welche Anforderungen für die Wiederherstellung nach einem Vorfall gelten.
Kapazität
Die maximale Menge an Informationen, die zwischen Netzwerken übertragen oder über einen Service bereitgestellt werden kann. Die Überschreitung der Kapazität ist ein gängiger Indikator für Vorfälle.
Änderung
Jegliche Änderungen an einem IT-Service, einer Konfiguration, einem Netzwerk oder einem Prozess. Wird häufig im Rahmen des sogenannten Änderungsmanagements verfolgt.
Änderungsverlauf
Eine umfassende Aufzeichnung der Änderungen, die an einem IT-Service, einer Konfiguration, einem Netzwerk oder einem Prozess von Beginn des Lebenszyklus an bis zum aktuellen Zustand vorgenommen wurden.
Änderungsmanagement
Eine IT-Praktik, deren Schwerpunkt auf der Minimierung von Unterbrechungen während Änderungen/Aktualisierungen kritischer Systeme und Services liegt. Für manche Teams umfasst diese Praktik alle Aspekte von Änderungen – technische, personenbezogene und prozessorientierte. Für andere Teams liegt der Schwerpunkt des Änderungsmanagements – basierend auf den ITIL 4-Richtlinien – auf dem Management menschlicher oder kultureller Aspekte von Änderungen. Der Fokus einer weiteren Praktik namens Change Control liegt auf Risikobewertung, Zeitplänen und Änderungsgenehmigungen.
ChatOps
Die Verwendung von Chat- und Zusammenarbeitstools für das Vorfallmanagement. Von Sean Regan von Atlassian stammt folgende Erklärung:
"ChatOps ist ein Modell für die Zusammenarbeit, das Menschen, Tools, Prozesse und Automatisierung zu einem transparenten Workflow verbindet. Dieser bringt die benötigten, die laufenden und die erledigten Aufgaben in einer beständigen Umgebung zusammen, die mit Mitarbeitern, Bots und verwandten Tools ausgestattet ist."
Status "Geschlossen"
Ein Vorfall weist den Status "Geschlossen" auf, wenn alle erforderlichen Maßnahmen ergriffen wurden und ein Vorgang geschlossen wurde.
Cold Standby (schrittweise Wiederherstellung)
Ein Cold Standby wird verwendet, wenn ein System als Backup für ein anderes System fungiert. Wenn das Primärsystem ausfällt, ersetzt der Cold Standby das Primärsystem, während dieses repariert wird. Dies ist eine besonders nützliche Strategie, wenn der Ausfall des Primärsystems eine schrittweise Wiederherstellung erfordert (die mehrere Wochen dauern kann), weil Computerhardware ersetzt und eingerichtet werden muss.
Kaltstart
Ein Kaltstart liegt vor, wenn das Starten einer Anwendung, die gerade nicht ausgeführt wird, länger dauert als bei einer Anwendung, die "warm" ist, also bereits läuft.
Kommunikationsleiter
Das Teammitglied, das während eines Vorfalls für die Kommunikation zuständig ist.
Compliance
Abstimmung auf Vorschriften. Häufig werden Überwachungssysteme so programmiert, dass sie auf Compliance-Probleme überwachen und Warnungen auslösen, wenn ein System nicht mehr konform ist.
Analyse der Auswirkungen von Komponentenausfällen (Component failure impact analysis, CFIA)
Der Prozess zur Bestimmung der Auswirkungen auf einen Service, wenn eine Komponente oder Konfiguration nicht mehr wie erwartet funktioniert.
Parallelität
Das Maß dafür, wie viele gleiche Aktionen gleichzeitig in einem System ausgeführt werden. Zum Beispiel: Wie viele Benutzer greifen auf denselben Vorgang zu oder führen dieselbe Transaktion aus?
Kontrolle
Verfahren und Richtlinien, mit denen Risiken verwaltet, die erwartungsgemäße Funktionsweise eines Produkts oder Service sichergestellt und die Compliance gewahrt werden.
Kernservice
Ein Service, der eine zentrale Funktion für Benutzer/Kunden hat.
Gegenmaßnahme
Eine spezifische reaktive Aktion zum Schutz eines Systems oder zur Wiederherstellung des Betriebs.
Kundenorientierter Service
Services, die Kunden nutzen und mit denen sie interagieren.
Cynefin-Framework
Ein Konzept der Entscheidungsfindung, das an Vorfallmanagementprozesse angepasst wurde, um Managern dabei zu helfen, die effektivste Reaktion zu organisieren. Basierend auf der Komplexität eines Vorfalls unterteilt das Framework Situationen in fünf Kategorien. Jede Kategorie umfasst eigene (unterschiedliche) nächste Schritte.
Dashboard
Eine visuelle Darstellung von Systemen, Warnmeldungen und Vorfällen auf einem einzigen Bildschirm, mit der Informationen aus einer Vielzahl von Tools mit kontextbezogenen Informationen übersichtlich und präzise präsentiert werden sollen.
Abhängigkeit
Die Beziehung zwischen zwei Services, Prozessen oder Konfigurationen, die sich gegenseitig benötigen, um ordnungsgemäß zu funktionieren.
Kennzeichnung als veraltet
Liegt vor, wenn eine Funktion oder ein Tool außer Betrieb genommen, nicht mehr verwendet oder nicht mehr aktualisiert wird.
Diagnose
Der Prozess und das Ergebnis der Untersuchung eines Vorfalls und seiner Ursache.
Diagnostik
Die Symptome oder Anzeichen, die zu einer Vorfalldiagnose führen.
Ausfallzeit/Ausfall
Eine Zeit, in der ein Service nicht wie erwartet funktioniert oder verfügbar ist.
Notfalländerung
Ein Update oder Patch, das bzw. der – normalerweise im Rahmen der Behebung eines Vorfalls – schnell bereitgestellt wird. Bei Notfalländerungen werden Änderungsgenehmigungsprozesse häufig übersprungen, da das mit dem Warten auf Genehmigungen verbundene Risiko größer ist als das Risiko der Bereitstellung der Änderung.
Unterstützender Service
Ein Service, der für das Funktionieren eines Kernservice erforderlich ist, Kunden jedoch nicht direkt angeboten wird.
Testumgebung*
Die Infrastruktur, in der ein Service, eine Funktion, ein Prozess, ein Konfigurationselement usw. auf die erwartete Funktionalität getestet wird. Diese Umgebung wird streng kontrolliert, um die Produktion widerzuspiegeln.
Produktionsumgebung
Die Infrastruktur, in der ein Service für einen Kunden bereitgestellt wird. Da die Ergebnisse in dieser Umgebung live sind, wird sie manchmal auch als Live-Umgebung bezeichnet.
Fehler
Ein Fehler, der den Ausfall eines Konfigurationselements oder Service verursacht. Dabei kann es sich um einen Design- oder Verarbeitungsfehler oder um menschliches Versagen handeln.
Eskalation
Der Prozess der Verlagerung einer Vorfallmanagement-Zuweisung an ein Team oder eine Person mit relevanteren Fähigkeiten oder Erfahrungen. Von einer funktionellen Eskalation wird gesprochen, wenn eine Warnung oder ein Vorfall an eine Person oder ein Team mit mehr Fachwissen übertragen wird. Bei einer hierarchischen Eskalation wird die entsprechende Warnung oder der Vorfall von einer hierarchisch niedriger gestellten Person an eine höhergestellte Person übertragen.
Event
Eine relevante System- oder Servicesituation. Ereignisse werden normalerweise entweder durch Benutzeraktionen oder einen Vorfall verursacht.
Ausnahmebericht
Ein Bericht, der erstellt wird, wenn Key Performance Indicators (KPIs) die festgelegten Schwellenwerte überschreiten oder die Erwartungen nicht erfüllen.
Fehlertoleranz
Fehlertoleranz beschreibt die Fähigkeit eines Service, den Betrieb fortzusetzen, selbst wenn ein Konfigurationselement oder einzelnes Teil ausfällt.
Fehlerbaumanalyse
Eine Technik, mit der ermittelt wird, welche Ereignisse zu einem Vorfall geführt haben. Außerdem wird prognostiziert, welche Ereignisse zu künftigen Vorfällen führen könnten. Sie wird häufig eingesetzt, um die Ursache eines schwerwiegenden Vorfalls zu finden.
First-Line-Support
Die Person, von der erwartet wird, dass sie zuerst auf einen Vorfall reagiert. Dies ist normalerweise der Mitarbeiter im Bereitschaftsdienst.
Beheben
Eine Aktion oder Methode zur Fehlerkorrektur.
Sachanlage
Eine Sachanlage ist ein physischer, wertbehafteter, langfristiger Bestandteil des Unternehmens, z. B. ein Büro, ein Computer oder eine Lizenz.
Follow-the-Sun-Zeitplan
Eine Methode des Kundensupports oder des Vorfallmanagements, bei der Bereitschaftsdienste über Zeitzonen hinweg rotiert werden. Dadurch wird eine Abdeckung rund um die Uhr gewährleistet, ohne dass Teams nachts Bereitschaftsdienst leisten müssen.
Forensische Untersuchung
Eine wissenschaftliche, evidenzbasierte Untersuchung eines Computersystems zur Ermittlung der Ursache eines Vorfalls.
Funktional
Ein Service wird als "funktional" bezeichnet, wenn er erwartungsgemäß funktionieren kann.
Schrittweise Wiederherstellung
Eine schrittweise Wiederherstellung ist ein Wiederherstellungsprozess, der länger als gewöhnlich dauert (Wochen, nicht Stunden). In diesem Fall wird als Ersatz für das betroffene System normalerweise ein Cold Standby (Backup-System) online gestellt.
Hot Standby
Ein Hot Standby ist eine Wiederherstellungsoption, bei der redundante Assets gleichzeitig ausgeführt werden, um einen IT-Service bei einem Ausfall zu unterstützen. Wenn das aktive System ausfällt, läuft der Hot Standby bereits und kann den Betrieb übernehmen, ohne dass das Team aktiv werden muss und Ausfallzeiten auftreten. Dies wird auch als sofortige Wiederherstellung bezeichnet.
Hotfix
Ein Update, das auf Software angewendet wird, um ein Problem zu lösen oder einen Bug zu beheben. Es wird häufig verwendet, um ein vom Kunden gemeldetes Problem zu beheben.
Auswirkungen
Die Messung der Kosten, die durch eine Serviceunterbrechung, einen Vorfall oder eine Änderung verursacht werden und die Form von finanziellen und zeitlichen Verlusten sowie Rufschädigung annehmen können. Wird auch als Ausfallkosten bezeichnet.
Nicht umsetzbare Warnmeldung
Eine Warnmeldung, die es einer reagierenden Person nicht ermöglicht, Maßnahmen zu ergreifen. Dies liegt oft daran, dass die Warnmeldung keine Kontextinformationen enthält, an die falsche Person weitergeleitet wurde oder der Umfang unklar ist. Nicht umsetzbare Warnungen können zu Alarm-Fatigue beitragen.
Vorfall
Ein Ereignis, das zu einer Unterbrechung im Service oder zu einer Abnahme der Servicequalität führt und eine Notfallreaktion erfordert. Teams, die ITIL- oder ITSM-Verfahren nutzen, sprechen in diesem Fall möglicherweise von einem schwerwiegenden Vorfall.
Incident Response
Die Reaktion eines Teams auf einen Vorfall. Normalerweise ist die Incident Response ein vorab festgelegter Prozess mit Regeln, Rollen und Best Practices, die vor dem Auftreten eines Vorfalls definiert werden.
Vorfallmanagement
Der Prozess, den DevOps- und IT-Operations-Teams zur Reaktion auf ein ungeplantes Ereignis oder eine Serviceunterbrechung und zur Wiederherstellung des normalen Servicebetriebs befolgen.
Einsatzleiter
Der Einsatzleiter ist Mitglied der IT- oder DevOps-Teams, die für das Management der Incident Response verantwortlich sind. Diese Rolle leitet das Vorfallmanagementteam und hat die oberste Kontrolle und das letzte Wort bei allen Entscheidungen rund um Vorfälle. Die Rolle wird auch oft als Vorfallmanager bezeichnet.
Lebenszyklus eines Vorfalls
Die Dauer eines Vorfalls von der Erstellung und Erkennung bis zur Lösung.
E/A-Metriken
Eine Sammlung von Metriken zur Messung von Eingabe und Ausgabe. Zu den gängigen Metriken in dieser Kategorie zählen die E/A-Wartezeit (die Zeit, in der eine CPU auf eine E/A-Anfrage wartet) und IOPS (die Anzahl der E/A-Anfragen pro Sekunde).
Incident-Response-Orchestrierung
Eine Funktion von Opsgenie, mit der Teams Probleme schnell und effektiv identifizieren, die richtigen Personen benachrichtigen, die Kommunikation zwischen Geschäftseinheiten erleichtern und teamübergreifend für das Vorfallmanagement zusammenarbeiten können.
Vorfalldatensatz
Eine Aufzeichnung der Details und Prozesse, die während eines bestimmten Vorfalls verwendet wurden.
Vorfallverantwortlicher
Personen und/oder Teams, die für die Untersuchung und Lösung eines Vorfalls verantwortlich sind.
Stakeholder/Beobachter von Vorfällen
Personen, die bei einem Vorfall auf dem Laufenden gehalten werden müssen, da dieser Auswirkungen auf ihre Arbeit bzw. auf die Möglichkeit hat, ihre Arbeit zu erledigen. Diese Personen können Einfluss auf die Lösung von Vorfällen nehmen oder auch nicht, sind jedoch keine aktiv Reagierenden.
Zügige Wiederherstellung
Diese Art der Wiederherstellung, die auch als "Warm Standby" bezeichnet wird, dauert in der Regel 24 bis 72 Stunden. Normalerweise sind Datenwiederherstellungen und/oder Hardware- und Softwarekonfigurationen der Grund für die relativ lange Zeit bis zur Wiederherstellung.
Information Technology Infrastructure Library (ITIL)
Eine dokumentierte Reihe von allgemein akzeptierten Best Practices für IT-Services.
Information Technology Service Management (ITSM)
Alle Aspekte der Prozesse und Verfahren, die zur Bereitstellung eines IT-Service für Kunden erforderlich sind. Dies umfasst alle Aspekte des Servicelebenszyklus – vom Design über die Bereitstellung bis hin zum Vorfallmanagement.
Kepner-Tregoe-Methode (KT-Methode)
Eine Methode der Ursachenanalyse und Entscheidungsfindung, bei der Probleme getrennt von der endgültigen Entscheidung über ein Problem bewertet werden.
KPIs (Key Performance Indicators)
Erfolgsmessgrößen für Systeme oder Produkte. KPIs werden im Voraus festgelegt, regelmäßig verfolgt und generieren häufig Warnmeldungen, wenn sie von ihren erwarteten Schwellenwerten abweichen. Wenn zum Beispiel die Mean Time Between Failures (MTBF) (durchschnittliche Zeit zwischen Ausfällen) immer kürzer wird, kann eine Warnmeldung generiert werden, damit dein Team das Problem identifizieren und untersuchen kann.
Bekannter Fehler
Ein Problem, das schon früher vorhanden war und für das es schon einen Workaround gibt.
Latenz
Eine Verzögerung bei der Übertragung von Daten.
Protokolle
Die Aufzeichnungen aller Ereignisse im Zusammenhang mit einem Service oder einer Anwendung. Diese umfassen übertragene Daten, Zeit- und Datumsangaben, Vorfälle, Änderungen, Fehler usw.
Wartbarkeit
Das Maß dafür, wie einfach Änderungen auf einen Service oder eine Funktion angewendet werden können.
Manueller Workaround
Eine manuell implementierte Lösung (im Gegensatz zu einer automatisch implementierten Lösung).
Mean Time Between Failures (MTBF, mittlere Zeit zwischen Ausfällen)
Die durchschnittliche Zeit zwischen reparierbaren Ausfällen eines Technologieprodukts. Diese wird auch als Mean Time Between Service Incidents (MTBSI) bezeichnet.
Mean Time to Acknowledge (MTTA, mittlere Zeit bis zur Bestätigung)
Die durchschnittliche Zeitspanne zwischen dem Triggern einer Warnmeldung und dem Beginn der Arbeit an dem Vorgang.
Mean Time to Failure (MTTF, mittlere Zeit bis zum Ausfall)
Die durchschnittliche Zeit zwischen nicht reparierbaren Ausfällen eines Technologieprodukts.
Mean Time to Repair (MTTR, mittlere Reparaturzeit)
Die durchschnittliche Zeit für die Reparatur eines Systems (normalerweise technisch oder mechanisch). Dies beinhaltet sowohl die Reparaturzeit als auch die Testzeit.
Durchschnittliche Wiederherstellungszeit (MTTR)
Die durchschnittliche Dauer der Wiederherstellung nach einem Produkt- oder Systemausfall. Dies beinhaltet die gesamte Dauer des Ausfalls – vom Zeitpunkt des Ausfalls des Systems oder Produkts bis zu dem Zeitpunkt, an dem es wieder voll funktionsfähig ist.
Mean Time to Resolve (MTTR, mittlere Problemlösungszeit)
Die durchschnittliche Zeit, die benötigt wird, um einen Fehler vollständig zu beheben. Dazu zählt auch die Zeit, die aufgewendet wird, damit der Fehler nicht erneut auftritt.
Mean Time to Respond (MTTR, mittlere Reaktionszeit)
Die durchschnittliche Zeit, die zur vollständigen Behebung eines Produkt- oder Systemausfalls ab dem Zeitpunkt benötigt wird, an dem du erstmals auf diesen Fehler aufmerksam gemacht wirst. Verzögerungen bei deinem Warnsystem werden hierbei nicht berücksichtigt.
Modell/Modellierung
Eine Darstellung eines tatsächlichen Systems, eines Service, einer Anwendung usw.
Überwachung
Der wiederholte Prozess der Überprüfung eines Service oder Prozesses, um sicherzustellen, dass er wie erwartet funktioniert.
Normale Änderung
Eine Änderung, die keine Notfalländerung ist und für die es keinen definierten, vorab genehmigten Prozess gibt.
Bereitschaftsplan
Ein Zeitplan, der sicherstellt, dass Tag und Nacht immer die richtige Person verfügbar ist, um schnell auf Vorfälle und Ausfälle reagieren zu können. Bereitschaftspläne sind sowohl im Medizinbereich als auch in der Technologiebranche üblich.
Operations-Brücke
Der physische Ort, an dem die Überwachung der IT-Services erfolgt.
Operations Lead
Die Person, die für die Überwachung des täglichen Betriebs verantwortlich ist. In einigen Fällen kann diese Person auch der Vorfallmanager (oder der Einsatzleiter) sein, der für die Leitung der Vorfallbehebung verantwortlich ist.
Ergebnis
Das Ergebnis eines IT-bezogenen Ereignisses, Prozesses oder einer Änderung. Teams sprechen häufig sowohl von "erwarteten" und "tatsächlichen" Ergebnissen.
Schadenswertanalyse
Eine Analyse zur Ermittlung der geschäftlichen Auswirkungen eines Vorfalls. Dabei werden normalerweise die Kosten von Ausfällen, die Dauer eines Vorfalls, die Auswirkungen auf Benutzer und die Anzahl der betroffenen Benutzer berücksichtigt.
Passive Überwachung
Automatische (statt aktive oder manuelle) Überwachung der Servicefunktionalität.
Friedenszeit
Die Zeit, in der Services und Betriebsabläufe ohne Unterbrechung wie erwartet funktionieren.
Leistungsverschlechterungen
Ein Maß dafür, wie stark die Leistung eines Systems aufgrund eines Ereignisses oder Vorfalls abgenommen hat.
Geplante Ausfallzeiten
Der Zeitraum, in dem ein IT-Service für Wartungsarbeiten oder Updates absichtlich nicht verfügbar ist.
Playbook
Eine Sammlung von "Spielen"/Übungen oder spezifischen Aktionen, die ein Team durchführen kann, um ein bestimmtes Problem, einen Vorfall oder ein bestimmtes Ziel anzugehen.
Post-Mortem-Analyse/Analyse bzw. Rückblick nach dem Vorfall
Der Prozess des Nachvollziehens eines Vorfalls, nachdem er erledigt wurde. Das Ziel einer Post-Mortem-Analyse besteht darin, die Reaktionsprozesse zu verbessern, zukünftige Vorfälle zu verhindern und die Ursache des letzten Vorfalls zu verstehen.
Priority
Die Reihenfolge, in der Vorfälle bearbeitet werden sollten. Elemente mit hoher Priorität sind dringender als Aufgaben mit niedrigerer Priorität. Die Priorität wird durch Dringlichkeit, Schweregrad und potenzielle Auswirkungen auf das Unternehmen bestimmt.
Problem Record
Ein Problem Record ist ein Dokument, in dem jeder Aspekt eines Problems von der Erkennung bis zur Lösung erfasst wird.
Prognostizierter Serviceausfall
Ein Dokument, in dem beschrieben wird, wie sich zukünftige Wartungen oder Tests auf die normalen Service-Level auswirken.
Qualitätssicherung
Der Testprozess, mit dem sichergestellt wird, dass bei allem, was mit der IT zusammenhängt – von neuen Funktionen bis hin zu Anleitungen –, die geltenden Standards eingehalten werden.
Qualitätsmanagementsystem
Das vorhandene Framework oder die Systeme zur Qualitätssicherung.
Reaktive Überwachung
Überwachung, die als Reaktion auf ein Ereignis oder einen Vorfall durchgeführt wird.
Wiederherstellung
Der Prozess, bei dem ein Service auf seine Baseline-Funktionalität und seinen Normalzustand zurückgesetzt wird.
Recovery Point Objective
Der maximal zulässige Datenverlust während der Wiederherstellung.
Recovery Time Objective
Die maximale Zeitdauer, die für eine Betriebsunterbrechung toleriert wird.
Veröffentlichen
Eine Änderung, die für Benutzer bereitgestellt wird.
Release-Management
Die Planung, das Design, das Testen, die Zeitplanung, die Fehlerbehebung und das Deployment von Änderungen.
Stabilität
Die Fähigkeit eines Systems, bei einem Fehler nicht vollständig auszufallen und im Falle eines Vorfalls schnell wiederhergestellt zu werden.
Reaktionszeit
Die Zeit, die ab der Generierung einer Warnung verstreicht, bis das Team eine erste Aktion durchführt.
Risikobewertung
Die Ermittlung des mit einem Asset verbundenen Risikos durch Bewertung des Werts, der potenziellen Bedrohungen und der potenziellen Auswirkungen dieser Bedrohungen.
Risikomanagement
Der Prozess des Umgangs mit Bedrohungen, bei dem diese identifiziert und kontrolliert werden.
Grundlegende Ursache
Die grundlegende Ursache ist normalerweise der singuläre Grund für den Ausfall eines Service oder einer Anwendung. Häufig sind es jedoch viele miteinander verbundene Faktoren, die zu Ausfällen führen. Daher beginnen Teams darüber zu diskutieren, ob dieser Begriff im Vorfallmanagement hilfreich ist. Viele verwenden mittlerweile die Pluralform: grundlegende Ursachen.
Runbooks
Runbooks beinhalten detaillierte Verfahren für das Vorfallmanagement. Diese werden üblicherweise von einem Systemadministrator oder NOC-Team (Network Operations Control) verwaltet. Runbooks gibt es in digitaler oder gedruckter Form.
Umfang
Das Ausmaß eines Problems, einer Lösung, eines Projekts, einer Fähigkeit usw.
Second-Line-Support
Menschen mit zusätzlichen Fähigkeiten wie Zeit, Erfahrung, Wissen oder Ressourcen, um Probleme zu lösen, die möglicherweise über die Fähigkeiten der Erstbearbeiter hinausgehen.
Serviceänderung
Updates, Korrekturen, die Kennzeichnung als veraltet oder andere Änderungen an einem Service.
Servicedesk
Ein Team, das Kundensupportanfragen annimmt und als Kontaktstelle zwischen Kunden und IT fungiert.
Analyse von Serviceausfällen
Die Analyse von Serviceausfällen ist der Prozess der Überprüfung einer Serviceunterbrechung, um deren Ursache zu ermitteln.
Service Level Agreement (SLA)
Eine Vereinbarung zwischen Anbieter und Kunde über messbare Metriken wie Verfügbarkeit, Reaktionsfähigkeit und Zuständigkeiten.
Diagramm zur Überwachung des Service Level Agreements (SLAM)
Ein Dokument, in dem Fortschritte und Daten zu Service-Level-Zielen aufzeichnet werden.
Service Level Objective (SLO)
Eine Vereinbarung innerhalb eines Service Level Agreement (SLA) über eine bestimmte Metrik wie die Verfügbarkeit.
Schweregrade (SEV)
Zeigt, wie stark ein Service von einem Vorfall betroffen ist. Normalerweise verwenden Teams eine SEV-Struktur mit drei bis fünf Stufen, wobei 1 der höchste Schweregrad ist und Probleme mit Schweregrad 3 bis 5 weniger dringlich sind.
Single Point of Failure
Eine Variable, von der das Funktionieren eines Systems abhängt, beispielsweise ein wesentliches Konfigurationselement.
Spezifikation
Eine offizielle Aufzeichnung der Anforderungen an eine IT-bezogene Konfiguration.
Site Reliability Engineer (SRE)
Ein Softwareentwickler, der für den Betrieb zuständig ist. SREs sind in der Regel für die Automatisierung manueller Aufgaben, die Verwaltung von SLOs und das Vorfallmanagement verantwortlich.
Standardänderungen (Standard-Changes)
Mit geringem Risiko behaftete, häufig wiederholte, vorab genehmigte Änderungen, beispielsweise das Hinzufügen von Arbeitsspeicher oder Speicher.
Standby
Inaktive Ressourcen, die zur Unterstützung des Vorfallmanagements verfügbar sind.
Status
Der aktuelle Zustand eines Service.
Statusseite
Eine dedizierte Anlaufstelle für Mitteilungen zum aktuellen Zustand eines Service mit regelmäßigen Status-Updates zu Vorfällen.
Fachexperte (Subject Matter Expert, SME)
Eine Person mit spezifischen Kenntnissen zu einem bestimmten Vorgang, einem Service usw.
Technologieportfolio
Die Programmiersprachen, Software und Komponenten, aus denen eine Anwendung besteht. Es gibt zwei Seiten eines Technologie-Stacks: Front-End (Kundenseite) und Back-End (Entwicklerseite).
Spannungsmetriken
Daten, die sich bei einer Änderung eines Datensatzes oder Datenpunkts negativ auf andere Datenpunkte auswirken.
Schwellenwert
Eine vordefinierte Stufe oder Zahl, bei deren Überschreitung eine Warnmeldung generiert wird. Der Schwellenwert für das Laden der Anmeldeseite kann beispielsweise drei Sekunden betragen. Wenn das Laden der Seite länger dauert, wird eine Warnmeldung generiert.
Zeitlicher Ablauf
Eine umfassende, mit Zeitangaben versehene Liste von Ereignissen, Änderungen, Korrekturen und Ergebnissen im Zusammenhang mit einem Vorfall.
Trendanalyse
Eine Untersuchung von zeitbezogenen Mustern. Bei der Trendanalyse wird davon ausgegangen, dass anhand vergangener Muster zukünftige Muster in den Daten vorhergesagt werden können. Sie spielt daher eine wichtige Rolle bei der Vermeidung künftiger Vorfälle.
Umgehungslösung
Eine erfolgreiche Methode zur Implementierung einer Schnellkorrektur, die die Systemfunktionalität wiederherstellt, selbst wenn der zugrunde liegende Vorfall noch nicht erledigt ist.
Workload
Die (menschlichen und technischen) Ressourcen, die zur Bereitstellung eines IT-Service benötigt werden .
Einrichten eines Bereitschaftsplans mit Opsgenie
In diesem Tutorial erfährst du, wie du einen Bereitschaftsplan einrichtest, Regeln für Außerkraftsetzungen anwendest, Bereitschaftsbenachrichtigungen konfigurierst und vieles mehr – und das alles in Opsgenie.
Dieses Tutorial ansehenVor- und Nachteile unterschiedlicher Ansätze für das Bereitschaftsmanagement
Teams im Bereitschaftsdienst erleben eine schnelle Weiterentwicklung. Hier kannst du dich über die Vor- und Nachteile unterschiedlicher Ansätze für das Bereitschaftsmanagement informieren.
Artikel lesen