Vorfallmanagement für High-Velocity-Teams
MTBF, MTTR, MTTA und MTTF
Lerne einige der häufigsten Metriken für Vorfälle kennen
In der heutigen Welt, in der ständige Verfügbarkeit gefragt ist, wird Ausfällen und technischen Vorfällen eine größere Bedeutung als jemals zuvor zugemessen. Fehler und Ausfallzeiten haben echte Konsequenzen: verpasste Fristen, verspätete Zahlungen, Verzögerungen im Projekt.
Aus diesem Grund müssen Unternehmen Metriken zur Verfügbarkeit, zu Ausfällen und dazu, wie schnell und effektiv Teams Vorgänge lösen, quantifizieren und nachverfolgen.
Einige der am häufigsten verfolgten Metriken der Branche sind MTBF (mittlere Betriebsdauer zwischen Ausfällen), MTTR (mittlere Wiederherstellungs-, Reparatur-, Reaktions- oder Problemlösungszeit), MTTF (mittlere Betriebsdauer bis zum Ausfall) und MTTA (mittlere Bestätigungszeit). Diese verschiedenen Metriken helfen technischen Teams dabei, zu verstehen, wie oft Vorfälle auftreten und wie schnell das Team diese beheben kann.
Viele Experten behaupten, dass diese Metriken allein wenig hilfreich sind, weil sie keine komplexeren Fragen stellen; etwa wie Vorfälle behoben werden, welche Methoden funktionieren und welche nicht, und wie, wann und warum Probleme eskalieren oder deeskalieren.
Auf der anderen Seite können MTTR, MTBF und MTTF als gute Ausgangsbasis oder Benchmark zum Anstoß von Diskussionen über diese tieferen, wichtigen Fragen dienen.
So reagieren Profis auf größere Vorfälle
Lade dir unser kostenloses Handbuch zum Vorfallmanagement herunter. Lerne alle Tools und Techniken kennen, die Atlassian für das Management von größeren Vorfällen verwendet.
Erklärung zur MTTR
Wenn wir über MTTR sprechen, kann man schnell davon ausgehen, dass es sich um eine einzelne Metrik mit einer einzigen Bedeutung handelt. Tatsächlich kann sie vier verschiedene Messwerte darstellen. Das R kann für Repair, Recovery, Respond oder Resolve stehen (Reparatur, Wiederherstellung, Reaktion oder Problemlösung). Und obwohl es Überschneidungen gibt, hat jede Metrik ihre eigene Bedeutung und Nuance.
Wenn dein Team also über die Nachverfolgung der MTTR spricht, solltest du klarstellen, welche MTTR gemeint und wie sie definiert ist. Bevor du mit der Nachverfolgung von Erfolgen und Misserfolgen beginnst, muss dein Team genau wissen, von welcher Metrik die Rede ist.
MTBF: Mittlere Betriebsdauer zwischen Ausfällen
Was ist die mittlere Betriebsdauer zwischen Ausfällen?
MTBF (mittlere Betriebsdauer zwischen Ausfällen) ist die durchschnittliche Betriebszeit zwischen behebbaren Ausfällen eines Technologieprodukts. Die Metrik wird verwendet, um die Verfügbarkeit und Zuverlässigkeit eines Produkts nachzuverfolgen. Je größer der Zeitraum zwischen den Ausfällen, desto zuverlässiger ist das System.
Das Ziel der meisten Unternehmen ist es, die MTBF auf möglichst hohem Niveau zu halten und Hunderttausende (oder sogar Millionen) störungsfreie Stunden zu erreichen.
Wie berechnet man die mittlere Betriebsdauer zwischen Ausfällen?
MTBF werden mithilfe des arithmetischen Mittels berechnet. Man nimmt dazu die Daten aus einem bestimmten Zeitraum, der berechnet werden soll (das können sechs Monate, ein Jahr oder auch fünf Jahre sein), und dividiert dann die gesamte Betriebszeit innerhalb dieses Zeitraums durch die Anzahl der Ausfälle.
Nehmen wir einmal an, wir bewerten einen Zeitraum von 24 Stunden, in dem es bei zwei separaten Vorfällen zu einer Ausfallzeit von zwei Stunden kam. Die Gesamtverfügbarkeit beträgt 22 Stunden. Geteilt durch zwei macht das 11 Stunden. Unsere MTBF beträgt also 11 Stunden.
Da die Metrik zur Nachverfolgung der Zuverlässigkeit verwendet wird, berücksichtigt die MTBF die erwarteten Ausfallzeiten während geplanter Wartungsarbeiten nicht. Stattdessen konzentriert sie sich auf unerwartete Ausfälle und Probleme.
Ursprünge der mittleren Betriebsdauer zwischen Ausfällen
Die MTBF (mittlere Betriebsdauer zwischen Ausfällen) stammt aus der Luftfahrtindustrie, wo Systemausfälle nicht nur gravierende finanzielle Konsequenzen haben, sondern auch Menschenleben kosten können. Mittlerweile wird diese Metrik in einer Vielzahl von Technologie- und Maschinenbaubranchen verwendet und besonders häufig in der Fertigung eingesetzt.
Wie und wann wird die mittlere Betriebsdauer zwischen Ausfällen verwendet?
Die MTBF ist ein hilfreicher Anhaltspunkt für Käufer, die sicherstellen möchten, dass sie das zuverlässigste Produkt erhalten, das zuverlässigste Flugzeug fliegen oder die sicherste Fertigungsausrüstung für ihre Anlage auswählen.
Interne Teams unterstützt sie dabei, Probleme zu identifizieren und Erfolge und Misserfolge nachzuverfolgen. Sie kann Unternehmen auch dabei helfen, fundierte Empfehlungen darüber zu geben, wann Kunden ein Bauteil ersetzen, ein System aktualisieren oder ein Produkt zur Wartung einsenden sollten.
MTBF ist eine Metrik für Ausfälle in reparaturfähigen Systemen. Bei Fehlern, die einen Systemaustausch erfordern, wird normalerweise der Begriff MTTF (mittlere Betriebsdauer bis zum Ausfall) verwendet.
Nehmen wir den Motor eines Autos als Beispiel. Bei der Berechnung des Zeitraums zwischen ungeplanten Motorwartungsarbeiten würdest du die MTBF als Metrik verwenden, also die mittlere Betriebsdauer zwischen Ausfällen. Bei der Berechnung des Zeitraums bis zum nächsten Austausch des vollständigen Motors würdest du die MTTF (mittlere Betriebsdauer bis zum Ausfall) verwenden.
MTTR: Mittlere Reparaturzeit
Was ist die mittlere Reparaturzeit?
Die mittlere Reparaturzeit ist die durchschnittliche Zeit, die zur Reparatur eines (normalerweise technischen oder mechanischen) Systems benötigt wird. Sie umfasst sowohl die Reparatur- als auch die Testzeit. Die Zeitmessung endet bei dieser Metrik erst dann, wenn das System wieder voll funktionsfähig ist.
Wie berechnet man die mittlere Reparaturzeit?
Du kannst die MTTR berechnen, indem du die Gesamtzeit für Reparaturen während eines bestimmten Zeitraums addierst und diese Zeit dann durch die Anzahl der Reparaturen dividierst.
Nehmen wir an, wir überprüfen Reparaturen im Laufe einer Woche. In dieser Zeit gab es 10 Ausfälle und die Systeme wurden vier Stunden lang aktiv repariert. Vier Stunden sind 240 Minuten. 240 geteilt durch 10 ist 24. Das bedeutet, dass die mittlere Reparaturzeit in diesem Fall 24 Minuten betragen würde.
Einschränkungen der mittleren Reparaturzeit
Die mittlere Reparaturzeit deckt sich nicht immer mit der Systemausfallzeit selbst. In einigen Fällen beginnen Reparaturen innerhalb von Minuten nach einem Produkt- oder Systemausfall. In anderen Fällen kommt es zwischen der Erkennung des Vorfalls und dem Beginn der Reparaturen zu Verzögerungen.
Diese Metrik ist besonders nützlich, um nachzuverfolgen, wie schnell das Wartungspersonal einen Vorfall beheben kann. Sie ist nicht dazu gedacht, um Probleme bei Systemwarnungen oder Verzögerungen vor der Reparatur zu identifizieren. Beides sind ebenfalls wichtige Faktoren, um zu beurteilen, ob deine Vorfallmanagementprogramme erfolgreich sind oder nicht.
Wie und wann wird die mittlere Reparaturzeit verwendet?
MTTR ist eine Metrik, die Support- und Wartungsteams zur Planung von Reparaturarbeiten verwenden. Das Ziel dabei ist, diese Zahl so gering wie möglich zu halten, indem die Effizienz von Reparaturprozessen und Teams gesteigert wird.
MTTR: Mittlere Wiederherstellungszeit
Was ist die mittlere Wiederherstellungszeit?
Die mittlere Reparaturzeit oder mittlere Wiederherstellungszeit ist die durchschnittliche Zeit, die bis zur vollständigen Wiederherstellung nach einem Produkt- oder Systemausfall benötigt wird. Sie umfasst die komplette Ausfallzeit – vom Ausfall des Systems oder Produkts bis zu dem Zeitpunkt, an dem beides wieder voll funktionsfähig ist.
Hierbei handelt es sich um eine wichtige DevOps-Metrik, die laut DevOps Research and Assessment (DORA) zur Messung der Stabilität eines DevOps-Teams verwendet werden kann.
Wie berechnet man die mittlere Wiederherstellungszeit?
Die mittlere Wiederherstellungszeit wird berechnet, indem alle Ausfallzeiten in einem bestimmten Zeitraum addiert und durch die Anzahl der Vorfälle dividiert werden. Nehmen wir an, unsere Systeme waren in zwei getrennten Vorfällen innerhalb von 24 Stunden 30 Minuten lang ausgefallen. 30 geteilt durch zwei sind 15, also beträgt unsere MTTR 15 Minuten.
Einschränkungen der mittleren Wiederherstellungszeit
Diese MTTR ist ein Maß für die Geschwindigkeit deines gesamten Wiederherstellungsprozesses. Ist er so schnell wie du ihn dir wünschst? Wie sieht es im Vergleich dazu bei deinen Mitbewerbern aus?
Dies ist eine allgemeinere Metrik, mit der du feststellen kannst, ob du ein Problem hast. Wenn du jedoch diagnostizieren möchtest, wo das Problem bei deinem Prozess liegt (Gibt es ein Problem mit deinem Warnsystem? Braucht das Team zu lange für Korrekturen? Dauert es zu lange, bis jemand auf eine Reparaturanfrage reagiert?), brauchst du mehr Daten. Denn zwischen dem Ausfall und der Wiederherstellung passiert so einiges.
Das Problem könnte bei deinem Warnsystem liegen. Kommt es zur Verzögerung zwischen einem Ausfall und der Ausgabe einer Warnmeldung? Dauert es länger als erwartet, bis Warnmeldungen an die richtige Person geleitet werden?
Das Problem könnte bei der Diagnose liegen. Kannst du schnell herausfinden, was das Problem ist? Gibt es Prozesse, die verbessert werden könnten?
Oder Reparaturen sind das Problem. Arbeiten deine Wartungsteams so effektiv wie möglich? Woran liegt es, dass sie für Reparaturen extrem lange brauchen?
Um diese Fragen zu beantworten, musst du über die MTTR hinausgehen. Die mittlere Wiederherstellungszeit kann allerdings ein guter Ausgangspunkt dafür sein, um zu ermitteln, ob es ein Problem mit deinem Wiederherstellungsprozess gibt, das du näher untersuchen musst.
Wie und wann wird die mittlere Wiederherstellungszeit verwendet?
MTTR ist eine gute Metrik, um die Geschwindigkeit deines gesamten Wiederherstellungsprozesseses zu bewerten.
MTTR: Mittlere Problemlösungszeit
Was ist die mittlere Problemlösungszeit?
Die mittlere Problemlösungszeit ist die durchschnittliche Zeit, die bis zur vollständigen Behebung eines Fehlers benötigt wird. Sie umfasst nicht nur den Zeitraum für die Erkennung des Fehlers und die Diagnose und Behebung des Problems, sondern auch den Zeitaufwand für die Sicherstellung, dass der Fehler nicht erneut auftritt.
Diese Metrik erweitert den Verantwortungsbereich des Teams, weshalb es sich nicht nur um die Problemlösung kümmern, sondern auch die Leistung langfristig verbessern muss. Seine Aufgabe besteht quasi darin, den Brand zu löschen und das Haus anschließend brandsicher zu machen.
Es gibt einen direkten Zusammenhang zwischen der MTTR und der Kundenzufriedenheit, deshalb solltest du bei dieser Metrik aufhorchen.
Wie berechnet man die mittlere Problemlösungszeit?
Um diese MTTR zu berechnen, addierst du die Zeitdauer für Problemlösungen während des Zeitraums, den du nachverfolgen willst, und dividierst sie durch die Anzahl der Vorfälle.
Angenommen, deine Systeme sind innerhalb von 24 Stunden während eines einzigen Vorfalls insgesamt zwei Stunden ausgefallen. Wenn die Teams weitere zwei Stunden damit verbrachten, Korrekturen vorzunehmen und sicherzustellen, dass der Systemausfall nicht erneut auftritt, ergibt das insgesamt vier Stunden, die für die Behebung des Vorfalls aufgewendet wurden. Damit beträgt deine MTTR vier Stunden.
Ein Hinweis zur Nachverfolgung der mittleren Problemlösungszeit
Denke daran, dass die MTTR am häufigsten anhand von Geschäftszeiten berechnet wird (wenn du also nach Feierabend mit der Wiederherstellung beschäftigt bist und dich gleich am nächsten Morgen mit der zugrunde liegenden Ursache befasst, würden die 16 Stunden außerhalb der Bürozeiten nicht in die MTTR eingerechnet werden). Wenn Teams an mehreren Standorten rund um die Uhr arbeiten oder Bereitschaftsmitarbeiter außerhalb der Bürozeiten zum Einsatz kommen, musst du festlegen, wie du die Zeit für diese Metrik nachverfolgst.
Wie und wann wird die mittlere Problemlösungszeit verwendet?
MTTR wird normalerweise für ungeplante Vorfälle verwendet, und nicht bei Serviceanfragen (die normalerweise geplant sind).
MTTR: Mittlere Reaktionszeit
Was ist die mittlere Reaktionszeit?
Die mittlere Reaktionszeit ist die durchschnittliche Zeit, die zur vollständigen Behebung eines Produkt- oder Systemausfalls ab dem Zeitpunkt benötigt wird, zu dem du erstmals auf diesen Fehler aufmerksam gemacht wirst. Verzögerungen bei deinem Warnsystem werden hierbei nicht berücksichtigt.
Wie berechnet man die mittlere Reaktionszeit?
Um sie zu berechnen, addierst du die komplette Reaktionszeit von der Warnmeldung bis zu dem Zeitpunkt, an dem das Produkt oder der Service wieder voll funktionsfähig ist. Das Ergebnis teilst du anschließend durch die Anzahl der Vorfälle.
Ein Beispiel: Wenn du vier Vorfälle während einer 40-Stunden-Woche hattest und eine ganze Stunde mit deren Bearbeitung verbracht hast (von der Warnmeldung bis zur Behebung), beträgt deine MTTR für diese Woche 15 Minuten.
Wie und wann wird die mittlere Reaktionszeit verwendet?
Diese MTTR wird häufig im Cybersicherheitsbereich verwendet, wenn der Erfolg eines Teams bei der Abwehr von Systemangriffen gemessen wird.
MTTA: Mittlere Bestätigungszeit
Was ist die mittlere Bestätigungszeit?
Die mittlere Bestätigungszeit ist die durchschnittliche Zeitdauer zwischen dem Auslösen einer Warnmeldung und dem Beginn von Vorfallbehebungsmaßnahmen. Diese Metrik ist nützlich, um die Reaktionsfähigkeit deines Teams und die Effektivität deines Warnsystems nachzuverfolgen.
Wie berechnet man die mittlere Bestätigungszeit?
Um deine MTTA zu berechnen, addierst du die Zeit zwischen Warnmeldung und Bestätigung und teilst sie dann durch die Anzahl der Vorfälle.
Ein Beispiel: Wenn du 10 Vorfälle hattest und zwischen Ausgabe der Warnmeldung und ihrer Bestätigung für alle 10 insgesamt 40 Minuten vergangen sind, teilst du 40 durch 10 und erhältst durchschnittlich vier Minuten.
Wie und wann wird die mittlere Bestätigungszeit verwendet?
MTTA ist nützlich, um die Reaktionsfähigkeit zu verfolgen. Leidet dein Team an Alarm-Fatigue und braucht es zu lange, um zu reagieren? Diese Metrik hilft dir, auf dieses Problem aufmerksam zu machen.
MTTF: Mittlere Betriebsdauer bis zum Ausfall
Was ist die mittlere Betriebsdauer bis zum Ausfall?
Die mittlere Betriebsdauer bis zum Ausfall ist die durchschnittliche Zeit zwischen nicht reparaturfähigen Ausfällen eines Technologieprodukts. Wenn zum Beispiel die Fahrzeugmotoren der Marke X durchschnittlich 500.000 Stunden laufen, bevor sie vollständig versagen und ersetzt werden müssen, wäre 500.000 die MTTF dieser Motoren.
Anhand dieser Berechnung wird nachvollzogen, wie lange ein System in der Regel funktionieren wird, und ermittelt, ob eine neue Version eines Systems die alte übertrifft. So können Kunden Informationen über die erwarteten Lebenszeiten und empfohlene Überprüfungszeitpunkte zur Verfügung gestellt werden.
Wie berechnet man die mittlere Betriebsdauer bis zum Ausfall?
Die mittlere Betriebsdauer bis zum Ausfall ist der rechnerische Durchschnitt. Hierzu addierst du die Gesamtbetriebszeit der von dir bewerteten Produkte und teilst die Summe anschließend durch die Anzahl der Geräte.
Ein Beispiel: Du möchtest die MTTF von Glühbirnen ermitteln. Wie lange halten die Glühbirnen der Marke Y im Durchschnitt, bevor sie ausbrennen? Wir nehmen außerdem an, dass du vier verschiedene Glühbirnen testest (für statistisch signifikante Daten reichen diese natürlich nicht aus, für unsere Berechnungszwecke wollen wir den Wert aber klein halten).
Glühbirne A hält 20 Stunden, Glühbirne B 18, Glühbirne C 21 und Glühbirne D 21. Das sind insgesamt 80 Betriebsstunden. Geteilt durch vier beträgt die MTTF 20 Stunden.
Das Problem der mittleren Betriebsdauer bis zum Ausfall
Anhand dieses Glühbirnenbeispiels ist die MTTF als Metrik gut nachvollziehbar. Wir können Glühbirnen brennen lassen, bis die letzte ausfällt. Diese Informationen verwenden wir, um Rückschlüsse auf die Widerstandsfähigkeit unserer Glühbirnen zu ziehen.
Aber was passiert, wenn wir Dinge messen, die nicht so schnell versagen? Dinge, die über mehrere Jahre halten sollen? In diesen Fällen wird die MTTF zwar häufig verwendet, sie eignet sich aber nicht als Metrik. Denn anstatt Produkte zu betreiben, bis sie ausfallen, betreiben wir sie meistens einen bestimmten Zeitraum lang und messen, wie viele ausfallen.
Ein Beispiel: Wir möchten MTTF-Statistiken zu Tablets der Marke Z erfassen. Tablets sollen eigentlich viele Jahre halten. Aber Marke Z hat eventuell nur sechs Monate Zeit, um Daten zu sammeln. Und so werden sechs Monate lang 100 Tablets getestet. Nehmen wir einmal an, ein Tablet versagt genau zum Ende der sechs Monate.
Dann multiplizieren wir die Gesamtbetriebszeit (sechs Monate multipliziert mit 100 Tablets) und kommen auf 600 Monate. Nur ein Tablet hat versagt, also würden wir das Ergebnis durch eins teilen und unsere MTTR würde 600 Monate betragen – das sind 50 Jahre.
Halten die Tablets der Marke Z also im Durchschnitt jeweils 50 Jahre? Das ist ziemlich unwahrscheinlich. In solchen Fällen ist diese Metrik daher nicht zu gebrauchen.
Wie und wann wird die mittlere Betriebsdauer bis zum Ausfall verwendet?
MTTF funktioniert gut, wenn du die durchschnittliche Lebensdauer von Produkten und Systemen mit einer kurzen Lebensdauer bewerten willst (z. B. Glühbirnen). Die Metrik ist außerdem nur für Fälle gedacht, in denen du ein komplettes Produktversagen beurteilst. Wenn du die Zeit zwischen Vorfällen berechnest, die Reparaturen erfordern, solltest du als Metrik lieber MTBF (mittlere Betriebsdauer zwischen Ausfällen) verwenden.
MTBF, MTTR, MTTF und MTTA im Vergleich
Welcher Messwert wäre für die Nachverfolgung und Optimierung des Vorfallmanagements besser geeignet?
Die Antwort ist "alle".
Obwohl sie manchmal synonym verwendet werden, bietet jede Metrik andere Erkenntnisse. Zusammen verwendet können sie einen umfassenderen Überblick darüber geben, wie erfolgreich dein Team mit dem Vorfallmanagement ist und wo sich das Team verbessern kann.
Die mittlere Wiederherstellungszeit gibt Auskunft darüber, wie schnell du deine Systeme wieder zum Laufen bringen kannst.
Binde noch die mittlere Reaktionszeit ein, dann bekommst du ein Gefühl dafür, welcher Anteil der Wiederherstellungszeit auf dein Team bzw. auf dein Warnsystem entfällt.
Berücksichtige die mittlere Reparaturzeit und du wirst erkennen, wie viel Zeit das Team für Reparaturen bzw. Diagnosen aufwendet.
Nimm die mittlere Problemlösungszeit noch hinzu und du wirst den vollen Umfang der Behebung und Lösung von Problemen verstehen können, der über die tatsächlich verursachten Ausfälle hinausgeht.
Nutze die mittlere Betriebsdauer zwischen Ausfällen und das Gesamtbild wird noch größer. Es zeigt dir, wie erfolgreich dein Team zukünftige Probleme verhindern oder verringern kann.
Nutze anschließend die mittlere Betriebsdauer bis zum Ausfall, um den gesamten Lebenszyklus eines Produkts oder Systems nachzuvollziehen.
Jira Service Management bietet Funktionen zur Berichterstattung, damit dein Team KPIs verfolgen und Verfahren für das Vorfallmanagement überwachen und optimieren kann.
Dargestellte Produkte
Zentralisiere Warnmeldungen und benachrichtige die richtigen Benutzer zum richtigen Zeitpunkt.
Informationen zur Kommunikation bei Vorfällen mit Statuspage
In diesem Tutorial zeigen wir dir, wie du mithilfe von Vorfallvorlagen bei Ausfällen effektiv kommunizierst. Sie sind an viele Arten von Serviceunterbrechungen anpassbar.
Dieses Tutorial ansehenVorlagen und Beispiele für die Vorfallkommunikation
Wenn du Vorfälle bearbeitest, können sich Vorlagen für die Kommunikation als äußerst nützlich erweisen. Lade die Vorlagen herunter, die unsere Teams verwenden, und lerne weitere Beispiele für typische Vorfälle kennen.
Artikel lesen