Gestion des incidents pour les équipes haute vélocité
MTBF, MTTR, MTTA et MTTF
Maîtriser quelques-unes des métriques d'incident les plus courantes
Dans un monde perpétuellement connecté, les pannes et les incidents techniques n'ont jamais eu autant d'impact. Les pépins et les temps d'arrêt ont de réelles conséquences : délais manqués, retards de paiement, retards au niveau des projets.
C'est pourquoi les entreprises doivent impérativement quantifier et suivre les métriques concernant les temps d'activité, les temps d'arrêt, ainsi que la rapidité et l'efficacité des équipes à résoudre les problèmes.
Certaines des métriques les plus couramment suivies du secteur sont le temps moyen entre pannes (MTBF), le temps moyen jusqu'à la remise en route, la réparation, la réponse ou la résolution (MTTR), le temps moyen de bon fonctionnement (MTTF) et le temps moyen d'accusé de réception (MTTA). Elles sont conçues pour aider les équipes techniques à déterminer la fréquence des incidents et la rapidité avec laquelle elles réagissent à ces derniers.
Beaucoup d'experts affirment que ces métriques utilisées seules ne sont pas vraiment utiles, parce qu'elles ne posent pas les questions plus complexes : comment les incidents sont-ils résolus ? Qu'est-ce qui fonctionne ou pas ? Comment, quand et pourquoi le nombre de problèmes augmente-t-il ou diminue-t-il ?
Cela dit, le MTTR, le MTBF et le MTTF peuvent constituer un bon point de départ ou de référence pour amorcer des conversations qui mènent à ces questions plus complexes et importantes.
La réponse des pros aux incidents majeurs
Téléchargez gratuitement notre manuel de gestion des incidents. Découvrez les outils et les techniques utilisés par Atlassian pour gérer les incidents majeurs.
Avertissement sur le MTTR
Lorsque nous parlons du MTTR, il est facile de penser qu'il s'agit d'une métrique unique avec une seule signification. Mais, en réalité, il représente potentiellement quatre métriques différentes. Le R peut signifier réparer, récupérer, répondre ou résoudre, et bien que ces quatre métriques se chevauchent, elles ont chacune leur propre signification et nuance.
Par conséquent, si votre équipe évoque le suivi du MTTR, demandez-lui de préciser de quel MTTR il s'agit et de clarifier la définition qu'elle en donne. Avant de commencer à suivre les réussites et les pannes, votre équipe doit être sur la même longueur d'onde : elle doit connaître exactement les éléments suivis et s'assurer que tout le monde parle bien de la même chose.
MTBF : temps moyen entre pannes
Qu'est-ce que le temps moyen entre pannes ?
Le temps moyen entre pannes (MTBF) est le temps moyen entre les pannes réparables d'un produit technologique. La métrique permet de suivre à la fois la disponibilité et la fiabilité d'un produit. Plus les pannes sont espacées dans le temps, plus le système est fiable.
L'objectif de la plupart des entreprises est de garantir un MTBF le plus long possible pour que des centaines de milliers (voire des millions) d'heures séparent les problèmes.
Comment calculer le temps moyen entre pannes
Le MTBF est calculé à l'aide d'une moyenne arithmétique. Pour ce faire, prenez simplement les données de la période que vous souhaitez calculer (p. ex., six mois, un an ou cinq ans) et divisez la durée d'exploitation totale de cette période par le nombre de pannes.
Supposons que nous évaluons une période de 24 heures et que deux incidents distincts ont entraîné deux heures de temps d'arrêt. Notre temps d'activité total est de 22 heures. Nous le divisons par deux et nous obtenons notre MTBF : 11 heures.
Étant donné que la métrique est utilisée pour suivre la fiabilité, le MTBF ne tient pas compte des temps d'arrêt prévus pendant la maintenance planifiée. Il se concentre plutôt sur les pannes et les problèmes imprévus.
Les origines du temps moyen entre pannes
Le MTBF est un terme issu de l'industrie aéronautique, où les pannes système entraînent des conséquences particulièrement importantes non seulement en termes de coût, mais aussi de vies humaines. Le sigle s'est depuis imposé dans de nombreux secteurs techniques et mécaniques et est particulièrement utilisé dans l'industrie manufacturière.
Comment et quand utiliser le temps moyen entre pannes
Le MTBF est utile pour les acheteurs qui souhaitent s'assurer d'obtenir le produit le plus fiable, de piloter le meilleur avion ou de choisir l'équipement de fabrication le plus sûr pour leur usine.
Pour les équipes internes, il s'agit d'une métrique qui aide à identifier les problèmes et à suivre les réussites et les pannes. Il peut également aider les entreprises à élaborer des recommandations éclairées sur le moment où les clients doivent remplacer une pièce, mettre à niveau un système ou rapporter un produit à des fins de maintenance.
Le MTBF est une métrique pour les pannes survenant dans des systèmes réparables. Le terme temps moyen de bon fonctionnement (MTTF) est généralement utilisé pour les pannes nécessitant un remplacement du système.
Prenons par exemple le moteur d'une voiture. Lorsque vous calculez le temps entre les maintenances non planifiées du moteur, vous devez utiliser le temps moyen entre pannes (MTBF). En revanche, si vous deviez calculer le temps entre les remplacements de l'intégralité du moteur, vous auriez utilisé le temps moyen de bon fonctionnement (MTTF).
MTTR : temps moyen jusqu'à la réparation
Quel est le temps moyen jusqu'à la réparation ?
Le temps moyen jusqu'à la réparation (MTTR) est le temps moyen nécessaire à la réparation d'un système, généralement technique ou mécanique. Il inclut à la fois le temps de réparation et les temps de test. L'horloge ne s'arrête pas sur cette métrique tant que le système n'est pas de nouveau entièrement opérationnel.
Comment calculer le temps moyen jusqu'à la réparation
Vous pouvez calculer le MTTR en additionnant le temps total consacré aux réparations pendant une période donnée, puis en divisant ce temps par le nombre de réparations.
Admettons que nous examinons des réparations au cours d'une semaine. Pendant cette période, dix pannes se sont produites, et les systèmes ont été activement réparés pendant quatre heures. Quatre heures équivalent à 240 minutes. 240 divisés par 10 nous donnent 24. Dans ce cas, le temps moyen jusqu'à la réparation serait donc de 24 minutes.
Les limites du temps moyen jusqu'à la réparation
Le temps moyen jusqu'à la réparation ne représente pas toujours le même temps que la panne système elle-même. Dans certains cas, les réparations commencent quelques minutes après la panne du produit ou du système. Dans d'autres cas, il existe un décalage entre le problème, le moment où ce dernier est détecté et le début des réparations.
Cette métrique est très utile pour le suivi de la rapidité avec laquelle le personnel de maintenance est capable de corriger un problème. Elle n'est pas conçue pour identifier les problèmes liés aux alertes système ou aux retards avant réparation, deux facteurs également importants lors de l'évaluation des réussites et des pannes de vos programmes de gestion des incidents.
Comment et quand utiliser le temps moyen jusqu'à la réparation
Le MTTR est une métrique utilisée par les équipes de support et de maintenance pour maintenir les réparations sur la bonne voie. L'objectif est d'obtenir un nombre aussi bas que possible en augmentant l'efficacité des processus de réparation et des équipes.
MTTR : temps moyen jusqu'à la remise en route
Qu'est-ce que le temps moyen jusqu'à la remise en route ?
Le temps moyen jusqu'à la remise en route ou temps moyen de reprise d'activité (MTTR) est le temps moyen nécessaire à la remise en route suite à une panne d'un produit ou d'un système. Il inclut le temps complet de la panne, depuis le moment où le système ou le produit tombe en panne jusqu'au moment où il est à nouveau pleinement opérationnel.
C'est une métrique DevOps clé qui peut être utilisée pour mesurer la stabilité d'une équipe DevOps, comme le note le programme de recherche DevOps Research and Assessment (DORA).
Comment calculer le temps moyen jusqu'à la remise en route
Le MTTR est calculé en additionnant tous les temps d'arrêt sur une période donnée et en divisant par le nombre d'incidents. Imaginons que nos systèmes ont été en panne pendant 30 minutes lors de deux incidents distincts sur une période de 24 heures. 30 divisé par 2 est égal à 15, donc notre MTTR est de 15 minutes.
Les limites du temps moyen jusqu'à la remise en route
Ce MTTR est une mesure de la vitesse de votre processus de reprise d'activité complète. Est-il aussi rapide que vous le souhaitez ? Quelles sont ses performances par rapport à vos concurrents ?
Il s'agit d'une métrique de haut niveau qui vous aide à identifier un problème potentiel. Cependant, si vous voulez diagnostiquer où le problème se trouve dans votre processus (est-ce un problème lié à votre système d'alertes ? L'équipe prend-elle trop de temps pour apporter des corrections ? Le temps de réponse à une demande de correction est-il trop long ?), vous aurez besoin de plus de données. En effet, de nombreux éléments interviennent entre la panne et la remise en route.
Le problème peut être lié à votre système d'alerte. Y a-t-il un délai entre une panne et l'alerte associée ? Les alertes mettent-elles plus de temps qu'elles ne devraient pour arriver à la bonne personne ?
Le problème pourrait venir des diagnostics. Êtes-vous rapidement en mesure de déterminer quel est le problème ? Certains processus pourraient-ils être améliorés ?
Ou le problème pourrait être lié aux réparations. Vos équipes de maintenance sont-elles aussi efficaces qu'elles pourraient l'être ? Si elles accaparent la majeure partie du temps, qu'est-ce qui leur pose problème ?
Le MTTR ne suffit pas pour répondre à ces questions, mais le temps moyen jusqu'à la remise en route peut fournir un point de départ pour diagnostiquer un potentiel problème dans votre processus de reprise d'activité qui nécessiterait des investigations approfondies.
Comment et quand utiliser le temps moyen jusqu'à la remise en route
Le MTTR est une bonne métrique pour évaluer la vitesse de votre processus global de reprise d'activité.
MTTR : durée moyenne de résolution
Qu'est-ce que la durée moyenne de résolution ?
La durée moyenne de résolution (MTTR) est le temps moyen nécessaire à la résolution complète d'une panne. Cela inclut non seulement le temps consacré à la détection de la panne, au diagnostic du problème et à sa résolution, mais aussi le temps passé à s'assurer que la panne ne se reproduira plus.
Cette métrique étend la responsabilité de l'équipe qui gère la correction à l'amélioration des performances à long terme. C'est la différence entre éteindre un feu et éteindre un feu, puis installer des alarmes anti-incendie dans votre maison.
La MTTR est étroitement liée à la satisfaction des clients, vous devez donc y prêter attention.
Comment calculer la durée moyenne de résolution
Pour calculer cette métrique, additionnez le temps de résolution total pendant la période à suivre et divisez par le nombre d'incidents.
Par conséquent, si vos systèmes étaient en panne pendant un total de deux heures sur une période de 24 heures au cours d'un seul incident et que les équipes ont passé deux heures supplémentaires à mettre en place des corrections pour s'assurer que la panne du système ne se reproduise plus, cela représente quatre heures consacrées au total à résoudre le problème. Votre MTTR est donc de quatre heures.
Note sur le suivi de la durée moyenne de résolution
Gardez à l'esprit que le MTTR est le plus souvent calculé sur la base des heures ouvrables (ainsi, si vous vous remettez d'un problème à l'heure de fermeture et que vous passez du temps à résoudre sa cause sous-jacente à la première heure le lendemain matin, votre MTTR n'inclura pas les 16 heures que vous avez passées hors du bureau). Si vous avez des équipes réparties sur plusieurs sites qui travaillent en continu ou si vous avez des employés d'astreinte qui travaillent en dehors des heures ouvrables, il est important de définir la manière dont vous allez suivre le temps pour cette métrique.
Comment et quand utiliser la durée moyenne de résolution
Le MTTR est généralement utilisé pour aborder des incidents non planifiés, et non des demandes de service (qui sont généralement planifiées).
MTTR : temps moyen de réponse
Qu'est-ce que le temps moyen de réponse ?
Le temps moyen de réponse (MTTR) est le temps moyen nécessaire à la reprise d'activité suite à une panne d'un produit ou d'un système, à partir du moment où vous êtes averti pour la première fois de cette panne. Cela n'inclut aucun retard dans votre système d'alerte.
Comment calculer le temps moyen de réponse
Pour calculer ce MTTR, additionnez le temps de réponse total entre l'alerte et le moment où le produit ou le service est entièrement opérationnel. Ensuite, divisez ce temps par le nombre d'incidents.
Par exemple : si vous avez enregistré quatre incidents au cours d'une semaine de travail de 40 heures et que vous y avez consacré une heure complète (de l'alerte à la correction), votre MTTR pour cette semaine serait de 15 minutes.
Comment et quand utiliser le temps moyen de réponse
Ce MTTR est souvent utilisé en cybersécurité pour mesurer la réussite d'une équipe dans la neutralisation des attaques système.
MTTA : temps moyen d'accusé de réception
Qu'est-ce que le temps moyen d'accusé de réception ?
Le temps moyen d'accusé de réception (MTTA) est le temps moyen entre le déclenchement d'une alerte et le moment où le travail pour résoudre le problème commence. Cette métrique est utile pour suivre la réactivité de votre équipe et l'efficacité de votre système d'alerte.
Comment calculer le temps moyen d'accusé de réception
Pour calculer votre MTTA, additionnez le temps entre l'alerte et l'accusé de réception, puis divisez par le nombre d'incidents.
Par exemple : si vous avez enregistré 10 incidents et si 40 minutes se sont écoulées entre l'alerte et l'accusé de réception de ces 10 incidents, divisez 40 par 10 et vous arrivez à une moyenne de 4 minutes.
Comment et quand utiliser le temps moyen d'accusé de réception
Le MTTA est utile dans le suivi de la réactivité. Votre équipe souffre d'une fatigue d'alerte et prend trop de temps pour répondre ? Cette mesure vous aidera à marquer le ticket.
MTTF : temps moyen de bon fonctionnement
Qu'est-ce que le temps moyen de bon fonctionnement ?
Le temps moyen de bon fonctionnement (MTTF) désigne le temps moyen entre les défaillances non réparables d'un produit technologique. Par exemple, si les moteurs de voiture de la marque X tiennent en moyenne 500 000 heures avant de tomber complètement en panne et doivent être remplacés, ces 500 000 heures seront le MTTF des moteurs.
Le calcul permet de connaître la durée de vie habituelle d'un système, de déterminer si une nouvelle version surpasse l'ancienne et de fournir aux clients des informations sur les durées de vie prévues et le bon moment pour planifier des vérifications sur leur système.
Comment calculer le temps moyen de bon fonctionnement
Le temps moyen de bon fonctionnement est une moyenne arithmétique. Calculez-le en additionnant le temps total de fonctionnement des produits que vous évaluez et en divisant ce total par le nombre d'appareils.
Par exemple : admettons que vous cherchez à déterminer le MTTF d'ampoules. Quelle est la durée de vie moyenne des ampoules de la marque Y avant qu'elles ne grillent ? Précisons en outre que vous souhaitez tester un échantillon de quatre ampoules (si vous voulez obtenir des données significatives d'un point de vue statistique, vous aurez besoin de beaucoup plus d'ampoules. Mais pour simplifier le calcul, quatre suffiront).
L'ampoule A dure 20 heures, la B 18 heures, la C 21 heures et la D 21 heures. Cela nous donne un total de 80 heures, divisé par quatre : le MTTF est donc de 20 heures.
Le problème du temps moyen de bon fonctionnement
En prenant l'exemple des ampoules, le MTTF est une métrique qui a du sens. Nous pouvons utiliser les ampoules jusqu'à ce que la dernière grille et utiliser ces informations pour tirer des conclusions sur leur résilience.
Mais que se passe-t-il lorsque nous mesurons des produits qui ne tombent pas en panne aussi rapidement et qui sont destinés à durer de nombreuses années ? Dans ces cas, bien que le MTTF soit souvent utilisé, il ne constitue pas une aussi bonne métrique. En effet, au lieu d'utiliser un produit jusqu'à ce qu'il tombe en panne, nous l'utilisons la plupart du temps pendant une durée définie et mesurons le nombre de pannes.
Par exemple : supposons que nous essayons d'obtenir des statistiques MTTF sur les tablettes de la marque Z. Ces tablettes sont normalement destinées à durer de nombreuses années. Mais la marque Z ne dispose peut-être que de six mois pour recueillir des données. Elle teste donc 100 tablettes pendant six mois. Admettons qu'une tablette tombe en panne exactement à l'échéance de ces six mois.
Multiplions maintenant le temps total de fonctionnement (6 mois multipliés par 100 tablettes), et nous obtenons 600 mois. Une seule tablette est tombée en panne, donc divisons 600 par un. Notre MTTR serait alors de 600 mois, soit 50 ans.
Chaque tablette de la marque Z durera-t-elle en moyenne 50 ans ? C'est peu probable. La métrique est donc peu pertinente dans des cas comme celui-là.
Comment et quand utiliser le temps moyen de bon fonctionnement
Le MTTF fonctionne bien lorsque vous essayez d'évaluer la durée de vie moyenne des produits et des systèmes à courte durée de vie (comme les ampoules). Il est destiné uniquement aux cas où vous évaluez une panne généralisée du produit. Si vous calculez le temps entre les incidents nécessitant une réparation, la métrique de choix est le temps moyen entre pannes, ou MTBF.
MTBF, MTTR, MTTF et MTTA
Par conséquent, quelle est la meilleure mesure en matière de suivi et d'amélioration de la gestion des incidents ?
La réponse : toutes les mesures.
Bien qu'elles soient parfois utilisées de manière interchangeable, toutes les métriques fournissent des informations différentes. Lorsqu'elles sont associées, elles peuvent dépeindre de manière plus complète la réussite de votre équipe en matière de gestion des incidents et indiquer à quels niveaux l'équipe peut s'améliorer.
Le temps moyen jusqu'à la remise en route vous indique le temps nécessaire pour remettre vos systèmes en service.
Intégrez le temps moyen de réponse pour obtenir un aperçu de la répartition du délai de récupération entre l'équipe et votre système d'alerte.
Intégrez aussi le temps moyen jusqu'à la réparation pour voir le temps passé par l'équipe sur les réparations et les diagnostics.
Ajoutez la durée moyenne de résolution pour comprendre le périmètre global de la correction et de la résolution des problèmes au-delà des temps d'arrêt qu'ils entraînent.
Intégrez le temps moyen entre pannes pour obtenir encore une meilleure vue d'ensemble, qui vous montre l'efficacité de votre équipe pour prévenir ou limiter les problèmes futurs.
Enfin, ajoutez le temps moyen de bon fonctionnement pour connaître le cycle de vie complet d'un produit ou d'un système.
Jira Service Management propose des fonctionnalités de reporting qui permettent à votre équipe de suivre les KPI, ainsi que de surveiller et d'optimiser votre pratique de gestion des incidents.
Produits concernés
Centralisez les alertes et notifiez les bonnes personnes au moment opportun.
Découvrez la communication sur les incidents grâce à Statuspage
Dans ce tutoriel, nous allons vous montrer comment utiliser des modèles d'incident pour communiquer efficacement pendant les pannes. Vous pouvez les adapter à de nombreux types d'interruption de service.
Lire ce tutorielModèles et exemples de communication sur les incidents
Lorsque vous répondez à un incident, les modèles de communication sont d'une valeur inestimable. Obtenez les modèles que nos équipes utilisent, ainsi que d'autres exemples pour les incidents courants.
Lire cet article