Gestion des incidents pour les équipes haute vélocité
Comment exécuter un post-mortem sans reproches
Post-mortems d'incident axés sur la croissance… sans reproches
La plupart des entreprises enregistrent des incidents majeurs plusieurs fois par an si ce n'est plus.
Nous pouvons tenter de les prévenir, de réduire leur impact et de raccourcir leur durée, mais ils ne disparaîtront jamais véritablement.
La bonne nouvelle ? Les incidents sont une opportunité d'apprentissage. Ils sont l'occasion de détecter les vulnérabilités dans nos systèmes, d'éviter les récurrences, de perfectionner nos processus pour réduire l'impact des incidents et de développer de meilleurs logiciels à l'avenir.
La meilleure façon d'apprendre des incidents est de créer des post-mortems, et ceux d'Atlassian sont sans reproches.
Qu'est-ce qu'un post-mortem sans reproches ?
Au cours d'un post-mortem d'incident, les équipes se réunissent pour examiner un incident plus en détail et comprendre ce qui s'est passé, les raisons de cet incident, la réaction de l'équipe et les actions à entreprendre pour éviter qu'il ne se reproduise et améliorer les réponses futures.
Les post-mortems sans reproches constituent donc la solution idéale.
Dans un post-mortem sans reproches, nous partons du principe que chaque équipe et chaque employé a agi avec les meilleures intentions en fonction des informations à disposition à l'époque. Au lieu d'identifier (et de punir) celui qui a commis une erreur, lespost-mortems sans reproches se concentrent sur l'amélioration des performances futures.
Selon le manuel de gestion des incidents Atlassian :
Quand les choses tournent mal, rechercher un bouc-émissaire est une tendance humaine naturelle. Cependant, Atlassian a tout intérêt à éviter ce scénario. C'est pourquoi lorsque vous exécutez un post-mortem, vous devez expressément combattre cette tendance. Nous prêtons de bonnes intentions à notre personnel et nous ne blâmons jamais les personnes pour leurs erreurs. Le post-mortem doit examiner honnêtement et objectivement les circonstances qui ont entraîné l'erreur, de sorte à trouver la ou les véritables causes profondes et les traiter.
Les défenseurs de l'approche, comme Google et Etsy, affirment qu'elle favorise une culture de l'apprentissage et améliore les performances au fil du temps. Ils soulignent qu'en éliminant la « chasse aux sorcières » du programme, vous opérez un virage psychologique. Au lieu d'avoir peur de se faire licencier ou d'être rétrogradés et d'essayer de « se refiler la patate chaude », les membres des équipes peuvent se concentrer sur la résolution des problèmes sous-jacents.
Les détracteurs se demandent si les post-mortems sans reproches sont vraiment possibles (les humains ne sont-ils pas programmés pour blâmer ?) et craignent que l'approche ne favorise pas la responsabilité.
Les post-mortems sans reproches sont-ils possibles ?
L'une des principales critiques vis-à-vis des post-mortems sans reproches est qu'ils sont tout simplement irréalisables. Après tout, le blâme et le jugement sont naturels. La responsabilité est un élément essentiel de la bonne gestion d'une équipe. Les détracteurs voient ces post-mortems comme un dîner de famille embarrassant : tout le monde s'efforce de sourire et de taire ce qu'il pense vraiment.
Suivant ces critiques, le but des post-mortems sans reproches est de mettre à l'aise les responsables d'un incident : un objectif qui éclipserait la vraie discussion et la responsabilité.
Mais le but réel de ces post-mortems est de dissiper les craintes de paraître stupide, d'être réprimandé ou même de perdre son emploi. L'objectif ultime est d'encourager une communication honnête, objective et factuelle qui mène à de meilleurs résultats.
Prenons un exemple : un incident est survenu parce que l'employé A a supposé, à tort, que l'employé B avait déployé une correction. Au lieu de passer son temps à essayer de déterminer à qui revient la faute, un post-mortem sans reproches permet à chaque employé de réfléchir à ses processus de travail et de réflexion pour tenter d'aller au fond du problème.
En adoptant cette approche, nous pouvons déterminer à quels niveaux nous améliorer. Nos processus de formation sont peut-être inefficaces. La documentation pourrait être ambiguë. Nous pourrions peut-être intégrer des contrôles à nos systèmes techniques afin que les employés n'oublient pas avec qui faire le point.
Il ne faut pas croire que les post-mortems sans reproches n'identifient jamais la personne responsable. Mais l'absence de reproches favorise la communication et reconnaît que les incidents informatiques sont complexes et que les voies d'amélioration peuvent être multiples (sans blâmer ni licencier l'employé A).
Valeur des post-mortems sans reproches efficaces
Pour beaucoup, les post-mortems sans reproches peuvent impliquer un virage culturel. Mais d'après notre expérience, les avantages l'emportent sur les efforts nécessaires pour atteindre l'objectif. Les post-mortems sans reproches :
· Créent une culture saine au sein des équipes
Si nous évitons de blâmer une autre équipe, nous serons plus à même de collaborer efficacement, de communiquer clairement et sans crainte, et d'éprouver de l'empathie pour les équipes qui nous entourent.
· Réduisent les risques d'ignorer des incidents par crainte d'être blâmé
Si un incident n'entraîne pas de blâme public ou de licenciement, les employés seront plus enclins à en discuter, à le porter à l'attention de l'équipe et à partager des idées pour le corriger. La perspective de perdre son emploi incite à se taire et à ne pas signaler les incidents.
· Créent une culture de l'apprentissage ouverte et en constante amélioration
Les post-mortems sans reproches encouragent les équipes à analyser les dysfonctionnements étape par étape et à réfléchir à des voies d'amélioration. Ils reconnaissent également que les incidents sont complexes et que nul n'est infaillible, en permettant aux employés d'adopter la notion d'apprentissage et de changement au lieu de défendre leurs choix par crainte des conséquences.
· Améliorent le support et la communication
Si les employés A et B n'ont pas à se rejeter la faute pour une panne, leur relation sera sûrement plus solide. Éliminer la peur réduit la pression et permet aux employés de se soutenir mutuellement.
· Libèrent les équipes pour qu'elles donnent le meilleur d'elles-mêmes
Voir un collègue être blâmé ou se faire licencier pour une erreur ébranle la confiance des employés et suscite la crainte pour leur propre emploi. Cela peut ralentir les opérations et entraver l'avancement futur.
Bonnes pratiques pour une culture sans reproches
L'implémentation de post-mortems sans reproches efficaces implique d'adopter une culture sans reproches. Voici par où commencer :
Communiquez d'emblée une approche ouverte et sans reproches
Avant même le début de la réunion, expliquez clairement aux équipes qu'il ne s'agit pas d'une chasse aux sorcières, mais plutôt d'une opportunité d'apprendre et de s'améliorer. Les employés seront probablement honnêtes à propos des hypothèses, des attentes erronées et des erreurs s'ils ne craignent pas de représailles.
Encouragez l'honnêteté et l'acceptation de l'échec
Certains détracteurs estiment que les post-mortems sans reproches ne mettent pas assez l'accent sur la responsabilité ? Eh bien, ils se trompent. Vos post-mortems devraient encourager l'honnêteté et la responsabilité. Éliminer la peur des conséquences libère les employés, qui parlent alors de leurs erreurs et de leurs incompréhensions en toute honnêteté. C'est d'ailleurs la seule façon de les corriger.
Partagez les informations et fixez un calendrier
Avant de commencer à analyser un incident, assurez-vous que tout le monde est d'accord sur ce qui s'est passé. Un malentendu sur le problème de fond peut rapidement faire dérailler le post-mortem d'un incident. C'est pourquoi il est essentiel d'établir une chronologie de l'incident.
Ne formulez jamais de reproches
Si un post-mortem est sans reproches, mais que les autres ne le sont pas, vous ne pourrez pas éliminer la peur ni favoriser une plus grande ouverture.
Obtenez l'adhésion de la direction
Les post-mortems sans reproches constitueront un virage culturel pour la plupart des organisations. Assurez-vous de discuter avec les membres de la direction pour les aider à comprendre les avantages des post-mortems et d'une culture d'entreprise sans reproches avant de commencer. Les virages culturels sont uniquement possibles avec l'adhésion des dirigeants.
Collaboration
Même les équipes qui n'ont pas été directement impliquées dans l'incident peuvent apprendre d'un post-mortem, voire y contribuer.
Inviter différentes équipes à un post-mortem favorise la collaboration entre les équipes et apporte de nouvelles perspectives, améliorant au final la gestion des incidents. Inviter un membre de l'équipe de sécurité et de confidentialité ou du service juridique, ou un responsable des risques et de la conformité, peut aider à identifier les facteurs contributifs jusqu'alors inconnus, les pièges potentiels dans les processus existants et les méthodes qui permettront aux autres équipes d'améliorer leur prise en charge des systèmes et processus techniques.
Prenez les décisions, mais obtenez l'approbation
Un bon post-mortem sans reproches devrait déboucher sur des suggestions qui aident à prévenir les incidents futurs. Assurez-vous d'identifier la personne responsable de l'approbation des actions recommandées et de l'examen des critiques elles-mêmes.
Chez Atlassian, il s'agit d'un directeur de l'ingénierie au niveau de la division. Il est chargé d'examiner les conclusions et de hiérarchiser les actions et les mesures d'atténuation convenues après le post-mortem.
Success story d'un post-mortem sans reproches
Les post-mortems sans reproches améliorent-ils vraiment les résultats ? Chez Atlassian, tout semble l'indiquer.
Il y a quelques années, un ingénieur a commis une grave erreur dans la syntaxe d'un fichier de configuration pour un équipement stratégique : l'ensemble de l'entreprise a été à l'arrêt pendant 45 minutes, ce qui représente une perte de plusieurs centaines de milliers de dollars.
Mais au lieu de blâmer l'ingénieur, nous avons exécuté un post-mortem sans reproches. En effet, notre but n'était pas de punir quelqu'un pour avoir commis une erreur, mais de savoir s'il y avait moyen d'éviter que cette erreur ne se reproduise. L'erreur est humaine, c'est indéniable. Nous nous sommes donc demandé comment limiter le plus possible les erreurs humaines. Pour répondre à cette question, nous devions comprendre ce qui s'était passé et pourquoi.
En fin de compte, la correction apportée a été simple et permanente : nous avons intégré un contrôle de démarrage automatisé au fichier de configuration avant le chargement. Nous avons ainsi éliminé toute intervention humaine dans la configuration du système. Nous avons écarté le problème qui a causé la panne grâce à une correction technique rapide. L'ingénieur impliqué travaille toujours chez Atlassian et apporte une réelle valeur ajoutée à notre équipe.
Chez Atlassian, nous adorons les processus simples et reproductibles… et nos post-mortems sans reproches ne font pas exception. Nous avons mis au point un processus qui nous convient. Vous en trouverez ici une description. Pour en savoir plus à ce sujet, consultez notre manuel de gestion des incidents.
Obtenez le manuel au format PDF
Nous disposons d'un nombre limité de versions imprimées de notre manuel de gestion des incidents que nous fournissons gratuitement. Vous pouvez également télécharger la version PDF.
Découvrez la communication sur les incidents grâce à Statuspage
Dans ce tutoriel, nous allons vous montrer comment utiliser des modèles d'incident pour communiquer efficacement pendant les pannes. Vous pouvez les adapter à de nombreux types d'interruption de service.
Lire ce tutorielEn quoi un processus de post-mortem d'incident est-il important ?
Un post-mortem d'incident, également appelé revue post-incident, est le meilleur moyen de travailler sur ce qui s'est passé lors d'un incident et de consigner les leçons apprises.
Lire cet article