Gestion des incidents pour les équipes haute vélocité
Manuel de gestion des incidents Atlassian
Les équipes responsables de services techniques devraient être disponibles 24h/24 et 7j/7.
En cas de problème (panne ou bug de fonctionnalité), les membres de l'équipe doivent réagir immédiatement et restaurer le service. Ce processus, appelé gestion des incidents, est un défi permanent et complexe pour les entreprises de toute taille.
Nous voulons aider les équipes partout dans le monde à améliorer leur gestion des incidents. Inspirés par des équipes comme celle de Google, nous avons créé ce manuel pour résumer le processus de gestion des incidents d'Atlassian. Ce sont les leçons que nous avons tirées en répondant aux incidents depuis plus d'une décennie. Bien qu'il repose sur nos expériences uniques, nous espérons qu'il pourra être adapté aux besoins de votre propre équipe.
Obtenir le manuel en version imprimée ou au format PDF
Nous disposons d'un nombre limité de versions imprimées du manuel de gestion des incidents que nous fournissons gratuitement. Vous pouvez également télécharger la version PDF.
Nous voulons aider les équipes partout dans le monde à améliorer leur gestion des incidents. Inspirés par des équipes comme celle de Google, nous avons créé ce manuel pour résumer le processus de gestion des incidents d'Atlassian. Ce sont les leçons que nous avons tirées en répondant aux incidents depuis plus d'une décennie. Bien qu'il repose sur nos expériences uniques, nous espérons qu'il pourra être adapté aux besoins de votre propre équipe.
Étape | Valeur relative aux incidents | Valeur liée à Atlassian | Justification |
1. Détection | Atlassian sait avant ses clients | Build with Heart and Balance | Un service équilibré inclut suffisamment de surveillance et d'alertes pour détecter les incidents avant nos clients. Une surveillance de pointe nous prévient des problèmes avant même qu'ils ne deviennent des incidents. |
2. Réaction | Faites remonter, faites remonter, faites remonter | Miser sur l'esprit d'équipe | Personne n'aime être réveillé en pleine nuit, et nous ne prenons pas cette responsabilité à la légère. Mais les gens comprennent que, de temps en temps, ils seront réveillés pour un incident où il s'avère qu'ils ne sont même pas nécessaires. Mais le plus dur, c'est de devoir se réveiller pour un incident majeur et être contraint de rattraper le temps perdu alors que vous auriez dû être alerté plus tôt. Nous n'avons pas toujours toutes les réponses, donc « n'hésitez pas à faire remonter ». |
3. Reprise | Quand c'est la cata, la solution doit être rapide | Ne !@#$ les clients | Nos clients ne veulent pas savoir pourquoi leur service ne fonctionne pas, tout ce qu'ils souhaitent c'est que nous le restaurions aussi vite que possible. N'hésitez jamais à résoudre un incident au plus vite pour réduire son impact sur nos clients. |
4. Apprentissage | Toujours sans reproche | Open Company, No Bullshit | Les incidents font partie de l'exécution de services. Nous améliorons nos services en responsabilisant nos équipes, pas en rejetant la faute. |
5. Amélioration | Évitez la répétition du même incident | Incarner le changement visé | Identifiez la cause profonde et les changements qui empêcheront cette classe entière d'incidents de se reproduire. Engagez-vous à apporter des changements spécifiques à des dates précises. |
Configuration d'un planning d'astreinte grâce à Opsgenie
Ce tutoriel vous apprendra à configurer un planning d'astreinte, à appliquer des règles de remplacement, à configurer les notifications d'astreinte, etc. Et tout cela, sans quitter Opsgenie.
Lire ce tutorielNotre réponse aux incidents
Voici le processus Atlassian pour répondre aux incidents (tiré de notre manuel). Découvrez les différentes étapes suivies par le gestionnaire d'incident de la détection à la résolution.
Lire cet article