Articles
Tutoriels
Guides interactifs
Comment YBIYRI propose des services disponibles en continu
Comment les organisations peuvent créer une culture DevOps compatible avec les services en continu
Krishna Sai
Head of Engineering, IT Solutions
De par leur nature, les services en continu nécessitent une réponse continue des équipes Agile et DevOps. Celles-ci doivent aller au-delà de la réaction à un incident unique et aligner leur structure, leurs valeurs et leurs outils pour faire de l'excellence opérationnelle une compétence essentielle.
Défis liés aux services en continu
Depuis qu'elle a été évoquée pour la première fois il y a 14 ans, la pratique YBIYRI continue de mettre au défi les équipes de développement modernes de tenir leurs promesses, à savoir accélérer les délais de résolution et faire évoluer les bonnes pratiques opérationnelles. Malheureusement, de nombreuses équipes pensent encore leurs compétences, leurs plannings et leurs processus en réaction à un incident, plutôt que de sorte à assurer la réussite à long terme.
Les équipes migrent souvent vers une culture YBIYRI sans préparation adéquate, et le premier incident majeur est souvent perçu comme un signal d'alarme. Cependant, c'est souvent le sentiment qu'il ne faut pas laisser les incidents se reproduire qui déclenche une réaction. Pour tenter d'atteindre cet objectif, des barrières de sécurité, des points de contrôle et d'autres procédures générales sont introduits. De plus, les tableaux de revue des changements et les revues hebdomadaires des livraisons font partie des rituels d'équipe. Chaque changement fait l'objet d'un examen minutieux afin d'éviter les pannes. Bien que cela réduise souvent le nombre d'incidents, cela peut ralentir le développement et casser la dynamique du produit, devenant ainsi une faiblesse concurrentielle. En effet, des concurrents plus agiles peuvent avancer beaucoup plus rapidement.
Bonnes pratiques d'équipe pour des services en continu
Matériel connexe
Essayez la solution gratuitement
Découvrir les solutions
Simplifiez la gestion des incidents ainsi que la réponse à ces derniers
Préparation opérationnelle
L'un des changements critiques pour les équipes YBIYRI consiste à inclure la préparation opérationnelle aux cycles de planification et d'exécution du sprint. La préparation opérationnelle peut inclure les éléments suivants :
- La création d'alertes appropriées et de haute qualité dans le code lors du développement. Cela minimise le temps moyen de détection (MTTD) ainsi que le temps moyen d'isolement (MTTI).
- La création de mécanismes de surveillance, y compris la surveillance synthétique le cas échéant, pour s'assurer que les services dépendants fonctionnent comme prévu.
- L'octroi d'un délai pour concevoir les tableaux de bord nécessaires et former tous les membres de l'équipe à leur utilisation.
- L'assurance que les membres de l'équipe d'astreinte n'ont pas d'autres engagements de développement pendant un sprint.
- La planification de « war games » pour le service afin de s'assurer que les restaurations fonctionnent comme prévu.
- La planification de la bande passante dans les sprints pour clôturer les mesures prises lors de précédentes revues d'incident.
- La réponse aux problèmes de sécurité (mises à niveau/correctifs/identifiants propagés) et opérationnels dans le cadre des cycles de sprint.
Tous ces éléments exigent des Product Owners qu'ils comprennent les objectifs de niveau de service (SLO) et qu'ils les hiérarchisent de manière appropriée, ainsi que les engagements métier liés au développement de fonctionnalités.
Adoption des valeurs d'incident
Adopter les valeurs d'incident au niveau de l'équipe peut créer une base solide pour le parcours YBIYRI de ses membres. Les valeurs d'incidents guident votre équipe lors de la réponse aux incidents. Elles garantissent qu'il existe une base solide pour une culture durable axée sur le développement et l'exploitation d'un service en continu. Les valeurs d'incident sont conçues pour :
- permettre une prise de décision autonome par les personnes et les équipes responsables des incidents et des post-mortems ;
- développer une culture d'équipe cohérente, qui porte notamment sur l'identification des incidents, leur gestion et les leçons qu'il est possible d'en tirer ;
- aligner les équipes quant à l'attitude qu'elles doivent adopter aux étapes d'identification, de résolution et d'analyse des incidents.
Un playbook sur les valeurs d'incident constitue un excellent guide pour aider à identifier les valeurs de l'équipe lors de la réponse aux incidents et à élaborer un plan afin d'incarner ces valeurs de façon cohérente. Cela peut être utile si votre équipe rencontre des difficultés avec l'orientation client, la cohésion interne, la compréhension commune, les niveaux de service ou les mandats de service dans son contrôle de santé.
Chez Atlassian, nous adoptons les valeurs d'incident suivantes au niveau de l'équipe :
Savoir conjuguer passion et équilibre
Détecter
Atlassian a conscience du problème avant ses clients
Un service équilibré inclut une surveillance et des alertes efficaces pour détecter les incidents avant nos clients. Une surveillance de pointe nous informe des problèmes avant qu'ils ne deviennent des incidents.
Jouer en équipe
Répondre
Faites remonter, faites remonter, faites remonter
Cela ne nous dérange pas d'être réveillés en cas d'incident, même si notre aide n'est pas nécessaire. Mais cela nous dérange si nous ne sommes pas réveillés alors que nous aurions dû l'être. Nous n'avons peut-être pas toujours les réponses, donc « n'hésitez pas à faire remonter ».
Ne pas baratiner le client
Récupérer
Quand c'est la cata, la solution doit être rapide
Nos clients ne veulent pas savoir pourquoi un service ne fonctionne pas, tout ce qu'ils souhaitent c'est que nous le restaurions aussi vite que possible. N'hésitez jamais à résoudre un incident au plus vite pour réduire son impact sur nos clients.
Oui à la transparence,
non au baratin
Apprendre
Soyez toujours irréprochable
Les incidents font partie de l'exécution de services en continu. Nous améliorons nos services en responsabilisant nos équipes, pas en rejetant la faute.
Incarner le changement visé
Améliorer
Évitez que le même incident ne se reproduise
Identifiez la cause profonde afin d'éviter que l'incident ne se reproduise. Engagez-vous à apporter des changements spécifiques à des dates précises.
Des outils pour une entreprise disponible en continu
Outre des pratiques et une culture fortes, les entreprises qui proposent des services en continu ont besoin des bons outils. Les équipes aux pratiques DevOps éprouvées utilisent des outils pour faciliter la planification et les sprints de projet Agile, la CI/CD, l'automatisation, ainsi que des fonctionnalités avancées de surveillance et d'alerte.
Un outil moderne de gestion des incidents tel qu'Opsgenie vous permet de recevoir des alertes importantes dans vos canaux de notification préférés avec des latences ultra faibles. Il offre également la possibilité de regrouper les alertes afin de les filtrer, notamment lorsque plusieurs alertes sont générées par une seule erreur ou défaillance. Un outil de gestion des alertes doit s'intégrer de manière transparente aux outils de votre équipe (p. ex., gestion des journaux, rapports de crash) afin de s'adapter naturellement au rythme de développement et opérationnel de votre équipe.
Chaque équipe a ses particularités en ce qui concerne les workflows, les politiques et les parties prenantes. L'outil de gestion des alertes doit pouvoir personnaliser les plannings d'astreinte ainsi que les règles de routage pour traiter les alertes en fonction de leur source et de leur charge utile. Souvent, les alertes peuvent justifier une requalification en incident. L'outil doit gérer un incident sans distractions, en désignant automatiquement un gestionnaire d'incident. Vous pouvez ainsi superviser l'incident comme une salle de crise où toutes les informations sont à portée de main, avec des intégrations aux outils de communication et de collaboration. Enfin, l'outil doit fournir des rapports et des analyses avancés permettant d'obtenir plus d'informations sur les domaines de réussite et d'identifier les possibilités d'amélioration. Il doit révéler les sources d'alertes, les performances de l'équipe en matière de réponse et la manière dont la charge de travail est répartie pour les astreintes.
Conclusion…
Plus qu'une envie, les services en continu constituent une nécessité pour le consommateur moderne. De nombreuses entreprises adoptent une culture YBIYRI pour développer l'agilité nécessaire à la satisfaction de ces exigences. Le défi ? De nombreuses entreprises ne disposent pas des outils appropriés ni des structures/pratiques d'équipe nécessaires pour maintenir cette vélocité.
Si vous envisagez de passer à une culture DevOps YBIYRI dans votre équipe, voici quelques étapes à suivre :
- Préparez votre équipe à assumer toutes les phases de développement et opérationnelles de l'app ou du service
- Assurez l'alignement avec les Product Owners afin que les SLO soient priorisés dans la planification des sprints
- Adoptez un ensemble de valeurs d'incident qui orientent le comportement de votre équipe en réponse à un incident
- Autonomisez votre équipe grâce à un outil moderne de gestion des alertes et des incidents comme Opsgenie, qui est fiable, rapide et flexible
Téléchargez notre manuel gratuit de gestion des incidents et lancez-vous avec Opsgenie gratuitement.
Partager cet article
Thème suivant
Lectures recommandées
Ajoutez ces ressources à vos favoris pour en savoir plus sur les types d'équipes DevOps, ou pour les mises à jour continues de DevOps chez Atlassian.