Close

L'approche Atlassian en matière de résilience


Il est tout aussi important pour nous que pour vous de veiller à ce que vos produits Cloud ainsi que leurs systèmes et services sous-jacents soient disponibles et capables de résister à l'impact d'événements négatifs ou imprévus. Pour que vos produits soient disponibles quand vous en avez besoin, nous avons mis en place des technologies, des personnes et des programmes visant à renforcer la résilience de l'entreprise.

Créer des produits résilients

Atlassian gère ses produits cloud selon un modèle de responsabilité partagée, ce qui signifie que la fiabilité s'inscrit dans un partenariat entre Atlassian et vous. Dans le cadre de ce modèle, nous sommes chargés de garantir la haute disponibilité, la fiabilité et la récupérabilité de notre infrastructure, de nos produits et de nos services. Il vous appartient de mettre en œuvre un programme de reprise d'activité (DR) et un plan de continuité d'activité qui garantit votre capacité à mener votre activité en cas d'événement imprévu.

Haute disponibilité

Nous utilisons Amazon Web Services (AWS) comme fournisseur de services cloud et ses data centers hautement disponibles dans de nombreuses régions du monde. Chaque région AWS est un emplacement géographique distinct comprenant plusieurs groupes de data centers isolés et séparés physiquement, appelés zones de disponibilité (ZD).

Chaque zone de disponibilité est conçue pour être isolée des pannes dans d'autres zones, et pour fournir une connectivité réseau peu coûteuse et à faible latence avec d'autres zones de disponibilité de la même région. Cette haute disponibilité multizones constitue la première ligne de défense contre les risques régionaux et environnementaux, et signifie que les services fonctionnant dans des déploiements multizones doivent être capables de résister aux pannes de ZD.

Pour en savoir plus, lisez la page dédiée à l'architecture et aux pratiques opérationnelles.

Fiabilité

Atlassian s'engage à faire en sorte que toutes ses équipes fournissent des services et des produits fiables. Pour cela, notre programme de reprise d'activité (DR) est axé sur la mise en œuvre de processus, de politiques et de technologies qui garantissent la disponibilité, la fiabilité et la restauration rapide des systèmes et services informatiques critiques en cas de panne.

Outre les fonctionnalités mentionnées ci-dessus, nous avons mis en place des fonctions de surveillance et d'alerte et nous avons mené des tests de reprise d'activité.

Surveillance et alertes

Nous surveillons en permanence un large éventail d'indicateurs dans le but de détecter rapidement les problèmes potentiels. Sur la base de ces indicateurs, les alertes sont configurées pour notifier les ingénieurs chargés de la fiabilité des sites (SRE) ou les équipes d'ingénierie produit concernées en cas de violation des seuils afin que des mesures rapides puissent être prises par le biais de notre processus de réponse aux incidents.

Les SRE jouent également un rôle clé dans le programme de reprise d'activité en aidant notre équipe chargée des risques et de la conformité à s'aligner sur les cadres de conformité. Chacune de nos équipes comprend également un champion de la reprise d'activité qui a pour mission de superviser et de gérer les aspects de la reprise d'activité au sein de cette équipe.

Tests de reprise d'activité

Nos tests de reprise d'activité couvrent les aspects liés aux processus et à la technologie, y compris la documentation pertinente et les tests de basculement sur nos systèmes, qui vont des exercices de simulation sur maquette standard à des tests de zone de disponibilité ou de basculement régional complets. Indépendamment de la complexité des tests, nous veillons à capturer et à documenter les résultats, à analyser et à identifier les améliorations possibles, et nous les résolvons à l'aide de tickets Jira afin d'assurer une amélioration continue du processus global.

Garantir des services fiables

Nous prouvons notre engagement en faveur de la fiabilité par le biais de nos accords de niveau de service (SLA), qui définissent le temps de disponibilité que nous devons garantir à nos clients chaque mois.

Nous appliquons également d'autres mesures, telles que les objectifs de temps de reprise (RTO) et les objectifs de points de reprise (RPO). En cas d'événement imprévu affectant la fiabilité de ses produits cloud, Atlassian s'efforcera de rétablir le fonctionnement normal des produits conformément aux RPO et RTO suivants :

RPO 1 heure
RTO 6 heures

Pour vérifier la disponibilité de nos produits et services, rendez-vous sur notre page d'état.

Récupérabilité

Notre architecture hautement disponible (HA) nous permet de restaurer le service lors de la plupart des interruptions susceptibles d'affecter la disponibilité de nos produits cloud. Dans certaines situations, telles que la corruption ou la suppression de données au sein de notre infrastructure, nous devons cependant faire appel à des mécanismes de sauvegarde et de restauration des données plus traditionnels.

Pour faire face à ces situations, Atlassian propose un programme de sauvegarde complet. Ce programme couvre nos systèmes internes et nos produits cloud, pour lesquels nos mesures de sauvegarde sont conformes aux exigences de récupération du système. Nous avons mis en place des processus et des outils qui testent en permanence les sauvegardes.

Toutefois, nous n'utilisons pas ces sauvegardes pour annuler les changements destructeurs initiés par le client, comme l'écrasement de champs à l'aide de scripts ou la suppression de tickets, de projets ou de sites. Pour éviter la perte de données, nous vous recommandons d'effectuer des sauvegardes régulières. Pour en savoir plus sur la création de sauvegardes, consultez notre documentation.

Limiter l'impact des événements imprévus

L'équipe Business Resilience d'Atlassian veille à ce que nos fonctions essentielles restent opérationnelles pendant et après une perturbation de l'activité grâce à de bonnes pratiques de continuité de l'activité (BC).

Le programme de continuité de l'activité est conçu pour fonctionner en tandem avec notre programme de reprise d'activité, et nos activités sont basées sur un cycle de vie annuel conforme aux normes du secteur. Dans le cadre de notre approche, nous exécutons au moins une fois par an notre processus d'analyse d'impact métier (BIA), qui constitue la base des stratégies de continuité efficaces nécessaires pour protéger notre personnel, nos processus et nos technologies. Les résultats de ces analyses contribuent à la mise en œuvre de la stratégie pour les efforts de reprise d'activité et de continuité de l'activité. Ainsi, nos services métier essentiels peuvent développer de manière globale des plans efficaces de DR et BC qui contribuent à la récupération de nos technologies essentielles, mais qui bénéficient aussi aux personnes et aux processus impliqués.

Notre approche en matière de garantie de la continuité de l'activité

Nous cherchons continuellement à renforcer les capacités et les garanties de nos stratégies de résilience et de récupération grâce à trois approches complémentaires :

  • Les exercices permettent de passer en revue les plans existants. Qu'il s'agisse d'exercices sur maquettes, fonctionnels ou à grande échelle, ils permettent à tous ceux qui jouent un rôle dans le plan d'exercer leurs responsabilités en cas de perturbation de l'activité. Ainsi, les parties prenantes peuvent revoir en détail les plans de continuité pertinents et suivre les procédures qui s'appliqueraient en situation de crise.
  • Les « war games » permettent de tester notre réponse à une menace existante ou potentielle. Bien que nous adoptions une approche tous risques en matière de planification, les « war games » nous permettent de tester notre approche de scénarios spécifiques très probables ou à fort impact afin de vérifier la robustesse de nos stratégies de réponse et de récupération.
  • Les tests (réussite/échec) nous permettent de mesurer objectivement l'efficacité de nos plans. Nous utilisons principalement cette approche pour tester nos stratégies de reprise d'activité, et pour déterminer et gérer leur efficacité.