El enfoque de Atlassian sobre la resiliencia
Mantener la disponibilidad y la capacidad de tus productos en la nube y los sistemas y servicios subyacentes para que soporten el impacto de los eventos negativos o no planificados es tan crucial para nosotros como lo es para ti. Para garantizar que tus productos están ahí cuando los necesitas, implementamos tecnología, personas y programas que ofrecen resiliencia empresarial.
Crear productos resilientes
Atlassian trata nuestros productos en la nube según un modelo de responsabilidad compartida, por lo que lograr la fiabilidad es una empresa compartida entre Atlassian y tú. Según este modelo, es nuestra responsabilidad garantizar la alta disponibilidad, la fiabilidad y la recuperación de nuestra infraestructura, productos y servicios. Es tu responsabilidad implementar un programa de recuperación ante desastres y un plan de continuidad empresarial que garanticen que puedes operar tu empresa en caso de que ocurra un imprevisto.
ALTA DISPONIBILIDAD
Utilizamos Amazon Web Services (AWS) como proveedor de servicios en la nube y sus instalaciones de centros de datos de gran disponibilidad en varias regiones del mundo. Cada región de AWS es una ubicación geográfica independiente con diversos grupos de centros de datos aislados y físicamente separados, conocidos como zonas de disponibilidad (AZ).
Todas las zonas de disponibilidad se han diseñado de forma que se puedan aislar de los fallos que se produzcan en otras zonas y con el fin de proporcionar conectividad de red barata y de baja latencia a otras AZ de la misma región. Esta alta disponibilidad multizona es la primera línea de defensa ante los riesgos geográficos y ambientales, y supone que los servicios que se ejecutan en implementaciones multi-AZ deben ser capaces de resistir el fallo de las AZ.
Para obtener más información, lee la página de arquitectura y prácticas operativas.
Fiabilidad
Atlassian pretende garantizar que todos nuestros equipos ofrezcan servicios y productos fiables. Para lograrlo, nuestro programa de recuperación ante desastres se centra en implementar procesos, políticas y tecnologías que garanticen la disponibilidad, la fiabilidad y la restauración inmediata en caso de interrupción de los sistemas y servicios de TI críticos.
Además de las funciones indicadas anteriormente, hemos implementado la monitorización y las alertas, y hemos realizado pruebas de recuperación ante desastres.
Supervisión y alertas
Monitorizamos de forma continua diversas métricas, a fin de detectar posibles problemas de forma temprana. A partir de esas métricas, se configuran alertas para notificar a los ingenieros de fiabilidad del sitio (SRE) o a los equipos de ingeniería de productos relevantes cuando se superan los umbrales. De este modo, se pueden adoptar medidas rápidas a través de nuestro proceso de respuesta ante incidentes.
Los SRE también desempeñan un papel clave en el programa de DR, ya que colaboran con nuestro equipo de riesgo y cumplimiento para adaptarse a los marcos de cumplimiento. Además, todos nuestros equipos cuentan con un campeón de recuperación ante desastres que se ocupa de supervisar y ayudar a administrar los aspectos de recuperación ante desastres relacionados con su equipo.
Pruebas de recuperación ante desastres
Nuestras pruebas de recuperación ante desastres cubren aspectos de procesos y tecnología, incluida la documentación de procesos pertinente y las pruebas de conmutación por error en nuestros sistemas. Estas pruebas incluyen desde ejercicios de simulación teórica estándares hasta pruebas de conmutación por error por regiones o zonas de disponibilidad de ámbito completo. Con independencia de la complejidad de la prueba, actuamos con diligencia a la hora de capturar y documentar los resultados, analizar e identificar posibles mejoras, y darles solución con tickets de Jira. El objetivo de todo esto es la mejora continua del proceso general.
Garantizar la fiabilidad de los servicios
Demostramos nuestro compromiso con la fiabilidad a través de nuestros acuerdos de nivel de servicio (SLA), que definen el tiempo de actividad necesario para ofrecer garantías a nuestros clientes cada mes.
Además, utilizamos otras medidas, como los objetivos de tiempo de recuperación (RTO) y los objetivos de punto de recuperación (RPO). En caso de que un imprevisto afecte a la fiabilidad de los productos en la nube de Atlassian, Atlassian intentará restablecer el funcionamiento normal de sus productos en la nube de acuerdo con los siguientes RPO y RTO:
RPO | 1 hora |
---|---|
RTO | 6 horas |
Para ver la disponibilidad de nuestros productos y servicios, visita nuestra Statuspage.
Recuperación
Nuestra arquitectura de alta disponibilidad nos permite restaurar el servicio en caso de que se produzcan la mayoría de las interrupciones que podrían afectar a la disponibilidad de nuestros productos en la nube. Sin embargo, hay algunos casos en los que nos vemos obligados a utilizar mecanismos de copia de seguridad y recuperación de datos más tradicionales, como la corrupción o la eliminación de datos en nuestra infraestructura.
En estos casos, contamos con un programa de copia de seguridad integral en Atlassian. Este programa incluye nuestros sistemas internos, donde las medidas de copia de seguridad se determinan de acuerdo con los requisitos de recuperación del sistema. Disponemos de procesos y herramientas que prueban las copias de seguridad de forma continua.
Sin embargo, estas copias de seguridad no se usan para revertir cambios destructivos iniciados por el cliente, como campos sobrescritos mediante secuencias de comandos o incidencias, proyectos o sitios eliminados. Para evitar la pérdida de datos, recomendamos realizar copias de seguridad de forma habitual. Obtén más información sobre la creación de copias de seguridad en nuestra documentación.
Minimización del impacto de los eventos no planificados
El equipo de resiliencia empresarial de Atlassian trabaja para garantizar que nuestras funciones esenciales siguen funcionando durante y después de una interrupción empresarial mediante prácticas sólidas de continuidad empresarial (BC, por sus siglas en inglés).
El programa de BC está diseñado para funcionar en conjunto con nuestro programa de recuperación ante desastres (DR) y nuestras actividades se basan en un ciclo de vida anual que se ajusta a los estándares del sector. Como parte de nuestro enfoque, llevamos a cabo nuestro proceso de análisis del impacto empresarial (BIA), al menos una vez al año, que es la base para crear estrategias de continuidad eficaces necesarias para proteger a nuestro personal, nuestros procesos y nuestra tecnología. Los resultados de estos BIA impulsan la estrategia de DR y BC. Como resultado, nuestros servicios empresariales críticos son capaces de desarrollar de manera integral planes eficaces de DR y BC que ayuden tanto a la recuperación de nuestra tecnología esencial como de las personas y los procesos que la sustentan.
Nuestro enfoque sobre la garantía de la continuidad empresarial
Buscamos continuamente desarrollar la capacidad y la garantía de nuestras estrategias de resiliencia y recuperación empresarial a través de tres enfoques complementarios:
- Ejercicios: revisan los planes existentes y pueden ser teóricos, funcionales o a escala completa, y ofrecen a todos quienes participan en el plan la oportunidad de ejercer sus responsabilidades en caso de interrupción empresarial. Permiten a las partes interesadas revisar los planes de continuidad pertinentes al detalle y seguir los procedimientos como si se tratase de una crisis real.
- Juegos de guerra: nos permiten poner a prueba nuestra respuesta ante una amenaza existente o posible. Si bien utilizamos un enfoque de planificación que abarca todo tipo de riesgos, los juegos de guerra nos permiten poner a prueba nuestro enfoque en situaciones específicas de mucha probabilidad o impacto para garantizar que nuestras estrategias de respuesta y recuperación son eficaces.
- Pruebas: se superan o se suspenden y nos permiten medir objetivamente la fiabilidad de nuestros planes. Este es el enfoque predominante cuando queremos poner a prueba nuestras estrategias de recuperación ante desastres para poder medir y gestionar su eficacia.