A abordagem da Atlassian à resiliência
Garantir a disponibilidade e o funcionamento dos produtos de nuvem e dos sistemas e serviços subjacentes que usam para suportar o impacto de eventos negativos ou não planejados é crucial para a gente, assim como para você. Para garantir que os produtos estejam disponíveis quando necessário, a gente implementou tecnologia, pessoas e programas para dar resiliência empresarial.
Construir produtos resilientes
A operação dos produtos de nuvem da Atlassian segue o modelo de responsabilidade compartilhada. Logo, a parceria entre você e a Atlassian é fundamental para alcançar a confiabilidade. Nesse modelo, a Atlassian é responsável por garantir a alta disponibilidade, confiabilidade e capacidade de recuperação da infraestrutura, produtos e serviços. Já você é responsável por implementar o programa de recuperação de desastres e o plano de continuidade de negócios, os quais mantêm as operações da empresa no caso de eventos não planejados.
ALTA DISPONIBILIDADE
Usamos a Amazon Web Services (AWS) como provedora de serviços na nuvem e as instalações de data center de alta disponibilidade em várias regiões do mundo. Cada região da AWS é a localização geográfica separada com grupos de data centers múltiplos, isolados e separados fisicamente, conhecidos como zonas de disponibilidade (AZs).
Cada zona de disponibilidade (AZ) é isolada para resistir a falhas em outras zonas. Elas proporcionam conectividade de rede de baixo custo e baixa latência a outras AZs na mesma região. A alta disponibilidade de várias zonas é a primeira linha de defesa contra riscos geográficos e ambientais. Os serviços executados em implantações com várias zonas precisam resistir às falhas.
Para saber mais, leia a página sobre a arquitetura e práticas operacionais.
Confiabilidade
As equipes da Atlassian buscam garantir que todos os serviços e produtos oferecidos sejam confiáveis. Para fazer isso, o programa de recuperação de desastres (DR) da Atlassian se concentra na implantação de processos, políticas e tecnologias que garantam que os sistemas e serviços essenciais de TI estejam disponíveis, sejam confiáveis e possam ser restaurados com rapidez em eventos de interrupção.
Além dos recursos mencionados acima, a Atlassian implanta sistemas de monitoramento e alertas, bem como testes de recuperação de desastres.
Monitoramento e alertas
A gente está sempre de olho em uma ampla variedade de métricas com o objetivo de detectar possíveis problemas com antecedência. Com base nessas matrizes, os alertas são configurados para notificar os engenheiros de confiabilidade do site (SREs) ou as equipes de engenharia de produtos relevantes quando os limites são violados para que as ações imediatas possam ser tomadas por meio do processo de resposta a incidentes.
Os SREs também desempenham um papel fundamental no programa de DR, trabalhando com a equipe de risco e conformidade para o alinhamento com as estruturas de conformidade. Cada uma das equipes também inclui um entusiasta de DR para supervisionar e ajudar a gerenciar aspectos de recuperação de desastres relacionados a essa equipe.
Testes de recuperação de desastres (DR)
Os testes de DR abrangem aspectos de processo e tecnologia, incluindo documentação de processos relevantes e testes de failover nos sistemas. Esses testes variam de exercícios de simulação de mesa padrão a testes completos de zona de disponibilidade ou failover regionais. Seja qual for a complexidade do teste, é realizado um trabalho minucioso de coleta e documentação dos resultados dos testes, análise e identificação de possíveis melhorias até que sejam concluídos com a ajuda dos tickets do Jira para garantir a melhoria contínua do processo geral.
Garantir serviços confiáveis
Para comprovar o compromisso com a confiabilidade, a Atlassian tem contratos de nível de serviço (SLAs) que definem o tempo de atividade que deve ser garantido aos clientes a cada mês.
Além disso, a gente também usa outras medições, como objetivos de tempo de recuperação (RTOs) e objetivos de ponto de recuperação (RPOs). No caso de eventos não planejados afetarem a confiabilidade dos produtos de nuvem da Atlassian, as operações vão ser restauradas segundo os RPO e RTO a seguir:
RPO | 1h |
---|---|
RTO | 6 horas |
Para ver os produtos e serviços disponíveis, visite a Statuspage.
Capacidade de recuperação
A arquitetura de alta disponibilidade (HA) da Atlassian restaura os serviços na maioria das interrupções, as quais podem afetar a disponibilidade dos produtos de nuvem. No entanto, em alguns casos é preciso usar mecanismos mais tradicionais de backup e recuperação de dados, como corrupção ou exclusão de dados na infraestrutura.
Nesses casos, é aplicado o programa de backup completo da Atlassian. O programa usa os sistemas internos e os produtos de nuvem da Atlassian, nos quais as medidas de backup são elaboradas conforme os requisitos de recuperação do sistema. Além disso, há processos e ferramentas para fazer testes contínuos dos backups.
Contudo, os backups não revertem as alterações definitivas feitas pelos clientes, como a substituição de campos com scripts ou a exclusão de itens, projetos ou sites. Para evitar a perda de dados, faça backups frequentes. Saiba mais sobre como criar backups na documentação da Atlassian.
Minimizar o impacto de eventos não planejados
A equipe de Resiliência de Negócios da Atlassian trabalha para garantir que as funções essenciais permaneçam em operação durante e após a interrupção nos negócios ao aplicar práticas sólidas de Continuidade de Negócios (BC).
O programa de BC trabalha em conjunto com o programa de DR. As atividades da Atlassian se baseiam no ciclo de vida anual, alinhado aos padrões do setor. Parte da abordagem da Atlassian, a análise de impacto nos negócios (BIA) é feita, pelo menos, uma vez por ano. A BIA é a base da construção de estratégias de continuidade, necessárias para proteger as equipes, os processos e tecnologias da Atlassian. Os resultados da BIA ajudam a desenvolver as estratégias para os planos de DR e BC. Assim, os serviços comerciais essenciais da Atlassian podem desenvolver planos holísticos e eficazes de DR e BC. Os planos auxiliam a recuperação das tecnologias essenciais, bem como das pessoas e processos por trás delas.
A abordagem da Atlassian à garantia de continuidade de negócios
A Atlassian sempre busca construir capacidades e assegurar as estratégias de resiliência e recuperação de negócios por meio de três abordagens complementares:
- Exercícios: servem para analisar os planos. Podem ser discussões sobre cenários simulados de emergências, bem como exercícios funcionais ou completos. Dão às pessoas envolvidas no plano a oportunidade de praticar as respectivas responsabilidades em caso de interrupção nos negócios. Nos exercícios, as partes interessadas analisam as minúcias dos planos de continuidade relevantes e seguem os procedimentos como fariam em crises reais.
- Jogos de guerra: testes sobre como solucionar as ameaças atuais ou potenciais. Embora a abordagem de planejamento da Atlassian inclua todos os riscos, os jogos de guerra permitem testar casos específicos, muito prováveis ou impactantes. Os jogos verificam se as estratégias de resposta e recuperação da Atlassian são robustas.
- Testes: são aprovados/reprovados e medem se os planos são eficazes. É a principal abordagem usada para testar as estratégias de recuperação de desastres, garantindo que a eficiência dos processos possa ser medida e gerenciada.