Gerenciamento de incidentes para equipes de alta velocidade
Como criar esquemas táticos de resposta a incidentes
Pegue uma página do manual.
A missão da Atlassian é revelar o potencial de cada equipe. E uma coisa que a gente sabe que grandes equipes têm em comum? Elas usam esquemas táticos para gerenciar os diversos processos que são formulados para manter suas empresas funcionando sem problemas.
Este artigo aborda 5 etapas essenciais para criar um esquema tático efetivo de resposta a incidentes. A gente vai usar o Manual de gerenciamento de incidentes da Atlassian como template para desenvolver um plano de resposta a incidentes.
Por que as equipes ágeis precisam de um esquema tático de incidentes?
Um esquema tático de resposta a incidentes capacita as equipes com procedimentos e etapas padrão para resposta e resolução de incidentes em tempo real. Os esquemas táticos também podem incluir treinamento e exercícios em tempos tranquilos, que vão preparar a equipe para o próximo incidente.
Na Atlassian, as equipes de incidentes estão sempre treinando, refinando, testando e aprimorando o processo de gerenciamento de incidentes. A gente desenvolveu o esquema tático de resposta a incidentes para:
- Orientar as pessoas e as equipes para uma tomada de decisões autônoma nas situações de incidentes e em post-mortems (análises retrospectivas).
- Construir uma cultura consistente entre as equipes em relação a como a gente identifica, gerencia e aprende com os incidentes.
- Alinhar as equipes sobre quais atitudes elas devem ter em cada parte da identificação, resolução e reflexão sobre os incidentes.
O que é um esquema tático de resposta a incidentes?
Os esquemas táticos são um componente essencial do gerenciamento de incidentes de DevOps e operações de TI, bem como de cibersegurança. Eles definem as políticas e práticas da empresa na resposta a interrupções não planejadas, ajudam as equipes a colocar ordem no caos e garantem que todos estejam respondendo com consistência a incidentes e a ameaças à segurança.
Um manual de gerenciamento de incidentes oferece à sua equipe um conjunto de processos para responder, resolver e aprender com cada incidente, seja um problema de segurança ou outra vulnerabilidade emergente. O conteúdo pode incluir tudo, desde runbooks e checklists até templates, exercícios de treinamento, cenários de ataque à segurança e exercícios de simulação.
Criando um esquema tático de resposta a incidentes
Ao criar o Manual de gerenciamento de incidentes da Atlassian, a gente identificou 5 práticas recomendadas quando se trata de gerenciar um incidente. Essas etapas podem ser traduzidas em uma variedade de equipes de DevOps e de operações de TI e ajudam a orientar o processo de criação de um esquema tático efetivo de resposta a incidentes.
1. Defina incidentes para a sua empresa
O que incluir: uma definição específica do que constitui um incidente
Por quê? Porque você não pode resolver um incidente de forma efetiva se não souber quando ele está acontecendo. Equipes diferentes definem incidentes de maneiras diferentes. Se algo der errado, cada segundo importa e o que você menos precisa é de colegas discutindo semântica.
Exemplo:
A definição de um incidente conforme consta no Manual de gerenciamento de incidentes da Atlassian:
O que é um incidente?
A gente define um incidente como um evento que causa interrupção ou redução da qualidade de um serviço e que exige uma resposta emergencial. Nesses casos, as equipes que seguem as práticas de ITIL ou ITSM podem usar o termo "incidente grave".
Um incidente é resolvido quando o serviço afetado volta a funcionar da maneira usual. São incluídas aqui apenas as tarefas necessárias para restaurar a funcionalidade completa, estando excluídas as tarefas de acompanhamento, como identificação e mitigação da causa raiz, que fazem parte do post-mortem.
O post-mortem do incidente é realizado depois do incidente para determinar a causa-raiz e atribuir ações a fim de garantir que ele seja abordado antes que possa causar um incidente repetido.
2. Estabeleça funções pré-designadas
O que incluir: funções e responsabilidades nos incidentes
Por quê? Pois um esquema tático de resposta a incidentes adequado designa funções e responsabilidades claras. As pessoas da equipe de resposta a incidentes estão familiarizadas com cada função e sabem pelo que são responsáveis durante um incidente.
Exemplo:
As funções que a gente usa na Atlassian estão em vigor para garantir que todas as etapas necessárias sejam cobertas, nenhum trabalho duplicado ocorra e a comunicação seja fluida e efetiva.
- Gerenciador de incidentes, tem responsabilidade e autoridade gerais pelo incidente. Capacitado para implementar qualquer ação necessária para resolver o incidente, o que inclui entrar em contato com os respondentes adicionais na empresa e manter os envolvidos em um incidente focados na restauração do serviço o mais rápido possível.
- Líder de tecnologia, um respondente técnico sênior. Responsável por desenvolver teorias sobre o que não está funcionando e por qual motivo, decidir as alterações e liderar a equipe técnica. Trabalha em estreita colaboração com o gerenciador de incidentes.
- Gestor de comunicação, uma pessoa familiarizada com a comunicação com o público, possivelmente da equipe de suporte ao cliente ou de relações públicas. Responsável por escrever e enviar comunicações internas e externas.
3. Aplique um processo consistente
O que incluir: etapas do processo e fluxos de trabalho
Por quê? Porque nenhum incidente é exatamente igual a outro. Mas isso não exclui os respondentes de poderem introduzir um fluxo de trabalho consistente para respostas a incidentes.
Descreva as principais etapas e fases e verifique se os membros da equipe têm clareza sobre o que é esperado durante cada fase — e sobre o que vem na sequência. Por exemplo, a Atlassian descreve o fluxo de resposta a incidentes em sete etapas por três fases para acompanhar o incidente desde a detecção até a resolução.
Exemplo:
À medida que novos incidentes são detectado, o gerenciador de incidentes começa a iniciar a comunicação interna e a organização de respostas. Assim, a equipe pode começar a trabalhar para corrigir a causa do incidente e chegar a uma solução. Uma organização forte nesse estágio facilita a ação, que é impulsionada pela comunicação frequente. A adesão a processos consistentes leva uma resolução mais rápida, incluindo um exercício post-mortem que a gente vai abordar abaixo.
4. Possibilite uma resposta rápida
O que incluir: templates e checklists
Por quê? Pois os esquemas táticos de incidentes precisam ser simples o suficiente para as equipes seguirem em momentos de estresse. A gente incluiu no processo uma grande "folha de dicas" do gerente de incidentes graves, que descreve as principais etapas, como avaliação, agravamento e delegação no formato de uma página.
Seguir um processo predeterminado de resposta a incidentes não impede ninguém de improvisar. Você precisa ser flexível e saber quando se adaptar a uma situação em mudança. Incidentes, por definição, são cenários em que as coisas não saem conforme o planejado. Mas isso não significa que você não possa se planejar para elas. As equipes que treinam e praticam um conjunto de táticas costumam ser as que têm sucesso.
Use isto:
Tente executar uma tática de valores de resposta a incidentes para melhorar a coesão da equipe e resolver possíveis mal-entendidos antes de um incidente. Use o recurso que a gente oferece, o Esquema Tático da Atlassian para entender melhor o processo da sua equipe e criar um esquema tático dinâmico.
5. Facilite análises post-mortem abrangentes
O que incluir: esboço dos processos post-mortem e campos de itens
Por quê? Pois um post-mortem procura maximizar o valor de um incidente entendendo todas as causas que contribuintes, documentando o incidente para referência futura e descoberta de padrões e adotando ações preventivas efetivas para reduzir a probabilidade ou o impacto de recorrências.
Se você pensar em um incidente como um investimento não programado na confiabilidade do seu sistema, o post-mortem é como maximizar o retorno desse investimento.
Tente isto:
Para que as análises post-mortem sejam efetivas, o processo precisa facilitar a identificação e a correção das causas pelas equipes. Os métodos exatos que você usa dependem da cultura da sua equipe. Na Atlassian, a gente encontrou uma combinação de métodos que funcionam para as equipes post-mortem:
- Reuniões presenciais ajudam a conduzir análises adequadas e alinhar a equipe sobre o que precisa ser corrigido.
- Aprovações de post-mortem pelos gerentes da equipe de entrega e operações incentivam as equipes a darem um tratamento completo a elas.
- Indique ações prioritárias com os Objetivos de Nível de Serviço (SLO) designados contendo lembretes e relatórios para garantir que sejam concluídas.
Um resumo passo a passo do post-mortem de resposta a incidentes da Atlassian pode ser encontrado na página 46 do Manual de gerenciamento de incidentes.
Por fim, um esquema tático de resposta a incidentes deve ser usado para orientar as equipes a trabalharem juntas com eficácia para resolver incidentes o mais rápido possível. Quando ocorre um incidente, ninguém tem tempo para ficar debatendo as práticas recomendadas e quem é que tem culpa. Esquemas táticos completos e bem delineados habilitam as equipes a fazerem o melhor trabalho possível. Na Atlassian, a orientação para todas essas táticas está detalhada no Manual de gerenciamento de incidentes.
Configuração de um on-call schedule com o Opsgenie
Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.
Leia este tutorialPrós e contras de diferentes abordagens ao gerenciamento de plantão
As equipes de plantão estão evoluindo com rapidez. Explore os prós e contras de diferentes abordagens ao gerenciamento de plantão.
Leia este artigo