Gerenciamento de incidentes para equipes de alta velocidade
Conheça o ciclo de vida de resposta a incidentes
Passe um tempo com os profissionais de segurança e gerenciamento de incidentes e você vai notar um padrão. As pessoas mais inteligentes desse setor pensam em ciclos, não em linhas retas.
Por quê? Como assim? A ideia é que cada incidente ou interrupção não é um evento isolado com pontos de início e de fim (apesar de parecer assim). Os incidentes são uma oportunidade de aprendizado.
Só porque um serviço está "operacional" de novo não significa que o trabalho da equipe tenha terminado. As atividades pós-incidentes devem incluir planos em roteiros futuros, mudar a maneira como você se prepara para incidentes futuros e descobrir itens novos a serem criados, os quais vão evitar mais incidentes no futuro. É um ciclo interminável de melhoria e existem algumas maneiras diferentes de pensar sobre as várias etapas, dependendo da escola de pensamento que você se identifica.
O que é um ciclo de vida de resposta a incidentes?
A resposta a incidentes é o processo de uma empresa para reagir a ameaças de TI, como ataques cibernéticos, violação de segurança e tempo de inatividade do servidor.
O ciclo de vida de resposta a incidentes é a estrutura passo a passo da empresa para identificar e reagir a uma interrupção de serviço ou ameaça à segurança.
Ciclo de vida de resposta a incidentes da Atlassian
1. Identificar o incidente
Em geral, a identificação de incidentes começa com ferramentas de monitoramento e alerta. Embora às vezes a gente fica sabendo do incidente pelos clientes ou membros da equipe.
Como os alertas de incidentes podem vir de fontes diferentes, ter uma solução que integra diversas ferramentas de alertas e de relatórios pode fazer a diferença entre uma resposta complicada e desconexa e uma resposta colaborativa e coesa. Uma solução como o Jira Service Management permite que as equipes personalizem e filtrem alertas em todas as ferramentas de monitoramento, registros e CI/CD para garantir que as equipes resolvam os incidentes com rapidez, evitando a fadiga de aletas.
2. Definir canais de comunicação da equipe
A primeira etapa importante é estabelecer os canais de comunicação da equipe de incidentes. O objetivo neste momento é focar as comunicações da equipe em locais bem conhecidos, como um canal dedicado do Slack e uma ponte de videoconferência.
No Jira Service Management, coordenar respostas a incidentes é um processo tranquilo. As equipes não apenas podem se comunicar da maneira que funciona melhor para elas — como por Slack ou por videoconferência — como também podem se comunicar com clientes com mais facilidade usando a automação e a personalização. A comunicação externa vai ser abordada no ponto 4.
3. Avaliar o impacto e aplicar um nível de gravidade
Agora é hora de avaliar o impacto do incidente para que a equipe possa decidir com quem mais entrar em contato e o que comunicar aos clientes e interessados. Atribuir níveis de gravidade não apenas identifica o impacto do incidente como também estabelece as bases para os planos de resolução e as comunicações externas. No Jira Service Management, escalar incidentes e atribuir gravidades aciona ações automatizadas e também notifica os respondentes para que eles acompanhem o progresso da resolução.
4. Comunicar aos clientes
O objetivo é comunicar aos interessados internos e externos o mais rápido possível. Comunicar com rapidez e precisão ajuda a criar confiança com os clientes e o restante da empresa. Como mencionado antes, a capacidade de personalizar a comunicação possibilita à equipe trabalhar da maneira que quiser, facilitando resoluções mais rápidas. A capacidade de personalizar a comunicação também permite que a equipe tenha controle da mensagem que quer passar e quando. Além disso, economize o tempo da equipe durante incidentes com as respostas automatizadas de dentro de tickets enviados direto ao cliente.
5. Escalonar para os respondentes certos
É bem comum que os respondentes iniciais precisem trazer outras equipes para o incidente enviando mensagens a elas pelas funções de alerta do Jira Service Management. Traga os respondentes direto ao ticket do incidente agrupando os tickets relacionados e marcando os respondentes relevantes nos tickets. Assim, as notificações são coordenadas e todos têm o contexto completo.
6. Delegar funções de resposta a incidentes
À medida que membros da equipe adicionais se juntam à resposta, o gerenciador de incidentes delega uma função a eles. É nesse momento que é útil ter esquemas táticos de resposta a incidentes adequados — desenvolvidos de antemão — que descrevam funções e responsabilidades com clareza. As pessoas da equipe de resposta a incidentes estão familiarizadas com cada função e sabem pelo que são responsáveis durante um incidente.
7. Resolver o incidente
Um incidente é resolvido quando o impacto atual ou iminente nos negócios estiver encerrado. Nesse momento, o processo de resposta emergencial é encerrado e a equipe muda para qualquer tarefa de limpeza e análise retrospectiva.
O ideal é que a solução de gerenciamento de incidentes mantenha a consistência na linha do tempo do incidente — que é o que o Jira Service Management faz. Os respondentes podem acessar dados cruciais de incidentes após as ocorrências e desenvolver relatórios que ajudam as equipes a evitar incidentes parecidos no futuro e a encontrar a fonte da causa. Análises retrospectivas também podem servir como recursos, caso uma situação parecida aconteça de novo.
O ciclo de vida de resposta a incidentes do NIST
Outro ciclo de vida padrão de resposta a incidentes do setor vem do NIST. O NIST é um órgão governamental dos EUA que estabelece padrões e práticas em torno de tópicos como resposta a incidentes e segurança cibernética.
NIST é a sigla em inglês para National Institute of Standards and Technology. O órgão americano se autoproclama com orgulho como "um dos laboratórios de ciências físicas mais antigos do país". O órgão trabalha em tudo que envolve tecnologia, incluindo segurança cibernética, tópico em que se tornaram uma das referências do setor para resposta a incidentes com as etapas de resposta a incidentes criadas pelo órgão.
Como a Atlassian, o NIST acredita que nem todos os incidentes podem ser evitados. Então é melhor estar preparado:
"As atividades preventivas baseadas nos resultados das avaliações de risco podem diminuir o número de incidentes, mas nem todos os incidentes podem ser evitados. Uma capacidade de resposta a incidentes é, portanto, necessária para detectar com rapidez incidentes, minimizar perdas e destruição, mitigar as fraquezas que foram exploradas e restaurar os serviços de TI", NIST.
O ciclo de vida de resposta a incidentes do NIST divide a resposta a incidentes em quatro fases principais: preparação, identificação e análise, contenção, erradicação e recuperação e atividade pós-evento.
Fase 1: Preparação
A fase de preparação abrange o trabalho que a empresa faz para se preparar para a resposta a incidentes, incluindo o estabelecimento das ferramentas e recursos certos e treinamento da equipe. Essa fase inclui o trabalho para evitar que incidentes aconteçam.
Fase 2: Identificação e análise
Identificar e avaliar incidentes com precisão é muitas vezes a parte mais difícil da resposta a incidentes para muitas empresas, de acordo com o NIST.
Fase 3: Contenção, erradicação e recuperação
Essa fase se concentra em manter o impacto do incidente o menor possível e mitigar as interrupções de serviço.
Fase 4: Atividade pós-evento
Aprender e melhorar após um incidente é uma das partes mais importantes da resposta a incidentes e a mais ignorada com frequência. Nessa fase, são analisados o incidente e os esforços de resposta a incidentes. Os objetivos são limitar as chances de o incidente acontecer de novo e identificar maneiras de melhorar a atividade futura de resposta a incidentes.
Resposta a incidentes para equipes de DevOps modernas
Na última década, o movimento DevOps ajudou as equipes a remodelar a forma como elas criam, implementam e operam software. Junto dessas ações, estão as inovações sobre como essas equipes respondem a incidentes.
A abordagem de DevOps para gerenciar incidentes não é muito diferente das etapas tradicionais para o gerenciamento de incidentes eficaz. O gerenciamento de incidentes do DevOps inclui uma ênfase explícita no envolvimento de equipes de desenvolvedores desde o início, inclusive de plantão, e na atribuição de trabalhos com base em conhecimentos especializados e não em cargos.
Resposta a incidentes e melhoria contínua
O artigo começou destacando ciclos versus linhas retas. Você vai notar algo que todas essas abordagens de gerenciamento de incidentes têm em comum: elas não são lineares. Cada uma delas inclui os mesmos componentes básicos: formas de definir, detectar e identificar incidentes, formas de responder e agir com rapidez para mitigar incidentes e formas de analisar incidentes para melhorar a detecção e resposta futuras. Não faz sentido analisar um incidente que já aconteceu apenas por causa do incidente em si. Você não pode voltar no tempo e mudar o que aconteceu. Você aprende com o incidente para melhorar a detecção e a resposta futuras. Aprendizado e melhoria constantes e contínuas é como as equipes fecham esse ciclo.
Há muitas partes dinâmicas no processo (não linear) de resposta a incidentes. Acompanhar cada parte com colaboração integrada e ferramentas de comunicação é fácil com uma solução de gerenciamento de incidentes como o Jira Service Management. Centralize alertas e unifique equipes com flexibilidade para responder e resolver incidentes com rapidez.
Configuração de um on-call schedule com o Opsgenie
Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.
Leia este tutorialPrós e contras de diferentes abordagens ao gerenciamento de plantão
As equipes de plantão estão evoluindo com rapidez. Explore os prós e contras de diferentes abordagens ao gerenciamento de plantão.
Leia este artigo