Close

Gerenciamento de incidentes para equipes de alta velocidade

Conheça o ciclo de vida de resposta a incidentes

Passe um tempo com os profissionais de segurança e gerenciamento de incidentes e você vai notar um padrão. As pessoas mais inteligentes desse setor pensam em ciclos, não em linhas retas.

Por quê? Como assim? A ideia é que cada incidente ou interrupção não é um evento isolado com pontos de início e de fim (apesar de parecer assim). Os incidentes são uma oportunidade de aprendizado.

Só porque um serviço está "operacional" de novo não significa que o trabalho da equipe tenha terminado. As atividades pós-incidentes devem incluir planos em roteiros futuros, mudar a maneira como você se prepara para incidentes futuros e descobrir itens novos a serem criados, os quais vão evitar mais incidentes no futuro. É um ciclo interminável de melhoria e existem algumas maneiras diferentes de pensar sobre as várias etapas, dependendo da escola de pensamento que você se identifica.

O que é um ciclo de vida de resposta a incidentes?

A resposta a incidentes é o processo de uma empresa para reagir a ameaças de TI, como ataques cibernéticos, violação de segurança e tempo de inatividade do servidor.

O ciclo de vida de resposta a incidentes é a estrutura passo a passo da empresa para identificar e reagir a uma interrupção de serviço ou ameaça à segurança.

Ciclo de vida de resposta a incidentes da Atlassian

Gráfico do ciclo de vida de resposta a incidentes da Atlassian

1. Identificar o incidente

Em geral, a identificação de incidentes começa com ferramentas de monitoramento e alerta. Embora às vezes a gente fica sabendo do incidente pelos clientes ou membros da equipe.

Como os alertas de incidentes podem vir de fontes diferentes, ter uma solução que integra diversas ferramentas de alertas e de relatórios pode fazer a diferença entre uma resposta complicada e desconexa e uma resposta colaborativa e coesa. Uma solução como o Jira Service Management permite que as equipes personalizem e filtrem alertas em todas as ferramentas de monitoramento, registros e CI/CD para garantir que as equipes resolvam os incidentes com rapidez, evitando a fadiga de aletas.

2. Definir canais de comunicação da equipe

A primeira etapa importante é estabelecer os canais de comunicação da equipe de incidentes. O objetivo neste momento é focar as comunicações da equipe em locais bem conhecidos, como um canal dedicado do Slack e uma ponte de videoconferência.

No Jira Service Management, coordenar respostas a incidentes é um processo tranquilo. As equipes não apenas podem se comunicar da maneira que funciona melhor para elas — como por Slack ou por videoconferência — como também podem se comunicar com clientes com mais facilidade usando a automação e a personalização. A comunicação externa vai ser abordada no ponto 4.

3. Avaliar o impacto e aplicar um nível de gravidade

Agora é hora de avaliar o impacto do incidente para que a equipe possa decidir com quem mais entrar em contato e o que comunicar aos clientes e interessados. Atribuir níveis de gravidade não apenas identifica o impacto do incidente como também estabelece as bases para os planos de resolução e as comunicações externas. No Jira Service Management, escalar incidentes e atribuir gravidades aciona ações automatizadas e também notifica os respondentes para que eles acompanhem o progresso da resolução.

4. Comunicar aos clientes

O objetivo é comunicar aos interessados internos e externos o mais rápido possível. Comunicar com rapidez e precisão ajuda a criar confiança com os clientes e o restante da empresa. Como mencionado antes, a capacidade de personalizar a comunicação possibilita à equipe trabalhar da maneira que quiser, facilitando resoluções mais rápidas. A capacidade de personalizar a comunicação também permite que a equipe tenha controle da mensagem que quer passar e quando. Além disso, economize o tempo da equipe durante incidentes com as respostas automatizadas de dentro de tickets enviados direto ao cliente.

5. Escalonar para os respondentes certos

É bem comum que os respondentes iniciais precisem trazer outras equipes para o incidente enviando mensagens a elas pelas funções de alerta do Jira Service Management. Traga os respondentes direto ao ticket do incidente agrupando os tickets relacionados e marcando os respondentes relevantes nos tickets. Assim, as notificações são coordenadas e todos têm o contexto completo.

6. Delegar funções de resposta a incidentes

À medida que membros da equipe adicionais se juntam à resposta, o gerenciador de incidentes delega uma função a eles. É nesse momento que é útil ter esquemas táticos de resposta a incidentes adequados — desenvolvidos de antemão — que descrevam funções e responsabilidades com clareza. As pessoas da equipe de resposta a incidentes estão familiarizadas com cada função e sabem pelo que são responsáveis durante um incidente.

7. Resolver o incidente

Um incidente é resolvido quando o impacto atual ou iminente nos negócios estiver encerrado. Nesse momento, o processo de resposta emergencial é encerrado e a equipe muda para qualquer tarefa de limpeza e análise retrospectiva.

O ideal é que a solução de gerenciamento de incidentes mantenha a consistência na linha do tempo do incidente — que é o que o Jira Service Management faz. Os respondentes podem acessar dados cruciais de incidentes após as ocorrências e desenvolver relatórios que ajudam as equipes a evitar incidentes parecidos no futuro e a encontrar a fonte da causa. Análises retrospectivas também podem servir como recursos, caso uma situação parecida aconteça de novo.

O ciclo de vida de resposta a incidentes do NIST

Outro ciclo de vida padrão de resposta a incidentes do setor vem do NIST. O NIST é um órgão governamental dos EUA que estabelece padrões e práticas em torno de tópicos como resposta a incidentes e segurança cibernética.

NIST é a sigla em inglês para National Institute of Standards and Technology. O órgão americano se autoproclama com orgulho como "um dos laboratórios de ciências físicas mais antigos do país". O órgão trabalha em tudo que envolve tecnologia, incluindo segurança cibernética, tópico em que se tornaram uma das referências do setor para resposta a incidentes com as etapas de resposta a incidentes criadas pelo órgão.

Como a Atlassian, o NIST acredita que nem todos os incidentes podem ser evitados. Então é melhor estar preparado:

"As atividades preventivas baseadas nos resultados das avaliações de risco podem diminuir o número de incidentes, mas nem todos os incidentes podem ser evitados. Uma capacidade de resposta a incidentes é, portanto, necessária para detectar com rapidez incidentes, minimizar perdas e destruição, mitigar as fraquezas que foram exploradas e restaurar os serviços de TI", NIST.

O ciclo de vida de resposta a incidentes do NIST divide a resposta a incidentes em quatro fases principais: preparação, identificação e análise, contenção, erradicação e recuperação e atividade pós-evento.

Fase 1: Preparação

A fase de preparação abrange o trabalho que a empresa faz para se preparar para a resposta a incidentes, incluindo o estabelecimento das ferramentas e recursos certos e treinamento da equipe. Essa fase inclui o trabalho para evitar que incidentes aconteçam.

Fase 2: Identificação e análise

Identificar e avaliar incidentes com precisão é muitas vezes a parte mais difícil da resposta a incidentes para muitas empresas, de acordo com o NIST.

Fase 3: Contenção, erradicação e recuperação

Essa fase se concentra em manter o impacto do incidente o menor possível e mitigar as interrupções de serviço.

Fase 4: Atividade pós-evento

Aprender e melhorar após um incidente é uma das partes mais importantes da resposta a incidentes e a mais ignorada com frequência. Nessa fase, são analisados o incidente e os esforços de resposta a incidentes. Os objetivos são limitar as chances de o incidente acontecer de novo e identificar maneiras de melhorar a atividade futura de resposta a incidentes.

Resposta a incidentes para equipes de DevOps modernas

Na última década, o movimento DevOps ajudou as equipes a remodelar a forma como elas criam, implementam e operam software. Junto dessas ações, estão as inovações sobre como essas equipes respondem a incidentes.

A abordagem de DevOps para gerenciar incidentes não é muito diferente das etapas tradicionais para o gerenciamento de incidentes eficaz. O gerenciamento de incidentes do DevOps inclui uma ênfase explícita no envolvimento de equipes de desenvolvedores desde o início, inclusive de plantão, e na atribuição de trabalhos com base em conhecimentos especializados e não em cargos.

Resposta a incidentes e melhoria contínua

O artigo começou destacando ciclos versus linhas retas. Você vai notar algo que todas essas abordagens de gerenciamento de incidentes têm em comum: elas não são lineares. Cada uma delas inclui os mesmos componentes básicos: formas de definir, detectar e identificar incidentes, formas de responder e agir com rapidez para mitigar incidentes e formas de analisar incidentes para melhorar a detecção e resposta futuras. Não faz sentido analisar um incidente que já aconteceu apenas por causa do incidente em si. Você não pode voltar no tempo e mudar o que aconteceu. Você aprende com o incidente para melhorar a detecção e a resposta futuras. Aprendizado e melhoria constantes e contínuas é como as equipes fecham esse ciclo.

Há muitas partes dinâmicas no processo (não linear) de resposta a incidentes. Acompanhar cada parte com colaboração integrada e ferramentas de comunicação é fácil com uma solução de gerenciamento de incidentes como o Jira Service Management. Centralize alertas e unifique equipes com flexibilidade para responder e resolver incidentes com rapidez.

a seguir
Playbook