Close

Gerenciamento de incidentes para equipes de alta velocidade

O que é gerenciamento de incidentes?

O gerenciamento de incidentes é o processo usado pelas equipes de operações de desenvolvimento e TI para responder a um evento ou interrupção de serviço não planejada e restaurar o serviço ao estado operacional.

Na Atlassian, um incidente é um evento que causa interrupção ou redução na qualidade de um serviço que requer uma resposta de emergência. As equipes que seguem as práticas da ITIL ou do ITSM podem usar o termo incidente grave.

Manual de gerenciamento de incidentes

Obtenha o Manual de Gerenciamento de Incidentes

Baixe o PDF para conhecer os princípios e as práticas de gerenciamento de incidentes e como aplicar essas lições usando o Jira Service Management.

Os incidentes são eventos de qualquer tipo que interrompem ou reduzem a qualidade do serviço (ou ameaçam ter esse efeito). Um aplicativo de negócios que deixa de funcionar é um incidente. Um servidor da web muito lento também pode ser um incidente. A execução está muito lenta e afetando a produtividade. Pior ainda, ele apresenta o risco ainda maior de falha total. Os incidentes podem variar muito em gravidade, de uma falha no serviço web global a um pequeno número de usuários com erros intermitentes.

Um incidente é resolvido quando o serviço afetado volta a funcionar no estado pretendido. Estão incluídas apenas as tarefas necessárias para atenuar o impacto e restaurar a funcionalidade.

A importância do gerenciamento de incidentes

Valores do gerenciamento de incidentes

Valores do gerenciamento de incidentes da Atlassian

O gerenciamento de incidentes é um dos processos mais importantes que uma empresa precisa acertar. As interrupções de serviço podem custar caro para os negócios e as equipes precisam de uma maneira eficiente de responder e resolver esses itens com rapidez. As equipes precisam de um método confiável para priorizar incidentes, chegar à resolução com mais rapidez e oferecer um serviço melhor aos usuários.

Quando as equipes enfrentam um incidente, elas precisam de um plano que as ajude a:

  • Responder com eficácia para que possam se recuperar com rapidez.
  • Estabelecer com clareza a comunicação com os clientes, interessados, proprietários de serviços e outros na empresa.
  • Colaborar com eficácia para resolver o item com mais rapidez como equipe e remover barreiras que impedem que elas resolvam o item.
  • Fazer melhorias com continuidade para aprender com essas interrupções e aplicar as lições para melhorar um serviço e refinar o processo para o futuro.

Quer ver como a Atlassian lida com incidentes graves? A gente publicou o manual interno de gerenciamento de incidentes. Fique à vontade para aprender com ele, adaptá-lo e usá-lo como quiser.

Tipos de processos de gerenciamento de incidentes

Tipos diferentes de empresas tendem a gravitar em direção a tipos diferentes de processos de gerenciamento de incidentes. Nenhum processo único é o melhor para todas as empresas, então é provável que você veja várias abordagens em empresas diferentes.

Muitas equipes contam com um processo de gerenciamento de incidentes de TI mais tradicional, como os descritos nas certificações ITIL. Outras equipes se voltam para um processo de gerenciamento de incidentes mais no estilo de Engenheiro de confiabilidade do site (SRE) ou DevOps.

Processo de gerenciamento de incidentes de TI

Um processo de gerenciamento de incidentes ajuda as equipes de TI a investigar, registrar e resolver interrupções ou paralisações de serviço. O fluxo de trabalho de gerenciamento de incidentes da ITIL visa reduzir o tempo de inatividade e minimizar o impacto na produtividade dos funcionários decorrentes de incidentes. Com o uso de templates criados para gerenciar incidentes, você pode criar um fluxo de trabalho de gerenciamento de incidentes repetível que garante que as equipes registrem, diagnostiquem e resolvam incidentes, mantendo um registro das atividades.

A estrutura da ITIL é usada em particular por equipes de TI que executam serviços dentro das empresas. Em geral, as equipes pegam o que precisam da ITIL, que abrange quase todos os tipos de incidentes, itens e processos que as equipes de TI podem enfrentar e descartam o restante. A ITIL é ótima quando as equipes precisam se concentrar em cultivar uma cultura de solução de problemas ativa. Os processos prescritos ajudam as equipes a rastrear incidentes e ações com consistência, o que melhora os relatórios e análises e pode levar a um serviço mais saudável e uma equipe mais bem-sucedida.

Etapas no processo de gerenciamento de incidentes de TI

Identificar e registrar um incidente

Um incidente pode vir de qualquer lugar: um funcionário, um cliente, um fornecedor, sistemas de monitoramento. Não importa a origem, as primeiras duas etapas são simples: alguém identifica um incidente e, depois, alguém o registra. Esses registros de incidente (ex.: tickets) costumam incluir:

  • O nome da pessoa que relatou o incidente
  • A data e hora que o incidente foi relatado
  • Uma descrição do incidente (o que está inativo ou não funciona direito)
  • Um número de identificação exclusivo atribuído ao incidente para o rastreamento

Categorizar

Atribua uma categoria (e subcategoria, conforme a necessidade) lógica e intuitiva a cada incidente. Fazendo assim, você possibilita a análise de dados em busca de tendências e padrões, o que é uma parte essencial de um gerenciamento de problemas efetivo e da prevenção de incidentes futuros.

Priorize

Cada incidente deve ser priorizado. Comece avaliando o impacto nos negócios, o número de pessoas que vão ser afetadas e os SLAs aplicáveis, assim como as possíveis implicações financeiras, de segurança e conformidade do incidente. Compare esse incidente com todos os outros incidentes abertos para determinar a prioridade relativa. Como prática recomendada, defina os níveis de gravidade e prioridade antes que um incidente ocorra, facilitando aos gerenciadores de incidentes medir a prioridade com rapidez.

Responder

  • Diagnóstico inicial: em uma situação ideal, a equipe de suporte de linha de frente pode ver um incidente do diagnóstico ao fechamento, mas se não for possível, a etapa seguinte é registrar todas as informações pertinentes e escalonar para a próxima equipe de nível.
  • Escalonar: a equipe seguinte assume os dados registrados e continua com o processo de diagnóstico. Se essa equipe não conseguir diagnosticar o incidente, ela vai escalonar para a próxima.
  • Comunicar: a equipe compartilha com frequência atualizações com interessados afetados, tanto internos quanto externos.
  • Investigação e diagnóstico: continua até que a natureza do incidente seja identificada. Às vezes, as equipes utilizam recursos externos ou outros membros do departamento para consultar e ajudar com a resolução.
  • Resolução e recuperação: nessa etapa, a equipe chega a um diagnóstico e realiza as etapas necessárias para resolver o incidente. A recuperação implica a quantia de tempo que pode levar para que as operações sejam restauradas por completo, uma vez que algumas correções (como correções de bugs etc.) podem exigir teste e implementação mesmo após a resolução adequada ser identificada.
  • Encerramento: se o incidente tiver sido escalonado, ele retorna à central de atendimento para ser encerrado. Para manter a qualidade e garantir um processo sem problemas, apenas os funcionários da central de atendimento têm permissão para encerrar incidentes e o proprietário do incidente deve verificar com a pessoa que relatou o incidente se a resolução é satisfatória e o incidente pode, de fato, ser encerrado.

Processo de gerenciamento de incidentes de DevOps e SRE

Com uma abordagem DevOps ou SRE para o gerenciamento de incidentes, a equipe que cria o serviço também o executa e o corrige se ele parar de funcionar. Essa abordagem ganhou popularidade com o crescimento de serviços contínuos de nuvem, aplicativos web acessados em todo mundo, microsserviços e software como serviço.

Cada vez mais, o software em que você confia para a vida e o trabalho não está hospedado em um servidor na mesma localização física que você. É provável que seja um aplicativo acessado pela web implementado em um data center para milhares ou milhões de usuários em todo o mundo. Para equipes encarregadas de executar esses serviços, agilidade e velocidade são fundamentais. Qualquer tempo de inatividade tem o potencial de afetar milhares de empresas, não apenas uma.

Uma vantagem da abordagem “você cria, você gerencia” é que ela oferece a flexibilidade que as equipes ágeis precisam, mas também pode deixar confuso quem é responsável pelo quê e quando. As equipes de DevOps podem ficar confortáveis e bem-sucedidas com processos de desenvolvimento menos estruturados. Mas é melhor padronizar um conjunto central de processos para o gerenciamento de incidentes, para que não haja perguntas de como responder no calor de um incidente e para que você possa acompanhar itens e relatar como eles são resolvidos.

Três crenças das equipes de gerenciamento de incidentes para DevOps

  • Faça revezamentos no plantão: em vez de certos membros da equipe especializados em estar de plantão, as equipes de DevOps revezam de acordo com um cronograma de plantão, onde todos os membros compartilham a possibilidade de serem acordados à noite para responder a um incidente.
  • O engenheiro que criou é a melhor pessoa para corrigir: a ideia central do princípio "você cria, você gerencia" é que as pessoas mais familiarizadas com o serviço (os criadores) são as mais bem equipadas para corrigir uma interrupção.
  • Crie com velocidade, mas pratique com responsabilidade: quando os engenheiros sabem que eles e os colegas de equipe estão encarregados durante as interrupções, há um incentivo adicional para garantir que você implemente código de qualidade.

Essa abordagem garante tempos de resposta e feedback mais rápidos para as equipes que precisam saber como criar um serviço confiável.

A gente descreve uma abordagem favorável a DevOps para o gerenciamento de incidentes no Manual de incidentes da Atlassian.

Ferramentas de gerenciamento de incidentes

O gerenciamento de incidentes não é feito apenas com uma ferramenta, mas com a combinação certa de ferramentas, práticas e pessoas. Veja abaixo várias das categorias de ferramentas mais comuns para o gerenciamento de incidentes efetivo:

  • Rastreamento de incidentes: cada incidente deve ser rastreado e documentado para que você possa identificar tendências e fazer comparações ao longo do tempo.
  • Sala de bate-papo: a comunicação de texto em tempo real é crucial para diagnosticar e resolver o incidente como uma equipe. E propicia um conjunto rico de dados para análise de resposta mais tarde.
  • Bate-papo por vídeo: o bate-papo por vídeo complementa o bate-papo de texto para muitos incidentes. A equipe do bate-papo por vídeo pode ajudar a discutir os resultados e mapear uma estratégia de resposta.
  • Sistema de alerta: uma ferramenta como o Jira Service Management se integra ao sistema de monitoramento e gerencia rotações e escalonamentos de plantão.
  • Ferramenta de documentação: uma ferramenta como o Confluence pode capturar documentos de estado de incidentes e análises retrospectivas.
  • Statuspage: a comunicação do status com interessados internos e com os clientes por meio do Statuspage ajuda a manter todos informados.

Tópicos sobre gerenciamento de incidentes

Tutoriais apresentados

Quer saber mais sobre o gerenciamento de incidentes no Jira Service Management?

Registre-se para ver mais artigos e tutoriais

Thank you for subscribing