Gerenciamento de incidentes para equipes de alta velocidade
Pôr o caos em ordem: a função do responsável pela gestão de incidentes
Quem é o responsável pela gestão de incidentes (IC) e por que você precisa dele?
Não é segredo que os incidentes graves tenham um grande impacto nos resultados da empresa. É por essa razão que o gerenciamento de incidentes é parte essencial e em constante evolução de qualquer prática de ITSM. Mas quando um incidente ocorre, quem é responsável por deixar os sistemas funcionando de novo?
Muitas vezes, a resposta geral é TI ou DevOps. Mas não importa qual departamento ou departamentos lidam com incidentes graves, quem está no comando da resolução, em geral, é o responsável pela gestão de incidentes.
Quem é o responsável pela gestão de incidentes?
O responsável pela gestão de incidentes — também conhecido como gerenciador de incidentes — é o membro da equipe de TI ou DevOps responsável por gerenciar a resposta a incidentes. A prioridade dessa pessoa é direcionar o incidente para a resolução o mais rápido e completo possível, gerenciando os recursos, o plano e a comunicação envolvidos na resolução.
O termo também é usado por bombeiros e equipes de resposta a emergências dos EUA e, embora o risco seja muito maior nesses cenários, a função permanece a mesma. O responsável pela gestão de incidentes é sempre a pessoa que tem a palavra final sobre todas as ações relacionadas ao incidente.
Por que as equipes precisam do responsável pela gestão de incidentes?
O responsável pela gestão de incidentes é o principal ponto de contato e fonte de informações sobre o incidente. Ele vê o panorama geral, gerencia todas as peças em jogo, sabe o que foi experimentado e o que ainda está no radar e planeja e gerencia as etapas seguintes.
Sem um responsável pela gestão de incidentes, a comunicação e o trabalho em equipe deixam de funcionar. As equipes passam a fazer trabalho repetido sem saber, esquecem preocupações de visão geral e não conseguem se comunicar com rapidez e precisão com usuários do sistema, interessados internos, liderança e entre si. Quanto maior e mais complexa a tecnologia da empresa ou estruturas de equipe forem, mais essencial essa função é para uma prática saudável de gerenciamento de incidentes.
Deveres do responsável pela gestão de incidentes
Preparação de incidentes
Os responsáveis pela gestão de incidentes são responsáveis por configurar canais de comunicação, convidar as pessoas apropriadas para esses canais durante um incidente e treinar os membros da equipe com as práticas recomendadas não só para o gerenciamento de incidentes, mas também para a comunicação durante um incidente.
Tomada de decisão
Os ICs são responsáveis por avaliar com rapidez um incidente e tomar decisões sobre o que fazer, quais membros da equipe são necessários e quais ações vêm a seguir em todas as etapas do processo de resolução. Eles devem ser bons ouvintes, capacitados em reunir, sintetizar e priorizar recomendações de especialistas.
Os melhores responsáveis pela gestão de incidentes são tomadores de decisão confiantes com habilidades sólidas de resolução de problemas.
Atribuição de tarefas
Os ICs devem delegar tarefas às equipes e saber quando expandir a equipe, adicionando outros desenvolvedores, especialistas em comunicação etc.
Supervisão
Enquanto os desenvolvedores se desdobram para descobrir o que causou o incidente e buscar uma solução no código, o responsável pela gestão de incidentes deve observar o panorama geral. O que já foi tentado? O que funcionou da última vez? Qual é a melhor etapa seguinte se a estratégia atual não funcionar?
Os responsáveis pela gestão de incidentes são encarregados de supervisionar o processo do início ao fim, fazer as perguntas certas, obter relatórios frequentes de status de cada membro da equipe e priorizar as etapas seguintes.
Alinhamento da equipe
Quanto maior for o incidente, maior a probabilidade de ter várias equipes trabalhando na resolução. Um IC supervisiona a comunicação e garante que todos estejam na mesma sintonia. Ele também deve manter as conversas focadas e breves para minimizar o tempo de resolução.
Gerenciamento do pânico
Incidentes são riscos elevados, eventos de estresse elevado — e estudos mostram que pessoas estressadas tomam as piores decisões. É por esse motivo que parte do trabalho do responsável pela gestão de incidentes é manter as equipes calmas e focadas.
O IC deve ser capaz de retirar pessoas muito estressadas da equipe de incidentes, chamar a atenção se for necessário e fazer com que o foco volte para a tarefa em questão. Ele também deve, sempre que possível, retirar qualquer esforço estressante das equipes, cortando o fluxo constante de perguntas e pânico vindo de interessados internos e externos.
Escalonamento e gerenciamento de recursos
Quando necessário, os responsáveis pela gestão de incidentes são encarregados de escalonar itens para desenvolvedores mais seniores ou especializados e/ou adotar recursos adicionais para acelerar a resolução.
Planejamento
Antes e durante um incidente, o IC deve ter as etapas seguintes e planos de apoio prontos para implementar.
Análises retrospectivas
Depois de resolver o incidente, o responsável pela gestão de incidentes se encarrega do processo de análise retrospectiva, incluindo a criação de documentos em que as equipes podem compartilhar as ideias, planejar reuniões de análise retrospectiva e fazer recomendações sobre como prevenir ou diminuir o impacto de incidentes futuros.
Como se tornar um responsável pela gestão de incidentes
As responsabilidades centrais do responsável pela gestão de incidentes são gerenciamento de recursos, comunicação e resolução de problemas. Qualquer pessoa com essas habilidades — da liderança sênior até os internos — pode se tornar um ótimo responsável pela gestão de incidentes.
Os requisitos para responsáveis pela gestão de incidentes costumam incluir:
- Fortes habilidades de comunicação
- Um conhecimento de alto nível das melhores práticas e sistemas de gerenciamento de incidentes
- Habilidades de resolução de problemas
- A capacidade de tomar decisões rápidas e confiantes
- Habilidades de audição e síntese
- Experiência anterior com grandes incidentes (como participante ou observador)
- Habilidades de liderança — a capacidade de assumir o comando em uma situação de alto estresse
Antes de se tornar um responsável pela gestão de incidentes, a maioria das empresas vai fazer com que você fique na sombra de outros ICs para pegar o ritmo. Nesses casos, a melhor prática é assistir e aprender em silêncio e reter quaisquer perguntas até que o incidente seja resolvido.
Práticas recomendadas para responsáveis pela gestão de incidentes
Acompanhe as práticas recomendadas do setor
Como os responsáveis pela gestão de incidentes são encarregados de orientar as equipes com sucesso durante os incidentes, eles devem estar bem familiarizados com as práticas recomendadas de resposta a incidentes e práticas recomendadas de comunicação de incidentes. O Manual de gerenciamento de incidentes da Atlassian é outro recurso útil.
Planeje com antecedência
Também é essencial ter um plano estratégico para incidentes antes que eles aconteçam. Quanto mais bem documentado for o processo pré-incidente, mais fácil vai ser para o IC e as equipes seguirem no ambiente de estresse mais intenso e maior criado por um incidente.
Conheça as equipes
Entender a dinâmica da equipe e os pontos fortes e fracos das pessoas proporciona uma melhor atribuição e resolução mais rápida de incidentes.
Foque na tarefa
Mesmo durante um incidente grave, as chamadas de equipe e as conversas do Slack podem sair do controle. O IC deve estar pronto para parar desvios e reorientar a equipe na tarefa em questão.
Às vezes, um aviso verbal ou por escrito é suficiente. Às vezes, é preciso retirar pessoas da equipe ou adicionar novas. Os melhores ICs estão dispostos a desligar uma chamada com o CEO ou chefe se estiverem se tornando uma distração.
Mantenha a calma
Os melhores ICs são pessoas que podem manter a calma e o foco durante uma crise. Se não for natural para um IC, é algo que pode ser praticado e melhorado.
Priorize análises retrospectivas
Depois de resolver o incidente, o IC deve fazer análises retrospectivas livres de culpa a fim de identificar como a equipe pode melhorar o gerenciamento de incidentes e sistemas globais no futuro. Os melhores ICs não só guiam os incidentes com calma em direção à resolução. Eles também trabalham para ajudar a empresa a aprender com o incidente e fazer melhorias.
Conclusão
Todo responsável pela gestão de incidentes pode se beneficiar de um bom serviço de gerenciamento de soluções. O Jira Service Management aprimora a comunicação, centraliza os alertas e incorpora os artigos da base de conhecimento.
Configuração de um on-call schedule com o Opsgenie
Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.
Leia este tutorialPrós e contras de diferentes abordagens ao gerenciamento de plantão
As equipes de plantão estão evoluindo com rapidez. Explore os prós e contras de diferentes abordagens ao gerenciamento de plantão.
Leia este artigo