Gerenciamento de incidentes para equipes de alta velocidade
A mudança nas funções de gerenciamento de incidentes e de problemas
Na última década, o gerenciamento de incidentes mudou muito.
As diretrizes de ITIL foram atualizadas. As equipes de TI começaram a compartilhar responsabilidades com DevOps e SecOps. Sistemas cada vez mais complicados levaram a soluções de gerenciamento de incidentes mais complicadas. E muitas empresas estão adotando o post mortem sem repreensão e novas formas de medir o desempenho.
Conforme o gerenciamento de incidentes muda e evolui, este fato também acontece com seu primo, o gerenciamento de problemas, e com a relação entre as duas práticas.
O que é um problema e como ele se difere de um incidente?
A ITIL define assim: um problema é "uma causa ou uma possível causa, de um ou mais incidentes".
E um incidente é um único evento não planejado que causa a interrupção do serviço.
Em outras palavras, os incidentes são os episódios desagradáveis que os funcionários de plantão em geral lutam para resolver completamente e com a maior rapidez possível. E os problemas são a causa raiz desses eventos prejudiciais.
Um problema pode causar um só incidente ou vários incidentes. E um incidente pode ser rastreado por um só problema ou, às vezes, a vários problemas.
![Coluna de servidores com um caindo e causando problemas](https://wac-cdn.atlassian.com/dam/jcr:4682c2cf-020e-4e49-aca8-f89e9e45c7d5/problem%20and%20incident%20management@2x.png?cdnVersion=2022)
Por exemplo, a interrupção de cinco horas que custou US$ 150 milhões à Delta Airlines em 2016 foi um incidente. O problema que causou esse incidente foi a falta de energia em um centro de operações e, talvez, a ausência de um plano de backup para casos de falta de energia.
Da mesma forma, a interrupção de 12 horas da App Store que custou à Apple cerca de US$ 25 milhões foi um incidente. O problema por trás disso? Um problema de DNS.
Usando esses termos fora do contexto da tecnologia: correr para o médico com enxaqueca seria um incidente. A causa da enxaqueca, como alergias, problemas de visão ou estresse, seria o problema.
Gerenciamento de problemas vs. gerenciamento de incidentes
É claro, problemas e incidentes estão intrinsecamente ligados. Um causa o outro e as equipes têm que prestar atenção nos dois.
Para as equipes de TI tradicionais, as diretrizes de ITIL mais recentes exigem o gerenciamento separado de problemas e incidentes. O gerenciamento de problemas é a prática concentrada na prevenção de incidentes ou na redução do impacto deles. O gerenciamento de incidentes concentra-se em abordar os incidentes em tempo real.
O benefício da abordagem de ITIL é que ela prioriza os principais objetivos do gerenciamento de problemas e do gerenciamento de incidentes. Ao separar essas práticas e atribuir igual importância às duas, as diretrizes estão tentando evitar o problema comum em que equipes de TI estão sempre apagando o incêndio dos incidentes sem lidar com a causa raiz deles.
Se o objetivo principal de um gerente de incidentes é a rápida resolução de incidentes e o objetivo principal de um gerente de problemas é a prevenção, a combinação dessas funções pode significar que um desses objetivos, ambos vitais para uma empresa, pode ser prejudicado a favor do outro.
A desvantagem dessa abordagem é que a separação das duas práticas, que são tão ligadas na realidade, pode criar lacunas de conhecimento e a quebra na comunicação entre a resolução do incidente e a análise da causa raiz que leva à causa inerente.
DevOps e a mudança nas funções de gerenciamento de incidentes e problemas
Como de costume, o movimento colaborativo de DevOps ultrapassou os limites do pensamento tradicional de TI, enxergando o gerenciamento de incidentes e problemas não como duas práticas distintas, mas como metades sobrepostas de uma visão abrangente.
![Diagrama de ITIL com círculos separados para o gerenciamento de incidentes e problemas e diagrama de DevOps com diagrama de Venn de gerenciamento de problemas e de incidentes](https://wac-cdn.atlassian.com/dam/jcr:aa5ee505-b78f-47a8-846e-24180fedaffc/second-diagram.png?cdnVersion=2022)
Essa mudança não vem apenas do fato de que as práticas são dois lados da mesma moeda, a prevenção e a resolução de incidentes, mas também da abordagem de DevOps que geralmente afirma o seguinte:
- Em geral, há mais de uma causa raiz de um incidente
- Os post mortems devem ocorrer sem repreensão e incluir todas as equipes afetadas por um incidente
- A colaboração é fundamental para a melhoria contínua
A sobreposição no gerenciamento de incidentes e problemas também pode estar relacionada à mudança de todo o setor para a abordagem “você cria, você gerencia”. Como as equipes que criam sistemas se tornam responsáveis pela resolução de incidentes nesses sistemas, é coerente que a mesma equipe seja responsável por executar post mortems, fazer o trabalho de detetive para chegar à causa raiz de um incidente e fazer recomendações que impeçam ou diminuam o impacto de novos incidentes.
A ponte entre o gerenciamento de incidentes e problemas aqui é o post mortem sem repreensão, no qual após a fase de urgência, os gerentes de incidentes viram detetives e passam para tarefas de gerenciamento e prevenção de problemas.
O principal desafio que as equipes de DevOps que eliminam as diferenças entre essas duas práticas podem enfrentar é garantir que o gerenciamento de problemas, com seus objetivos de longo prazo menos urgentes, mas muito valiosos, não sejam prejudicados a favor da evidente urgência do gerenciamento de incidentes.
É claro que, muitas vezes, é mais fácil falar do que fazer, unir o gerenciamento de incidentes e o gerenciamento de problemas, mas é fundamental encontrar e resolver a causa raiz. Descubra como a solução de gerenciamento de incidentes Jira Service Management oferece às equipes a flexibilidade de colaborarem no trabalho: registre o contexto e crie cronogramas avançados enquanto resolvem incidentes, utilizando isso para ajudar as equipes a gerenciar melhor os problemas.
Configuração de um on-call schedule com o Opsgenie
Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.
Leia este tutorialPrós e contras de diferentes abordagens ao gerenciamento de plantão
As equipes de plantão estão evoluindo com rapidez. Explore os prós e contras de diferentes abordagens ao gerenciamento de plantão.
Leia este artigo