Gerenciamento de incidentes para equipes de alta velocidade
Como criar linhas do tempo de incidentes melhores (e por que são importantes)
À medida que a tecnologia fica mais complexa, o gerenciamento de incidentes também fica. E à medida que o gerenciamento de incidentes fica mais complexo, a documentação e a comunicação também ficam.
É por essa razão que cada vez mais empresas estão adotando linhas do tempo de incidentes — um feed centralizado de atividade de incidentes criado para manter as equipes em sintonia durante um incidente e oferecer um registro que essas mesmas equipes possam usar no pós-incidente para identificar causas raízes e melhorar o desempenho futuro.
O que é uma linha do tempo de incidentes?
A linha do tempo do incidente é um registro completo em tempo real de um incidente. Geralmente inclui entradas manuais (chat), registros consolidados de páginas, alertas, confirmações e atualizações automáticas do sistema (por exemplo, notificação de que alguém alterou o nível de gravidade de um incidente ou o marcou como resolvido). Ele também é sincronizado com frequência com o chat ou com um canal do Slack.
A linha do tempo mantém a equipe em sintonia e os novos membros da equipe informados com rapidez e simplificar o processo de análises retrospectivas de incidentes. O Jira Service Management, a solução de gerenciamento de incidentes da Atlassian, gera um cronograma robusto com uma plataforma personalizável para monitorar o trabalho, pois os cronogramas de incidentes devem refletir todo o escopo da resolução de incidentes com contexto completo. Com recursos como o alerta centralizado, automação flexível, ferramentas de bate-papo integradas e espaços de trabalho colaborativos, um registro automático do cronograma de incidentes é feito à medida que as equipes trabalham em harmonia para resolver incidentes.
"Dê-me uma lista de todas as mudanças feitas no passado, digamos, três dias. Sem um cronograma preciso, não seremos capazes de estabelecer causa e efeito e é provável que acabaremos causando outra interrupção".
— de "O Projeto Fênix",
Gene Kim, Kevin Behr, George Spaffor
O valor de uma linha do tempo do incidente
Uma única visualização em tempo real
Uma das maneiras mais rápidas de um incidente sair do controle é a falta de comunicação entre equipes ou partes interessadas. Uma linha do tempo do incidente atenua esse risco, dando a todos as mesmas informações em uma única visualização em tempo real. Todos — desde os desenvolvedores que trabalham no incidente, a equipe de comunicação responsável por atualizar os usuários até as partes interessadas do C-Suite — podem ficar atualizados sem a necessidade de telefone ou várias threads de e-mail desconexas, chamadas telefônicas e bate-papos.
A visão única em tempo real também torna mais simples para as partes interessadas identificar não apenas o problema central do incidente, mas também riscos e possíveis problemas em sistemas interconectados. Dar acesso a várias equipes a uma linha do tempo facilita identificar possíveis problemas, causas ou riscos em sistemas interconectados.
Análises retrospectivas de incidentes mais robustas
Na Atlassian, as análises retrospectivas de incidentes são uma parte essencial dos processos de gerenciamento de incidentes e problemas. Elas unem as pessoas para descobrir o que aconteceu, por que aconteceu e o que podemos fazer para evitar que aconteça no futuro. Para chegar ao cerne dessas perguntas, é útil ter um registro preciso de tudo o que aconteceu durante um incidente, desde alertas a atualizações das partes interessadas até a correção final.
Para muitas empresas, a linha do tempo do incidente atua como esse registro preciso. Não é apenas uma ferramenta para colaboração em tempo real em incidentes. Também é uma visão única do que aconteceu, quando e às vezes por quê — informações que podem economizar horas e horas para as equipes durante a fase de revisão da análise retrospectiva.
Como saber mais sobre KPIs
Uma linha do tempo de incidentes costuma ajudar as equipes a chegar ao cerne de um único incidente, mas ela é útil para mais coisas. Ela também pode ser usada com linhas do tempo para incidentes semelhantes a fim de ajudar as equipes a identificar padrões e diagnosticar problemas maiores com KPIs importantes.
Se um incidente demorou mais do que a média para ser resolvido, onde estavam os pontos de falha? Como ele coincide com outros incidentes semelhantes? Quais partes do processo precisam de um olhar mais atento? Existe um padrão que pode nos levar a um problema maior com processo, tecnologia ou configuração de equipe? Os alertas são emitidos conforme necessário ou precisamos revisitar os limites de alerta? O cronograma de plantões dá cobertura suficiente aos incidentes? As equipes estão estruturadas da maneira certa?
Uma linha do tempo pode atuar como um único ponto de dados para análise ou um dos muitos pontos de dados em uma investigação sobre itens de SLA e SLO.
Linhas do tempo de incidentes vs. ChatOps
Em geral, as linhas de tempo de incidentes são oferecidas e usadas em sistemas de gerenciamento de incidentes, como o Jira Service Management, para centralizar todas as informações sobre incidentes.
O ChatOps para gerenciamento de incidentes tem o mesmo objetivo. A única diferença é que, em vez de estar alojado em um sistema de gerenciamento de incidentes, o ChatOps normalmente centraliza a linha do tempo em um programa de bate-papo como o Slack, que sincroniza e extrai informações de plataformas de gerenciamento de incidentes, como o Opsgenie e quaisquer outras fontes relevantes.
Os benefícios do ChatOps — acesso às mesmas informações entre as equipes, conversas e atualizações em tempo real, menos mudança de contexto, sem mais jogos de telefone e um registro integrado para análises retrospectivas — são os mesmos benefícios que uma linha do tempo de incidentes promete. A principal diferença é apenas a localização e a quantidade de informações. Para a maioria das equipes de incidentes, o feed do ChatOps em geral tem muito ruído em torno das informações importantes. É útil extrair as informações ricas para a linha do tempo do incidente, mantendo o registro de bate-papos para referência futura se você precisar.
Para saber mais sobre como as equipes podem se beneficiar do ChatOps para resolução de incidentes e dos recursos de gerenciamento de incidentes do Jira Service Management, siga a abaixo.
Aprenda a comunicação de incidentes com o Statuspage
Neste tutorial, você vai ver como usar templates de incidentes para se comunicar com eficácia durante interrupções. Adaptável a muitos tipos de interrupção de serviço.
Leia este tutorialA importância de um processo de análise retrospectiva de incidentes
Uma análise retrospectiva de incidente, também conhecida como revisão pós-incidente, é a melhor maneira de trabalhar o que aconteceu durante um incidente e capturar as lições aprendidas.
Leia este artigo