Close

Gerenciamento de incidentes para equipes de alta velocidade

Como as equipes estão adotando o ChatOps para o gerenciamento de incidentes

Não é segredo que quanto melhor a comunicação, melhor será o gerenciamento de incidentes.

As equipes com práticas consistentes de comunicação e colaboração resolvem incidentes com mais rapidez, garantindo a satisfação das equipes internas e dos usuários externos. Elas também estão mais bem equipadas para post mortems que ajudam a identificar os problemas principais e a prevenir novos incidentes.

Por esta razão, não é surpresa que o ChatOps tenha se tornado parte integrante dos processos de muitas equipes de gerenciamento de incidentes.

Por que o ChatOps

Como Sean Regan, chefe de marketing dos produtos Jira e Bitbucket, explica, ChatOps são conversas colocadas em prática:

“O ChatOps é um modelo de colaboração que conecta pessoas, ferramentas, processos e automação em um fluxo de trabalho transparente.Esse fluxo conecta o trabalho necessário, o trabalho que está acontecendo e o trabalho realizado em um local persistente, equipado com pessoas, bots e ferramentas relacionadas. A transparência aperta o ciclo de feedback, melhora o compartilhamento de informações e aprimora a colaboração na equipe. Sem falar na cultura da equipe e no treinamento cruzado…"

“O chat representa a nova maneira de capturar o conhecimento coletivo de uma equipe e usá-lo para gerar mudanças duradouras na forma como os produtos são entregues e como as pessoas trabalham juntas. Quando falamos sobre este fato, não parece que possa haver uma mudança real, mas depois que você começar a trabalhar desse modo, não terá mais volta”.

Como o ChatOps funciona no gerenciamento de incidentes?

No contexto do gerenciamento de incidentes, o ChatOps coloca o fluxo de trabalho de incidentes em um só lugar para manter as equipes ágeis e alinhadas.

Ele centraliza toda a comunicação sobre incidentes, relatórios de incidentes, planos e progressos, mantendo todos atualizados em tempo real. Além de que, ele oferece um lugar para equipes de DevOps, TI, comunicações, segurança, legais e outras relevantes colaborarem não apenas na resolução de incidentes, mas também na prevenção de novos incidentes e na mitigação de riscos.

Quebre os silos de informações durante incidentes

Todos têm acesso às mesmas informações

Quanto mais isoladas são as conversas sobre o incidente, maior a chance de erros de comunicação que prejudicam o progresso do projeto. Colocar todos em uma única sala de chat reduz esse risco.

As conversas ocorrem em tempo real

Logo, todos precisam estar informados e agir, desde os desenvolvedores que resolvem os incidentes até os gerentes de mídia social que tranquilizam os usuários finais, estão sempre atualizados sem demora.

Menos mudança de contexto

Sem o ChatOps, o gerenciamento de incidentes na maioria das vezes acontece entre uma variedade de aplicativos e é comunicado por e-mail, telefone, texto etc. Isso traz muitas mudanças de contexto e exige muita energia mental para acompanhar.

O ChatOps simplifica tudo, ao máximo possível, em um só lugar. Os alertas entram no chat. Os relatórios entram no chat. As conversas são designadas ao chat. Então, só há um lugar que as equipes de incidentes precisam acessar para obter as informações mais recentes.

Chega de "disse que disse" por telefone

Qualquer um que conhece o antigo "disse que disse" por telefone sabe que basta uma ou duas conversas para mudar completamente uma mensagem. O ChatOps elimina esse risco. Quando todos têm acesso às mesmas conversas originais, o risco de erros de comunicação cai significativamente.

Um registro interno de post mortems de incidente por escrito

O que deu errado? Quanto tempo demorou para resolver o incidente? No fim, o que resolveu o problema? A correção é algo que pode ser automatizado no futuro?

Esses são os tipos de perguntas que talvez você vai investigar em um post mortem de incidente. E com um só registro de todas as comunicações, será muito mais fácil responder a elas com clareza e precisão.

Práticas recomendadas de ChatOps para o gerenciamento de incidentes

Conecte o sistema de alertas ao chat

Quanto mais os desenvolvedores precisam entrar e sair de chats para resolver um incidente, mais tempo se perde na troca de tarefas. Ou seja, em vez de enviar alertas por e-mail e telefone durante um incidente, é melhor mandá-los direto para a sala de chat para acelerar o processo de resolução do incidente.

Defina limites inteligentes para seus alertas

O excesso de alertas é uma ameaça muito real, principalmente no meio de um incidente grave. Então, quando sugerimos o envio de alertas direto para o chat, não queremos dizer todos os alertas.

Quais alertas vão ajudar a equipe a responder com rapidez e integridade a um incidente? Quais alertas são desnecessários? Quais alertas estão duplicados?

Faça essas perguntas com antecedência e defina limites de alerta inteligentes no chat para manter tudo simplificado e reduzir o risco de que as equipes percam algo importante devido ao excesso de alertas. Uma ferramenta como o OpsGenie permite configurar quais ações são enviadas a uma sala de chat e filtrar os alertas com base em suas propriedades.

Configure uma sala separada para cada incidente grave

As equipes que lidam com incidentes graves não deveriam precisar se preocupar com o acúmulo de trabalho causado por incidentes menores, chats diários ou outros incidentes que não sejam tão importantes na lista de prioridades. Faça com que cada incidente grave tenha sua própria sala dedicada.

Colocar as ações no chat

Combinando, por exemplo, o Slack e o OpsGenie, o chat de gerenciamento de incidentes pode ser muito mais do que apenas um canal de comunicação. No chat, você pode habilitar comandos de texto ou botões que executam ações em incidentes, como atribuir alertas, assumir a responsabilidade, incluir observações, silenciar incidentes ou até mesmo criar novos alertas.

Convidar várias equipes

Muitas vezes há várias equipes e funções que precisam estar sempre informadas sobre um incidente em tempo real, como líderes de DevOps, TI e comunicação, gerentes de mídia social e até equipes jurídicas e de segurança. Descubra quem são essas equipes e funções e coloque-as no chat com antecedência.

Priorizar a segurança

Deixe o chat sempre seguro e escolha as pessoas que têm acesso para tomar ações.

Salvar as transcrições do chat

Depois que o incidente é resolvido, é hora do post mortem, e o ChatOps simplifica o processo. Uma sala individual onde toda a comunicação do incidente acontece significa que, após o término do incidente, você tem um registro completo de todas as conversas, as ações, os alertas e os relatórios, tudo em um só lugar. Você pode salvar esse registro para referência futura, usá-lo para atualizar seus esquemas táticos de incidentes e analisá-los melhor durante o post mortem para encontrar maneiras de evitar ou mitigar o risco futuro de incidentes semelhantes.

Visualização de PDF

Seis itens indispensáveis ao usar o Slack no gerenciamento de incidentes

Saiba mais sobre o ChatOps, seis recursos importantes das integrações de chat para soluções de gerenciamento de incidentes e a comparação das integrações do Slack usadas pelos principais agentes no gerenciamento de incidentes.

Up Next
ITSM