Gerenciamento de incidentes para equipes de alta velocidade
O que são alertas de incidentes de TI?
Os alertas de incidentes ocorrem quando as ferramentas de monitoramento geram alertas para notificar a equipe sobre mudanças, ações de alto risco ou falhas no ambiente de TI.
Por exemplo, um sistema desenvolvido para permitir que os médicos prescrevam medicamentos pode gerar um alerta se a dose prescrita pelo médico for muito alta, não correspondendo ao peso corporal listado no histórico do paciente, ou se representar um risco de interação medicamentosa com outros medicamentos comuns.
Da mesma forma, um sistema criado para monitorar um produto de tecnologia pode gerar um alerta se um sistema ficar off-line, se o processamento de solicitações da web estiver levando mais tempo do que o normal ou se a latência do banco de dados diminuir além de um limite definido.
O objetivo dos alertas de TI é identificar e resolver com rapidez itens que afetam a disponibilidade, a velocidade e a funcionalidade do produto, em tempo integral e sem monitoramento manual.
Por que os alertas de TI são importantes?
À medida que a importância dos sistemas sempre disponíveis continua a aumentar, o custo do tempo de inatividade também aumenta. Especialistas estimam um custo médio entre US$ 5.600 e US$ 9.000 por minuto. Como cada minuto de falha do sistema é tão caro, identificar itens antes de saírem do controle tem grande impacto nos resultados da empresa (sem falar nos horários e os níveis de estresse das equipes de TI).
Os alertas de TI são a primeira linha de defesa contra interrupções ou alterações do sistema que podem se transformar em incidentes graves. Ao usar recursos automáticos para monitorar os sistemas e gerar alertas para interrupções e alterações arriscadas, as equipes de TI podem minimizar o tempo de inatividade e o alto custo que vem com ele.
Práticas recomendadas de alertas
Não se pode negar que os alertas de TI são uma parte importante do gerenciamento de incidentes, mas a verdade é que eles não são apenas uma solução simples que você configura e deixa de lado. Definir limites de alerta muito baixos pode levar a caixas de entrada sempre lotadas, equipes de plantão infelizes e fadiga de alertas. Definir limites muito altos pode levar a não identificação de itens essenciais e custo de milhões para a empresa.
É por essa razão que os sistemas de alertas de TI mais eficazes são configurados com essas práticas recomendadas em mente.
Automatize o monitoramento
A melhor maneira de identificar itens com rapidez e eficácia é automatizar o monitoramento.
O banco de dados está respondendo mais devagar do que o habitual? Os usuários estão enfrentando tempos de carregamento mais lentos do que a média no aplicativo? Algum sistema essencial parou de funcionar? Um dos técnicos fez uma solicitação que parece um sinal vermelho? O sistema deveria acompanhar itens como os mencionados acima no automático e informar quando eles surgem.
Estabeleça limites de alertas inteligentes
Todo alerta precisa de atenção imediata? Para a maioria das empresas, a resposta é não, e é por esse motivo que você precisa definir limites de alertas sensatos.
Saber se vale a pena acordar um desenvolvedor no meio da noite ou ver se pode esperar até de manhã pode ser a diferença entre desenvolvedores felizes com tempos de resposta rápidos e equipes fadigadas por excesso de alertas que passam os fins de semana procurando um emprego novo.
Elimine a repetição de alertas
Um estudo sobre fadiga de alerta descobriu que, entre médicos em um ambiente de hospital, a atenção aos alertas caía 30% toda vez que um alerta duplicado chegava. E é provável que os resultados do estudo sejam os mesmos para os desenvolvedores. Quanto mais a gente vê o mesmo alerta, menos a gente presta atenção nele. É por esse motivo que a melhor prática aqui é eliminar a duplicação de alertas e minimizar lembretes.
Estabeleça níveis de prioridade e gravidade
Claro que alguns alertas são mais importantes do que outros. É bem provável que uma interrupção do site vá ter precedência sobre uma pequena lentidão em uma função muito pouco usada. É muito provável que uma invasão mal-intencionada tenha mais prioridade do que uma imagem que não esteja renderizando como deveria no aplicativo.
Não só o sistema deve reconhecer prioridade e gravidade de alertas, mas também deve comunicar essa prioridade com clareza às pessoas responsáveis pela resolução de incidentes. A melhor prática aqui é usar pistas visuais, audíveis e sensoriais para indicar com rapidez e clareza em que as equipes devem se concentrar em seguida.
Torne os alertas acionáveis
Saber o que está errado é bom. Saber o que fazer em seguida é melhor. É por essa razão que, se os alertas não forem acionáveis, eles deveriam ser.
Este é um ponto em que as equipes de DevOps podem aprender com o setor da aviação. Quando um alerta aparece no painel do piloto durante um voo, ele vem com uma lista de verificação acionável. Criar esse tipo de informação no sistema de alertas reduz o tempo de diagnóstico e ajuda os desenvolvedores a se moverem com rapidez pelo processo.
É ainda mais útil quando o desenvolvedor está trabalhando no meio da noite, com os olhos cansados, e não no seu melhor momento.
Como escolher a tecnologia de alertas certa
Desenvolver um sistema de alertas de TI que siga essas práticas recomendadas é ser estratégico e se antecipar aos alertas. Também é escolher a tecnologia certa para implementar. Ao escolher um fornecedor, a gente recomenda procurar por:
Vários canais de alerta
Em geral, o e-mail é o canal de escolha quando se trata de alertas. Mas a verdade é que o e-mail nem sempre é a melhor saída. Para alertas urgentes, talvez você queira ou precise de SMS, notificações por push para dispositivos móveis ou até mesmo chamadas de voz. Procure um sistema que permita alertar de várias maneiras.
Alertas mais completos
Alertas acionáveis são alertas com informações detalhadas. O que significa que uma mensagem de texto curta nem sempre é o bastante. Cuidado com os limites rigorosos de caracteres e procure uma tecnologia que permita anexar gráficos, logs, runbooks e listas de verificação para oferecer contexto adicional a um alerta e informar o desenvolvedor o que fazer a seguir.
Ações de alerta personalizadas
A maioria da tecnologia de alertas permite que você adicione uma observação ao alerta ou a encerre. Mas, às vezes, há etapas durante o processo. Como escalonar o alerta para investigação adicional, criar um ticket de serviço ou reiniciar um servidor. Procure soluções tecnológicas que permitam que você faça mais do que apenas abrir e encerrar.
Ações automatizadas
Para alguns alertas, o que fazer a seguir é complicado e requer a visão de um desenvolvedor experiente. Para outros, o caminho a seguir é claro.
Para alertas com etapas seguintes claras (testes de diagnóstico, ações corretivas), você vai precisar de um sistema que tenha acionamento automático dessas respostas para os alertas que atendam aos critérios predefinidos.
Por exemplo, se um banco de dados ficar lento, talvez você configure o sistema de alerta para alternar para um banco de dados de backup. Se a primeira etapa para corrigir o item A for sempre reiniciar um servidor, talvez você configure o sistema de alerta para reiniciar o servidor e monitorar o resultado antes de enviar um alerta no meio da noite.
Classificação e personalização de alertas
Quando os alertas surgirem, a equipe deve organizar, marcar com informações adicionais e filtrar os alertas.
Acompanhamento do ciclo de vida do alerta
Na análise retrospectiva do incidente, é importante saber quando o alerta chegou, quem o recebeu, quando o viu e que ação foi tomada. Qualquer tecnologia escolhida deve ter monitoramento automático dessas informações. Assim fica mais simples entender o que está e não está funcionando, melhorar os KPIs e documentar incidentes passados para que as equipes de plantão possam aprender com eles e consultar esses aprendizados para incidentes futuros.
Políticas de alerta e notificação
Se a prática recomendada aqui for definir limites inteligentes para os alertas e garantir que itens leves não estejam acordando os desenvolvedores no meio do sono REM deles, você precisa de uma tecnologia que permita suprimir, atrasar e agilizar alertas com base no conteúdo e no tempo deles.
Monitoramento em tempo real para o monitoramento
Como você sabe, a qualquer momento, que os sistemas de alertas estão funcionando?
A resposta, com a tecnologia certa, deve ser que a tecnologia tem o próprio sistema de monitoramento. Com o Opsgenie, a gente faz o monitoramento com uma ferramenta chamada Heartbeats, que verifica com frequência se as ferramentas de monitoramento estão ativas e conectadas e as tarefas personalizadas são concluídas no prazo. Se o sinal cair, o sistema avisa você em instantes.
Configuração de um on-call schedule com o Opsgenie
Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.
Leia este tutorialUma abordagem melhor para cronogramas de plantão
Um cronograma de plantão eficaz é a chave para sustentar uma cultura de plantão saudável. Aprenda sobre erros comuns, tipos de cronogramas de rodízio e como acertar.
Leia este artigo