Gerenciamento de incidentes para equipes de alta velocidade
Compreender e combater a fadiga de alerta
Em 2013, um menino de 16 anos de idade em um dos principais hospitais dos EUA recebeu uma superdosagem de 3800% de sua medicação.
O sistema de alerta incorporado do hospital notou o pedido de superdosagem e enviou alertas para um médico e um farmacêutico. E, no entanto, pouco tempo depois, a superdosagem foi administrada e as convulsões, a dormência de corpo inteiro e a luta pela vida do menino começaram.
Faça o download do livro de plantão
Aprenda a criar e implementar um programa eficaz neste guia essencial
Como essa situação pode ter acontecido, ainda mais quando o sistema de segurança detectou o problema antes de a medicação chegar ao leito do menino?
A resposta é a fadiga de alerta.
Tanto o médico quanto o farmacêutico ignoraram o alerta do sistema, pois esse mesmo sistema gera alertas para cerca de 50% das centenas de prescrições processadas a cada dia. Eles aprenderam que a maioria desses alertas eram alarmes falsos e, como mecanismo de enfrentamento, começaram a dedicar a eles apenas um olhar superficial na melhor das hipóteses.
Assim, um menino que deveria ter tomado um único comprimido tomou 38. Embora ele tenha, por fim, sobrevivido, as consequências para sua saúde foram significativas.
Histórias como essas são comuns (e muitas vezes fatais) em hospitais e no setor de aviação. Uma pesquisa de 2013 descobriu que 19 a cada 20 hospitais classificam a fadiga de alerta como a principal preocupação de segurança.
Embora os riscos sejam diferentes, a fadiga de alerta também é comum para as equipes de TI e DevOps, pois elas monitoram a tecnologia sempre ativa que impulsiona os negócios.
O que é a fadiga de alerta?
A fadiga de alerta, também conhecida como fadiga de alarme, é quando um número muito alto de alertas dessensibiliza as pessoas encarregadas de responder a eles, levando a alertas perdidos ou ignorados ou respostas atrasadas.
O principal problema, de acordo com a maioria, é o grande número de alertas. Um único alerta é fácil de responder, mesmo que interrompa o trabalho normal ou o tempo livre de um funcionário de plantão. Uma dúzia de alertas em sucessão é mais difícil. Quanto mais esse número aumenta, maior é a probabilidade de o funcionário deixar passar algo importante.
Esse problema é agravado pelo fato de que muitos alertas são alarmes falsos. Na indústria médica, pesquisas mostram que de 72 a 99% de todos os alarmes clínicos são falsos. Em segurança, uma pesquisa descobriu que 52% dos alertas eram falsos e 64% eram redundantes.
Este alto número de alertas falsos treina os trabalhadores a presumir que a maioria dos alertas vai ser falsa e agir de acordo, assim como o médico e o farmacêutico acima encerraram o alerta de superdosagem do sistema, presumindo que era mais um alarme insignificante.
A psicologia da fadiga de alerta
A fadiga de alerta é uma das 10 principais preocupações de segurança dos hospitais, pois ignorar mentalmente os alarmes frequentes é uma resposta psicológica típica a um número excessivo de alertas.
A razão é o que a gente chama de normalização, dessensibilização ou habituação, três conceitos que têm o mesmo significado na essência: quanto mais você está exposto a algo, mais você o tolera, normaliza e ignora.
Essa ideia se aplica ao trabalho e à vida fora do trabalho. Por exemplo, filmes românticos com protagonistas masculinos persistentes em excesso afetam mensuravelmente a tolerância das mulheres ao comportamento de perseguição na vida real. A normalização da apatia sobre o O-ring primário no ônibus espacial Challenger levou à explosão do Challenger em 1986. E quando o Parque Nacional da Floresta Petrificada do Arizona colocou placas para desestimular as pessoas a roubar a madeira petrificada do parque, o plano deu errado, normalizando e aumentando os casos de roubo.
Assim como um fluxo interminável de trotes pode fazer com que você bloqueie um número ou desligue o telefone, um fluxo interminável de alarmes falsos, redundantes ou sem importância muitas vezes faz com que eles sejam ignorados. É a natureza humana.
E não é apenas a normalização de alertas em geral que está em jogo aqui. A repetição do mesmo alerta causa ainda maios fadiga de alerta. Um estudo descobriu que, para os médicos, a probabilidade de aceitar um alerta caiu 30% para cada lembrete.
Os riscos da fadiga de alerta
Alertas perdidos ou ignorados
Como no exemplo do infeliz adolescente hospitalizado acima, o maior risco de fadiga de alerta é de alertas perdidos ou ignorados. Quando um sistema de alerta gritou "lobo" muitas vezes ou não diferencia alertas perigosos (como uma superdosagem de 3800%) de alertas menores (como uma superdosagem de 0,1%), os trabalhadores se condicionam a prestar menos atenção nesses alertas.
Em DevOps e operações de TI, o resultado pode ser mais incidentes e grandes consequências tanto para a receita e o custo quanto para a reputação da marca.
Tempos de resposta lentos
A fadiga de alerta também afeta os tempos de resposta. Mesmo que os alertas não sejam perdidos ou ignorados para sempre, eles podem ser ignorados por um tempo. Afinal, se os últimos 10 alertas que chegaram eram alarmes falsos, um funcionário de plantão terá a mesma chance de abandonar seu jantar ou sono pelo 11º alerta do que para o primeiro? Ou ele poderá considerar justificado terminar o jantar primeiro?
Esgotamento
Alertas constantes, interrupções de sono e caixas de entrada cheias são uma receita para o esgotamento dos funcionários e podem levar a maior rotatividade de funcionários, menor satisfação no trabalho e menor produtividade.
Como evitar a fadiga de alerta
A fadiga de alerta é um problema significativo em diversos setores e acarreta algumas consequências sombrias. Então, como evitamos alertas ignorados, lentidão nos tempos de resposta e esgotamento dos funcionários? Especialistas apontam para os próprios processos e políticas de alerta como o caminho a seguir.
Definir limites inteligentes
Uma forma de evitar que os alertas sobrecarreguem seus profissionais de plantão é definir limites inteligentes para eles. A questão-chave aqui é: todo alerta requer atenção imediata? Todos os alertas são criados iguais? Quais itens exigem um alerta imediato e quais podem ser tratados durante o horário normal de trabalho?
A resposta é sempre uma questão de equilíbrio. Alertas insuficientes podem significar incidentes perdidos, mas alertas demais também podem levar a incidentes perdidos devido à fadiga de alerta.
Atingir o equilíbrio é difícil para qualquer empresa de tecnologia. Porém, sem tentar encontrar esse equilíbrio, os sistemas muitas vezes pecam pelo excesso de alertas e criam situações como a que levou à superdosagem de 3800%.
A aviação parece estar liderando o caminho em combater com sucesso a fadiga de alerta, e parte do motivo é que eles estabeleceram os limites para um valor alto. O computador pode rastrear mais de 10 mil pontos de dados, mas a quantidade de voos com algum alerta, mesmo menores, é inferior a 10%.
Como o Capitão Chesley “Sully” Sullenberger destaca em um artigo do Backchannel do Medium:
“Os avisos nas cabines agora são priorizados para que você não tenha fadiga de alarme... Trabalhamos muito duro para evitar falsos positivos, porque os falsos positivos são uma das piores coisas que você pode ter em qualquer sistema de aviso. Só faz com que as pessoas os desliguem.”
Definir prioridades de alerta em camadas
Se nem todos os alertas são iguais, a exibição deles não deve ser igual no formulário de aprovação de um médico, na caixa de entrada de um desenvolvedor ou no painel de um piloto. Definir prioridades de alerta e usar indicações visuais, sonoras e sensoriais para indicar importância pode reduzir muito a fadiga de alerta.
No caso da superdosagem de 3800%, grande parte do problema era que o sistema tinha limiares de alerta muito baixos e todos os alertas recebiam a mesma prioridade. Um alerta de sobredosagem de 0,1% tinha a mesma aparência de um alerta de superdosagem de 3800%. E com 50% dos pedidos de medicação gerando esses alertas, os médicos aprenderam a ignorar todos.
Mais uma vez, a indústria da aviação dá um bom exemplo não só pela definição incisiva dos níveis de prioridades, mas também pela indicação clara da prioridade com diversos recursos visuais e sensoriais. A única vez em que um alerta vermelho, com luzes vermelhas, mensagem de texto vermelha, aviso de voz e vibração no mecanismo de direção aparece no painel de um piloto é quando o avião está em perigo imediato de estol e o piloto deve agir na hora. Ninguém quer que esses alertas sejam ignorados. Então, eles recebem a própria categoria especial.
Outros alertas, até mesmo alertas que parecem alarmantes para quem voa com frequência, como fogo no motor ou despressurização da cabine, são rebaixados para avisos (eventos que vão afetar a trajetória de voo de um avião), advertências (eventos que exigem conhecimento imediato do piloto, mas podem não exigir ação imediata) e alertas (eventos em que nenhuma ação é necessária, mas o piloto deve saber que algo aconteceu).
À medida que a importância dos alertas cai, também as indicações visuais, sonoras e sensoriais deles diminui. Os avisos merecem luzes vermelhas, mensagens de texto e alertas de voz (embora não seja a vibração do mecanismo de direção). Advertências em geral acionam luzes âmbar e mensagens de texto. E os alertas recebem mensagens de texto âmbar, sem luzes.
Os pilotos sabem na hora, com base nessas pistas, quais alertas precisam de atenção prioritária e que podem ser razoavelmente ignoradas por um momento se eles estiverem lidando com outra tarefa importante ou uma série de alertas que precisam ser priorizados.
Garantir que os alertas sejam acionáveis
Alertas vagos exigem mais foco, atenção e tempo do que alertas específicos e acionáveis. Para os trabalhadores que já estão cansados pelo grande número de alertas, exigir mais foco e atenção é uma receita para baixa produtividade e alertas perdidos.
Este é outro ponto em que podemos aprender com a indústria da aviação. Para cada tipo de alerta que aparece no painel do piloto, há também uma checklist acionável que corresponde ao alerta.
Consolidar alertas redundantes
Alertas redundantes são um dos principais culpados pela fadiga de alerta. Um estudo descobriu que, para cada lembrete do mesmo alerta, a atenção ao alerta caía 30%. Outro estudo descobriu que mais de 60% de todos os alertas em sistemas de segurança eram redundantes.
Consolidar esses alertas e reduzir lembretes sempre que possível pode ajudar a manter a carga de alertas mais gerenciável, melhorando a atenção dos trabalhadores.
Criar escalas balanceadas
Mesmo com limiares inteligentes e sistemas hierárquicos, as empresas (ainda mais as de grande porte) podem lidar com um grande número de alertas.
Depois de otimizar os sistemas, também é crucial analisar o processo e as pessoas. Você tem profissionais de plantão suficientes? Uma única pessoa ou equipe está suportando grande parte do fardo de receber alertas? Esse fardo pode ser compartilhado? Qual é a frequência dos alertas? Há alguns momentos que precisam de cobertura maior ou menor?
Consolidar informações
O profissional típico de DevOps usa pelo menos cinco ferramentas para chegar à raiz dos problemas de desempenho. Quer dizer que ele tem vários locais, estilos e tipos de alerta, além de muito trabalho duplicado. Se cada um dos cinco sistemas tiver um alerta semelhante, você vai aumentar a carga de trabalho de revisão de alertas em 500%.
Quanto mais você pode consolidar alertas e informações, mais poderá reduzir a fadiga de examinar esses alertas e as informações que o acompanham.
Priorizar a revisão e a melhoria contínuas
Não há uma única correção padronizada para a fadiga de alerta e os perigos que ela acarreta. A revisão frequente dos processos, alertas e sistemas é essencial para garantir o equilíbrio certo.
Os alertas estão sendo perdidos? Em caso afirmativo, por quê? Você definiu seus limites para um valor muito alto ou muito baixo? As indicações visuais não estão funcionando? Os trabalhadores normalizaram os alertas (mudar o design dos alertas aumentaria a atenção)? Essas perguntas e outras semelhantes devem ser revisadas com frequência.
Explore os benefícios de consolidação do Jira Service Management com o Opsgenie e descubra como a flexibilidade e os recursos de personalização de alertas funcionam em ação.
Configuração de um on-call schedule com o Opsgenie
Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.
Leia este tutorialUma abordagem melhor para cronogramas de plantão
Um cronograma de plantão eficaz é a chave para sustentar uma cultura de plantão saudável. Aprenda sobre erros comuns, tipos de cronogramas de rodízio e como acertar.
Leia este artigo