Gerenciamento de incidentes para equipes de alta velocidade
Cálculo do custo de tempo de inatividade
Compreensão do impacto financeiro de incidentes graves
Em março de 2015, uma interrupção de 12 horas na Apple Store custou à empresa US$ 25 milhões.
Em agosto de 2016, uma interrupção de energia de cinco horas em um centro de operações causou 2.000 voos cancelados e uma perda estimada de US$ 150 milhões para a Delta Airlines.
Em março de 2019, uma interrupção de 14 horas custou ao Facebook cerca de US$ 90 milhões.
E esses são os grandes caras. Os líderes do setor. Aqueles com margens operacionais gordas e milhões no banco. Eles podem enfrentar uma tempestade financeira de um dia. A verdade é que, embora empresas menores possam enfrentar perdas menores durante um incidente grave, esses números menores podem ter um efeito ainda maior nos resultados.
Na verdade, um estudo com 101 startups descobriu que 29% das que falham o fazem porque ficam sem dinheiro. Se as startups já estão em risco, é difícil imaginar que a maioria poderia enfrentar incidentes graves sem sofrer.
Moral da história: o tempo de inatividade é um grande negócio. Qualquer um que diga o contrário não tem prestado atenção. Os incidentes não são apenas tóxicos para a confiança e a fidelidade do cliente. Eles também são o ceifador financeiro sombrio.
O custo médio do tempo de inatividade
O custo médio do tempo de inatividade é de US$ 5.600 por minuto, de acordo com um estudo de 2014 da Gartner. A empresa de pesquisa salienta que, no entanto, essa é apenas uma média. Um relatório da Avaya do mesmo ano constatou que as médias variaram entre US$ 2.300 e US$ 9.000 por minuto, dependendo de fatores como o tamanho da empresa e mercados verticais. E, desde 2014, esse número tem aumentado. Um relatório mais recente (do Ponemon Institute em 2016) constata que a média é de US$ 9.000 por minuto, em comparação à média de US$ 5.600 da Gartner.
Para as pequenas empresas, esse número diminui para um valor de US$ 137 a US$ 427 por minuto, que não deixa de ser significativo. E o local em que a empresa se enquadra nesse amplo espectro depende de uma série de fatores, como mercados verticais, tamanho da empresa e modelo de negócios.
Mercados verticais
As indústrias com o maior risco incluem os bancos/serviços financeiros, governo, saúde, manufatura, mídia e comunicações, varejo e transporte/serviços públicos. Um estudo de 2016 descobriu que o custo médio para o tempo de inatividade nessas indústrias foi superior a US$ 5 milhões por hora.
Tamanho da empresa
O tamanho da empresa também é um fator chave. Para as empresas da Fortune 1.000, o tempo de inatividade pode custar até US$ 1 milhão por hora, de acordo com uma pesquisa da IDC. E enquanto a típica empresa de médio porte gasta US$ 1 milhão por ano em incidentes, grandes empresas podem gastar até US$ 60 milhões ou mais, de acordo com um relatório de pesquisa da IHS.
Modelo de negócios
Por fim, os modelos de negócios também têm uma enorme influência nos cálculos de custos de tempo de inatividade. É evidente que um site de comércio eletrônico sem lojas físicas tem mais a perder com uma interrupção na Web do que uma empresa com lojas físicas. Quanto mais o modelo de negócios depende do tempo de atividade, mais (pela lógica) se perde com o tempo de inatividade.
Para a Amazon, gigante do comércio eletrônico, cujo modelo inteiro de negócios depende do tempo de atividade, os custos estimados são de cerca de US$ 13,22 milhões por hora. O Facebook—cuja receita depende de impressões de anúncios—também lida com valores na casa dos milhões.
Calculadora rápida do tempo de inatividade
Para obter uma estimativa rápida dos prováveis custos de tempo de inatividade da empresa, use a seguinte fórmula, com base no tamanho da empresa e no número de minutos de duração do incidente mais recente:
Custo de tempo de inatividade = minutos de tempo de inatividade x custo por minuto.
Para pequenas empresas, use US$ 427 como custo por minuto. Para médias e grandes empresas, use US$ 9.000.
Compreendendo o custo total de tempo de inatividade
Quando a pessoa média pensa em custos de tempo de inatividade, é provável que ela esteja focada na perda de receita. Ou talvez uma combinação de receita e produtividade dos funcionários. Mas a verdade é que os custos do tempo de inatividade estão muito mais longe.
De acordo com a empresa independente de pesquisa de segurança e proteção de dados, Ponemon, a maior parcela do custo de tempo de inatividade é a interrupção dos negócios — uma categoria que inclui danos à reputação e rotatividade de clientes. A perda de receita ficou em segundo lugar na pesquisa da empresa. E a terceira maior dificuldade financeira associada a incidentes foi a produtividade do usuário final.
Outra categoria comum de perdas é a perda de produtividade interna — da equipe de TI encarregada de resolver o incidente, de equipes adjacentes envolvidas no gerenciamento de incidentes (como RP, gerentes de mídia social e representantes de atendimento ao cliente) e de outros funcionários afetados pela interrupção.
Para provedores de software, penalidades financeiras de SLA, multas governamentais (por qualquer violação dos requisitos regulamentares) e litígios e liquidações são drenos financeiros muito reais. E, para as empresas que lidam com produtos físicos, estoque esgotado é um risco significativo.
Sem mencionar os custos do empreiteiro, substituição de equipamentos e problemas de retenção de funcionários. Afinal, incidentes causam estresse. O estresse cria trabalhadores infelizes. E trabalhadores infelizes se vão. Especialistas estimam que o custo da substituição de um funcionário é 33% do salário anual.
Como minimizar os custos de tempo de inatividade
Valores como os mencionados acima deixam claro que minimizar o tempo de inatividade deve ser uma prioridade para empresas de qualquer porte e setor. Então, como mitigar os riscos do tempo de inatividade e minimizar os custos? Aqui estão cinco maneiras testadas e comprovadas:
Crie um plano detalhado de recuperação de desastres
O que você vai fazer quando ocorrer tempo de inatividade? Se você ainda não souber a resposta a essa pergunta, a resposta padrão vai ser “perder tempo precioso descobrindo o que fazer”.
Quanto melhor for o plano de resposta a incidentes, mais rápida e eficaz vai ser a resposta das equipes aos incidentes. É por esse motivo que o primeiro passo de qualquer novo programa de gerenciamento de incidentes deve incluir processo e planejamento.
Faça uma comunicação clara e frequente
Com a interrupção dos negócios representando impressionantes 35% dos custos de tempo de inatividade, é mais importante do que nunca priorizar a comunicação de incidentes e o atendimento ao cliente durante e após os incidentes.
Elimine os pontos falhos isolados
A remoção de pontos falhos isolados da infraestrutura e dos processos existentes é uma das maneiras mais rápidas de reduzir o tempo de inatividade e mitigar seus custos. Ou seja: implantar ações como o balanceamento de carga entre servidores, seguir boas práticas de backup e adotar falhas técnicas seguras revistas por pares em suas implementações.
Priorize a prevenção
Não há uma maneira 100% à prova de falhas de evitar incidentes. Mas não quer dizer que elas não possam ser minimizadas.
O alto custo do tempo de inatividade é um bom motivador para que a liderança priorize a substituição de sistemas e recursos de segurança desatualizados e corrijam itens antes que eles levem a incidentes graves.
Não ignore a análise retrospectiva
Quando o tempo de inatividade chega (e no complexo mundo técnico, sempre acontece), a melhor maneira de evitar interrupções futuras é ter uma forte prática de análise retrospectiva.
Uma análise retrospectiva de incidente reúne as equipes para discutir os dados de um incidente: por que aconteceu, o impacto, quais ações foram tomadas para mitigá-lo e resolvê-lo e — mais importante ainda — o que deve ser feito para evitar que aconteça de novo.
Na Atlassian, as análises retrospectivas são sem culpa — focados em chegar à raiz do item em vez de apontar culpados. Também defendemos a documentação inteligente, projetada para resumir o que foi aprendido durante a análise retrospectiva e sugerimos melhorias que vão ajudar a evitar repetir os itens que acabamos de nos esforçar para corrigir.
O Jira Service Management foi desenvolvido para ajudar as equipes a lidar rápido com incidentes, minimizando o custo do tempo de inatividade.
Aprenda a comunicação de incidentes com o Statuspage
Neste tutorial, você vai ver como usar templates de incidentes para se comunicar com eficácia durante interrupções. Adaptável a muitos tipos de interrupção de serviço.
Leia este tutorialA importância de um processo de análise retrospectiva de incidentes
Uma análise retrospectiva de incidente, também conhecida como revisão pós-incidente, é a melhor maneira de trabalhar o que aconteceu durante um incidente e capturar as lições aprendidas.
Leia este artigo