Imagine o aprendizado + Atlassian
Imagine Learning acalma o ruído e alivia a fadiga de alertas com o Opsgenie
Setor
EdTech
Localização
Provo, Utah
Número de usuários
241
Produtos
Apps do Marketplace
Compartilhar página
A Imagine Learning é uma empresa de EdTech (Tecnologia educacional) fundada em 2004. Ela atende estudantes para os quais o ensino tradicional não é eficaz. O software é projetado para alunos do pré-escolar ao ensino médio, que podem ter problemas com leitura, escrita e matemática. As escolas compram o software para atender alunos com dificuldades de aprendizagem e contribuir para que tenham sucesso em seus estudos.
Efeitos negativos da fadiga de alerta
Keith Smith, ingressou na Imagine Learning como Engenheiro de Confiabilidade do Site Principal depois de já estar no espaço de DevOps por anos. Ele estava familiarizado com várias ferramentas de monitoramento de incidentes, incluindo o Opsgenie. A Imagine Learning tinha muitas ferramentas implementadas, mas a consolidação e os alertas eficazes não existiam.
"[Na época] a equipe de plantão apenas recebia mensagens de alerta por e-mail — era estúpido, havia muito barulho. Eu me levantava todas as noites à 1 da manhã, olhava para o meu telefone e voltava para a cama. Eu me propus a dizer que há um jeito melhor. "
Devido a todo o ruído, os alertas não eram significativos e não eram acionáveis. O processo foi reativo e as equipes ficaram sem um modo eficiente de se comunicar durante os incidentes.
"O volume de chamadas de suporte aumentaria, o que indicava um problema e, em seguida, o representante de suporte fazia o encaminhamento. Mas essa era a única cadeia de comunicação — o cliente dizia que algo estava errado e depois a gente fazia a correção."
Criando o caso de negócios
Keith sabia que precisava implementar uma ferramenta como a Opsgenie, mas teve que formular um caso de negócios para a alta gerência, o que acabou sendo mais fácil do que o esperado.
"Duas semanas no trabalho, eu estava configurando alertas e analisando as métricas quando percebi que a gente estava inativo há 24 horas e não tinha ideia!" O problema foi resolvido com rapidez, mas uma interrupção de 24 horas poderia ter sido evitada.
Ele também havia se tornado o único ponto de falha, o que não era escalável ou sustentável para uma empresa com mais de 500 funcionários espalhados pelos EUA, Índia e Argentina.
Dentro de 3 meses após a adoção do Opsgenie, a gente reduziu o número de incidentes em 900%.
Keith Smith
Engenheiro de Confiabilidade do Site Principal
A consolidação e a melhoria da comunicação foram fundamentais para manter a infraestrutura necessária para o sucesso da empresa.
"E se eu saísse de férias? O que acontece com os alertas por dois dias. Fui até meu chefe e disse a ele que "não era algo sustentável", a gente vai ter problemas e citei fontes [incluindo a interrupção de 24 horas] para provar".
Entre um terrível On-call Schedule com alertas por e-mail, uma abordagem reativa aos problemas e métricas para apoiar a necessidade de uma plataforma moderna de gerenciamento de incidentes, a ideia foi transmitida e a Imagine Learning migrou para o Opsgenie.
Alertas confiáveis
Com mais de 20 ferramentas e aplicativos para gerenciar a capacidade do Opsgenie de se integrar à sua pilha de TI foi fundamental para acalmar o ruído.
"Toda vez que eu queria conectar uma fonte ao OG, havia um caminho — mesmo que apenas um webhook."
Integrações profundas com o Slack e o JIRA significam que o Imagine Learning agora tem um processo automatizado. O Opsgenie atualiza a página de status, cria um ticket do Jira, envia uma notificação do Slack e desperta as pessoas certas na hora certa.
"Agora que a gente tem um incidente grave por ano, está ficando mais divertido. Agora consigo dormir à noite e tenho tempo para trabalhar em outros projetos."
Keith Smith
Engenheiro de Confiabilidade do Site Principal
"Além de um MTTR mais rápido, o maior benefício está sendo a melhoria da comunicação, pois agora a gente consegue contar para os clientes, e para as 500 pessoas espalhadas pelos escritórios da empresa no país e no mundo, o que está acontecendo assim que os incidentes ocorrem."
Alívio após o Opsgenie
Compartilhar o On-call Schedule e apenas ser acordado quando necessário permite que Keith diversifique seu trabalho e o capacite para reduzir o tempo de resposta de 24 a 36 horas para apenas uma breve janela de 15 minutos ou menos.
OOpsgenie permitiu que Keith criasse um processo eficiente de gerenciamento de incidentes e de plantão que reduziu o MTTR e também melhorou a qualidade de vida da equipe. Para uma empresa que oferece um produto de software, resolver um problema com rapidez é vital. Dentro de 3 meses após o uso do Opsgenie, houve uma redução de 900% no volume de incidentes.
"Agora que a gente tem um incidente grave a cada ano, está se tornando mais divertido. Consigo dormir à noite e tenho tempo para trabalhar em outros projetos."
Comece hoje mesmo a avaliação gratuita de 14 dias do Opsgenie
Habilitando negócios focados na nuvem com o Opsgenie
Entrega de serviços contínuos com o gerenciamento de incidentes ágil