Imagine Learning + Atlassian
Imagine Learning reduce el ruido y alivia la fatiga de las alertas con Opsgenie
Sector
EdTech
Ubicación
Provo (Utah)
Número de usuarios
241
Productos
Aplicaciones de marketplace
Comparte esta página
Imagine Learning es una empresa de EdTech fundada en 2004, que atiende a estudiantes para quienes la enseñanza tradicional no es eficaz. El software está diseñado para estudiantes desde preescolar hasta preparatoria, que pueden tener problemas con la lectura, la escritura y las matemáticas. Las escuelas adquieren el software para atender a los estudiantes con dificultades de aprendizaje y ayudarlos a tener éxito en sus estudios.
Sentir el dolor de la fatiga de alerta
Keith Smith se unió a Imagine Learning como ingeniero principal de fiabilidad del sitio después de haber estado en el espacio de DevOps durante años. Estaba familiarizado con varias herramientas de monitoreo de incidentes, incluida Opsgenie. Imagine Learning tenía muchas herramientas implementadas, pero la consolidación y las alertas efectivas simplemente no existían.
"[En ese momento] el equipo de guardia solo recibía mensajes de alerta por correo electrónico; era estúpido, había mucho ruido. Me levantaba cada noche a la una de la madrugada, miraba mi teléfono y volvía a la cama. Me propuse decir que hay una manera mejor".
Debido a todo el ruido, las alertas no eran significativas y no eran procesables. El proceso fue completamente reactivo y los equipos se quedaron sin una forma eficiente de comunicarse durante los incidentes.
"El volumen de llamadas de asistencia aumentaba, lo que indicaba un problema, y luego el representante de soporte lo escalaba. Pero esa era la única cadena de comunicación: el cliente nos decía que algo andaba mal y luego lo arreglábamos".
Argumentar el plan de negocios
Keith sabía que necesitaba implementar una herramienta como Opsgenie, pero tuvo que formular un plan de negocio para la alta dirección, lo que resultó ser más fácil de lo esperado.
"Dos semanas después del inicio del trabajo, estaba configurando alertas y analizando las métricas cuando me di cuenta de que habíamos estado inactivos durante 24 horas y no tenía ni idea". El problema se solucionó con bastante rapidez, pero una interrupción de 24 horas era completamente evitable.
Básicamente, también se había convertido en un único punto de error, que no era escalable ni sostenible para una empresa con más de 500 empleados repartidos por los EE. UU., India y Argentina.
A los 3 meses de adoptar Opsgenie, redujimos el número de incidentes en un 900 %.
Keith Smith
Ingeniero principal de fiabilidad del sitio
La consolidación y la mejora de la comunicación fueron clave para mantener la infraestructura necesaria para el éxito de la empresa.
"¿Qué pasa si me voy de vacaciones? ¿Qué pasa con las alertas durante dos días? Fui a ver a mi jefe y le dije: 'esto no es sostenible, vamos a tener problemas' y cité fuentes [incluida la interrupción de 24 horas] para demostrarlo".
Entre un complicado programa de guardia con alertas principalmente por correo electrónico, un enfoque reactivo de los problemas y métricas para respaldar la necesidad de una plataforma moderna de gestión de incidentes, se planteó el caso e Imagine Learning avanzó con Opsgenie.
Alertas fiables
Con más de 20 herramientas y aplicaciones para gestionar, la capacidad de Opsgenie para integrarse con su stack de TI fue clave para reducir el ruido.
"Cada vez que he querido conectar una fuente a OG, ha habido un camino, aunque solo fuera un webhook."
Gracias a lasprofundas integraciones con Slack y JIRA, Imagine Learning cuenta ahora con un proceso automatizado. Opsgenie actualiza la página de estado, crea un ticket de Jira, lanza una notificación de Slack y despierta a las personas adecuadas en el momento adecuado.
"Ahora tenemos un incidente importante cada año, y cada vez es más divertido. Puedo dormir por la noche y me liberó tiempo para trabajar en otros proyectos".
Keith Smith
Ingeniero principal de fiabilidad del sitio
"Más allá de un MTTR más rápido, lo más importante que ganamos es la comunicación, informando a nuestros clientes de lo que está sucediendo y a las 500 personas en nuestras oficinas en todo el país [y el mundo] tan pronto como ocurre un incidente".
Alivio después de Opsgenie
Compartir el programa de guardia y despertarse solo cuando es necesario le permite a Keith diversificar su trabajo y reducir el tiempo de respuesta de 24 a 36 horas a solo 15 minutos o menos.
Opsgenie permitió a Keith crear una gestión de incidentes eficiente y un proceso de guardia que redujeron el MTTR y también mejoraron la calidad de vida de su equipo. Para una empresa que ofrece un producto de software, es vital resolver un problema rápidamente. A los 3 meses de usar Opsgenie, se produjo una reducción del 900 % en el volumen de incidentes.
"Ahora tenemos un incidente importante cada año, y cada vez es más divertido. Puedo dormir por la noche y me liberó tiempo para trabajar en otros proyectos".
Empieza hoy la prueba gratuita de 14 días de Opsgenie
Habilitación de negocios centrados en la nube con Opsgenie
Servicios permanentes a través de una gestión ágil de incidentes