Gestión de incidentes para equipos de alta velocidad
Cómo crear mejores cronogramas de incidentes (y su importancia)
A medida que la tecnología se vuelve más compleja, también lo hace la gestión de incidentes. Y, a medida que la gestión de incidentes se vuelve más compleja, también lo hacen la documentación y la comunicación.
Por este motivo, cada vez más empresas están adoptando cronogramas de incidentes. Un cronograma de incidente es una fuente de actividades centralizada y diseñada para mantener a los equipos coordinados durante un incidente y generar un registro que esos mismos equipos pueden usar después del incidente para identificar el origen del problema y mejorar el rendimiento en el futuro.
¿Qué son los cronogramas de incidentes?
Un cronograma de incidente es un registro completo en tiempo real de un incidente. Suele constar de entradas manuales (chat), registros consolidados de páginas, alertas y confirmaciones de recepción, y avisos automáticos del sistema (por ejemplo, una notificación que indica que alguien ha cambiado el nivel de gravedad de un incidente o lo ha marcado como resuelto). También se suele sincronizar con el chat o con un canal de Slack.
El cronograma sirve para mantener al equipo coordinado, poner al día rápidamente a los nuevos miembros del equipo y simplificar el proceso de los análisis retrospectivos de incidentes. La solución de gestión de incidentes de Atlassian, Jira Service Management, crea un sólido cronograma con una plataforma personalizable para hacer un seguimiento del trabajo, ya que los cronogramas de incidentes deben reflejar todo el alcance de la resolución de incidentes con todo el contexto. Con funciones como alertas centralizadas, automatización flexible, herramientas de chat integradas y espacios de trabajo colaborativos, el cronograma de los incidentes se registra automáticamente a medida que los equipos trabajan con agilidad para resolverlos.
“Pongamos que tenemos una lista de todos los cambios realizados en, por ejemplo, los tres últimos días. Sin un cronograma preciso, no podríamos establecer las causas y los efectos, y probablemente terminaríamos causando otra interrupción del servicio”.
— Extracto de “The Phoenix Project” de
Gene Kim, Kevin Behr y George Spafford
El valor de un cronograma de incidente
Una única vista en tiempo real
La falta de comunicación entre equipos o partes interesadas es una de las vías más rápidas para que un incidente acabe descontrolado. Tener un cronograma de incidente mitiga este riesgo, ya que proporciona la misma información en una sola vista y en tiempo real a todas las partes interesadas, ya sean desarrolladores que trabajan en el incidente, miembros del equipo de comunicaciones responsables de informar a los usuarios o altos ejecutivos. De este modo, todo el mundo puede estar al día sin necesidad de llamadas de teléfono ni hilos de correo electrónico o chats inconexos.
La vista única en tiempo real también facilita a las partes interesadas identificar no solo el problema central del incidente, sino también los riesgos y problemas potenciales en los sistemas interconectados. Dar acceso a varios equipos a un mismo cronograma facilita la identificación de problemas, causas o riesgos potenciales en los sistemas interconectados.
Análisis retrospectivos de incidentes más robustos
En Atlassian, los análisis retrospectivos de incidentes son una parte esencial de nuestros procesos de gestión de incidentes y problemas. Reúnen a la gente para averiguar qué pasó, por qué sucedió y qué se puede hacer para evitar que suceda en el futuro. Para llegar al fondo de estas cuestiones, es útil tener un registro detallado de todo lo que sucedió durante un incidente, ya sean alertas, notificaciones para las partes interesadas o la solución del incidente.
Para muchas empresas, los cronogramas de incidentes actúan como ese registro detallado. No son solo una herramienta para la colaboración en incidentes en tiempo real, también son una visión única de lo que sucedió, cuándo sucedió y, a veces, de por qué. Esta información puede ahorrar muchas horas a los equipos durante la fase de revisión del análisis retrospectivo.
Profundizando más aún en los KPI
El cronograma de un incidente suele ayudar a los equipos a conocer el origen del incidente, pero su utilidad va más allá. También se puede utilizar junto con los cronogramas de incidentes similares para ayudar a los equipos a detectar patrones y diagnosticar problemas más grandes con KPI importantes.
Si se tardó más de lo habitual en resolver un incidente, ¿en qué puntos se falló? ¿Coinciden con los de otros incidentes similares? ¿Qué partes del proceso hay que examinar más detenidamente? ¿Hay algún patrón que pueda indicar una incidencia mayor con el proceso, la tecnología o la configuración del equipo? ¿Están enviándose las alertas adecuadamente o necesitamos revisar nuestros umbrales de alerta? ¿El horario de guardias está dando cobertura suficiente a los incidentes? ¿Nuestros equipos están estructurados de la manera adecuada?
Un cronograma puede servir como un único punto de datos para la revisión o como uno de los muchos puntos de datos en una investigación sobre incidencias de SLA y SLO.
Cronogramas de incidentes vs. ChatOps
Normalmente, los cronogramas de incidentes se generan y utilizan en sistemas de gestión de incidentes como Jira Service Management para centralizar toda la información de los incidentes.
La gestión de incidentes con ChatOps tiene el mismo objetivo. La única diferencia es que, en lugar de estar alojado el cronograma en un sistema de gestión de incidentes, ChatOps normalmente lo centraliza en un programa de chat como Slack, que se sincroniza con plataformas de gestión de incidentes como Opsgenie (y cualquier otra fuente relevante) y extrae información de ellas.
Las ventajas de ChatOps (como el acceso de los equipos a la misma información, las conversaciones y actualizaciones en tiempo real, menos cambios de contexto, menos llamadas de teléfono y un registro integrado para análisis retrospectivos) son las mismas que ofrece un cronograma de incidentes. Las diferencias principales son simplemente la ubicación y la cantidad de información. Para la mayoría de los equipos de incidentes, la fuente de ChatOps suele tener mucho “ruido“ en torno a la información importante. Resulta útil incorporar la información relevante al cronograma de incidentes, a la vez que conservas el registro de chat por si alguna vez necesitas consultarlo en el futuro.
Si quieres más información sobre las ventajas que ofrece ChatOps a los equipos para la resolución de incidentes y sobre las funciones de gestión de incidentes de Jira Service Management, haz clic en el botón de abajo.
Descubre la comunicación de incidentes con Statuspage
En este tutorial, te mostraremos cómo utilizar plantillas de incidentes para comunicarte eficazmente durante las interrupciones. Puedes aplicarlo a muchos tipos de interrupciones del servicio.
Leer el tutorialLa importancia de un proceso de análisis retrospectivo de los incidentes
El análisis retrospectivo de un incidente, también conocido como "revisión posincidente", es la mejor manera de repasar lo sucedido durante un incidente y plasmar las lecciones aprendidas.
Leer el artículo