Gestión de incidentes para equipos de alta velocidad
Cómo ejecutar un proceso de gestión de incidentes graves
Gestión y resolución de incidentes de gran impacto
La gestión de incidentes graves (a menudo denominada en Atlassian simplemente gestión de incidentes) es el proceso utilizado por los equipos de DevOps y de operaciones de TI para responder a un evento no planificado o una interrupción y restaurar el servicio a su estado operativo.
¿Qué es un incidente grave?
Así pues, ¿en qué consiste un incidente grave? Un incidente grave es una interrupción o pérdida de servicio con nivel de emergencia.
La definición de nivel de emergencia varía en función de cada organización. En Atlassian, contamos con tres niveles de gravedad, y los dos primeros (gravedad 1 y gravedad 2) se consideran incidentes graves.
Si un servicio orientado al cliente se cae para todos los clientes de Atlassian, se trata de un incidente de gravedad 1. Si el mismo servicio se cae para un subconjunto de clientes, se trata de un incidente de gravedad 2. Ambos se encuadran en la denominación de incidente grave y requieren una respuesta inmediata de nuestros equipos de gestión de incidentes.
Toda incidencia que no interfiera en las tareas esenciales se considera de gravedad 3 y no es un incidente grave.
Definición del proceso de gestión de incidentes graves
El ciclo de vida de los incidentes (que a veces también se conoce como proceso de gestión de incidentes) es el camino que tomamos para identificar incidentes, resolverlos, comprenderlos y evitar que se repitan.
Los procesos de gestión de incidentes varían de una empresa a otra, pero la clave del éxito de cualquier equipo es definir y comunicar claramente los niveles de gravedad, las prioridades, las funciones y los procesos por adelantado, antes de que se produzca un incidente grave.
Para obtener una percepción común de las prioridades, las funciones y los procesos, todo equipo que esté iniciando o revisando su proceso de gestión de incidentes principales debe comenzar por aclarar las respuestas a preguntas como las siguientes:
- ¿En qué consiste un incidente grave en nuestra empresa o producto?
- ¿Cómo definiremos los niveles de gravedad y prioridad de los incidentes? Si ocurre más de un incidente grave a la vez, ¿cómo sabremos cuál debemos abordar primero?
- ¿Quién debe encargarse de la gestión de incidentes graves? ¿Qué funciones tendrán los miembro del equipo? ¿Cómo se definirán y se transmitirán las funciones?
- ¿Qué proceso seguirán los equipos en caso de que se produzca un incidente grave? ¿Hay más de un proceso dependiendo del tipo de incidente?
- ¿Con qué frecuencia nos comunicaremos con las partes interesadas tanto internas como externas? ¿Cuál es nuestro plan de comunicación?
- ¿Cómo será nuestro horario de guardias para los incidentes graves? ¿Quién es el responsable de gestionar un incidente a las 2 de la mañana? ¿Y durante un fin de semana? ¿Y en los días festivos?
- ¿Cuándo y cómo deberíamos alertar a nuestro gestor de incidentes de guardia teniendo en cuenta que debemos priorizar la resolución rápida de los incidentes graves y al mismo tiempo evitar la fatiga por exceso de alertas?
Proceso de gestión de incidentes graves de Atlassian
En Atlassian, nuestro proceso de gestión de incidentes incluye la detección, el registro del nuevo incidente, la apertura de las comunicaciones, la evaluación, el envío de comunicaciones iniciales, la escalación, la delegación, el envío de comunicaciones de seguimiento, la revisión y la resolución.
Detección
En primer lugar, nuestra tecnología, nuestros clientes o nuestro personal detectan un incidente. Quien detecta el incidente (ya sea un técnico que se dé cuenta de la incidencia o un representante de atención al cliente que reciba una llamada de un cliente frustrado) se encarga también de registrar el incidente en nuestro sistema y de asignar un nivel de gravedad.
Así, cuando un incidente llega a nuestros equipos, ya tiene un nivel de gravedad 1, 2 o 3 asignado. Consideramos los niveles de gravedad 1 y 2 como incidentes graves, mientras que un nivel de gravedad 3 indica un incidente de menor impacto.
Registro del nuevo incidente
Una vez creado un ticket de incidente, se envía una notificación al profesional de guardia responsable de ese servicio.
La alerta de página que enviamos en Atlassian incluye información sobre la gravedad y la prioridad del incidente, así como un resumen, donde se deja claro, de un vistazo, si tiene la máxima prioridad o puede esperar en caso de que haya otro incidente en curso.
Apertura de las comunicaciones
Una vez que el gestor de incidentes recibe una alerta, su primera orden de trabajo es comunicar que la corrección del incidente está en curso. Para ello, cambia el estado del incidente a uno de reparación y establece los canales de comunicación del equipo.
Es fundamental ofrecer canales de comunicación flexibles durante el proceso de respuesta ante incidentes que permitan a los equipos mantenerse en contacto mediante el método que prefieran. Jira Service Management integra varios canales de comunicación para minimizar el tiempo de inactividad, como el widget de estado integrable, la statuspage especializada, el correo electrónico, las herramientas de chat, las redes sociales y los SMS.
Evaluación
Se ha avisado al gestor de incidentes y se han abierto los canales de comunicación. Siguiente paso: evaluar el propio incidente.
Para nuestros equipos, este proceso comienza con una serie de preguntas que el equipo tiene que responder:
- ¿Cuál es la repercusión en los clientes y los empleados de Atlassian?
- ¿Qué ven los clientes?
- ¿A cuántos clientes afecta (a algunos, a todos)?
- ¿Cuándo comenzó el incidente?
- ¿Cuántos casos de soporte se han abierto acerca del incidente?
- ¿Intervienen otros factores que afectan al nivel de gravedad o de prioridad o que cambian la forma en que debemos abordar el incidente (por ejemplo, problemas de seguridad, crisis de relaciones públicas en redes sociales, etc.)? (P. ej., preocupaciones de seguridad, crisis de relaciones públicas en redes sociales, etc.).
Cuando hayamos respondido a esas preguntas, podremos avanzar con confianza en los diagnósticos y las propuestas de correcciones o cambiar el nivel de gravedad y el nivel de prioridad de un incidente según sea necesario.
Envío de comunicaciones iniciales
Una vez que hemos confirmado que el incidente es real, la comunicación con nuestros clientes y empleados pasa a ser la máxima prioridad. Como decimos en nuestro manual:
"El objetivo de la comunicación inicial interna es centrar la respuesta ante incidentes en un único lugar y reducir la confusión. El objetivo de la comunicación externa es decir a los clientes que tienes conocimiento de un fallo y que estás investigándolo con urgencia".
La comunicación rápida y precisa ayuda a generar confianza en el cliente.
Contamos con un plan de comunicación de incidentes estratégico, y proporcionamos actualizaciones periódicas de estado que siguen un formato simple. Además, enviamos un correo electrónico a una lista establecida de partes interesadas que incluye a nuestro equipo líder de ingeniería, a los gestores de incidentes graves y demás personal interno clave. Como ya hemos mencionado, todos estos métodos de comunicación se pueden personalizar en Jira Service Management y se pueden adaptar al plan de respuesta ante incidentes de cualquier organización.
Escalación
A veces, el equipo de guardia resuelve rápidamente un incidente. Pero en los casos en que eso no ocurre, el siguiente paso es escalar la incidencia a otro experto o equipo de expertos más preparado para resolver este incidente concreto.
En Jira Service Management, los encargados pueden agrupar los tickets relacionados y añadir colaboradores a la incidencia para coordinar alertas. Los encargados también pueden registrar automáticamente todas las acciones con un cronograma de incidentes detallado y acceder a artículos de automatización y base de conocimientos para investigar y solucionar los incidentes rápidamente.
Delegación
En cuanto se escala una incidencia a alguien nuevo, el gestor de incidentes delega en él una función. En Atlassian, estas funciones están preestablecidas para que los miembros del equipo comprendan rápidamente qué se espera de ellos.
A veces, los incidentes importantes requieren un único gestor de incidentes y un equipo pequeño. Otras veces, una situación puede requerir varios responsables técnicos o incluso varios gestores de incidentes. El gestor de incidentes original es el encargado de averiguar cuándo es ese el caso y de incorporar a las personas apropiadas.
Envío de comunicaciones de seguimiento
A medida que el incidente sigue avanzando, otra ronda de comunicación fuera del equipo técnico ayuda a mantener a los clientes y a los empleados tranquilos, confiados y al corriente de todo. Es fácil cuando los colaboradores pueden gestionar alertas en diferentes plataformas de comunicación para estar al tanto de la respuesta ante incidentes.
Revisa
Lamentablemente, cuando se trata de la resolución de incidentes, la solución depende de cada caso, por lo que en esta fase del proceso, dedicamos tiempo a lo siguiente:
- Observa lo que está sucediendo, comparte observaciones y confírmalas con el equipo.
- Desarrolla teorías sobre los motivos por los que está pasando (y sobre cómo se puede corregir).
- Idea y lleva a cabo experimentos que demuestren o refuten tus teorías.
- Repite el procedimiento.
A lo largo de este proceso, el gestor de incidentes vigila de cerca cómo van las cosas. ¿Hay miembros del equipo con demasiadas tareas? ¿Necesita alguien un descanso? ¿Hacen falta un par de ojos nuevos? En caso necesario, se delega más.
Resolución
En nuestro manual de gestión de incidentes se define la resolución como "el momento en que ha finalizado el impacto empresarial actual o inminente".
En este punto, la emergencia ha pasado y el equipo avanza a la aclaración y al análisis retrospectivo.
Análisis retrospectivos
Nuestro ciclo de vida de incidentes termina cuando el incidente se ha resuelto, pero ese no es el final de nuestro proceso en Atlassian. También queremos hacer todo lo que esté a nuestro alcance para asegurarnos de que un incidente no se repita. Es por eso por lo que el siguiente paso es un análisis retrospectivo sin reproches diseñado para identificar la causa de un incidente y ayudarnos a mitigar nuestro riesgo en el futuro.
Utiliza plantillas de análisis retrospectivo para crear y exportar informes retrospectivos fácilmente, junto con cronogramas de incidente asociados, en Confluence para que los encargados puedan seguir colaborando con equipos interdisciplinarios para registrar las acciones de seguimiento y evitar incidentes similares en el futuro.
Roles y responsabilidades
Las funciones y responsabilidades variarán según la política corporativa de la organización, el tamaño del equipo, los horarios de las guardias, etc. Estas son algunas funciones comunes de gestión de incidentes graves:
Gestor de incidentes: la persona responsable de supervisar la resolución de un incidente.
Líder técnico: profesional técnico sénior encargado de averiguar qué ha fallado y por qué, de decidir la mejor medida que tomar y de dirigir el equipo técnico.
Gestor de comunicaciones: profesional de comunicaciones (a menudo pertenece a los equipos de relaciones públicas o atención al cliente) responsable de comunicarse con los clientes internos y externos afectados por el incidente.
Responsable de atención al cliente: persona encargada de asegurarse de que los tickets, las llamadas de teléfono y los tweets entrantes sobre el incidente reciban una respuesta adecuada y oportuna.
Responsable de redes sociales: profesional de las redes sociales encargado de comunicar información sobre el incidente en los canales sociales.
Entre otros tipos de funciones habituales se incluyen los siguientes:
Analista de la causa primordial o gestor de problemas: la persona responsable de ir más allá de la resolución del incidente para identificar la causa primordial y todos los cambios que hay que hacer para evitar la incidencia en el futuro.
Comisión de investigación de incidentes graves: grupo responsable de la investigación y la gestión de cambios.
Una solución de gestión de incidentes como Jira Service Management puede ayudar con cada paso del proceso de respuesta, desde organizar la planificación de guardias y gestionar alertas hasta unificar los equipos para mejorar la colaboración entre ellos o hacer análisis retrospectivos de incidentes.
Descubre la comunicación de incidentes con Statuspage
En este tutorial, te mostraremos cómo utilizar plantillas de incidentes para comunicarte eficazmente durante las interrupciones. Puedes aplicarlo a muchos tipos de interrupciones del servicio.
Leer el tutorialPlantillas y ejemplos de comunicación de incidentes
A la hora de responder ante un incidente, las plantillas de comunicación tienen un valor incalculable. Hazte con las plantillas que utilizan nuestros equipos, así como con otros ejemplos para los incidentes comunes.
Leer el artículo