Gestión de incidentes para equipos de alta velocidad
Responder a un incidente
Las siguientes secciones describen el proceso de Atlassian para responder a los incidentes. El gestor de incidentes (IM) sigue esta serie de pasos para llevar el incidente desde la detección hasta la resolución.
Campo de Jira | Tipo | Texto de ayuda |
Resumen | Texto | ¿Cuál es la emergencia? |
Descripción | Texto | ¿Cómo afecta a los clientes? Incluye tu información de contacto para que los que deben responder puedan comunicarse contigo. |
"Severity" (Gravedad) | Selección única | (Hipervínculo a una página de Confluence con nuestra escala de gravedad en ella). Eligir entre "Sev" (Gravedad) 2 o 1 significa que crees que se puede resolver de inmediato, por lo que se contactará con las personas adecuadas. |
"Faulty service" (Servicio defectuoso) | Selección única | El servicio que contiene el fallo que está causando el incidente. Si no estás seguro, haz la suposición más exacta que puedas. Si no tienes ni idea, selecciona "Unknown" (Desconocido). |
Productos afectados | Casillas | ¿Qué productos se ven afectados por el incidente? Selecciona todos los que correspondan. |
Una vez que se ha creado el incidente, su clave de incidencia se utiliza en todas las comunicaciones internas relativas al incidente.
A menudo, los clientes abrirán casos de soporte sobre un incidente que les afecta. Una vez que nuestros equipos de atención al cliente determinan que todos estos casos se relacionan con un incidente, etiquetan estos casos con la clave de incidencia del incidente para supervisar cómo afecta al cliente y para realizar de forma más sencilla un seguimiento de los clientes afectados una vez que se haya resuelto el problema.
"Severity" (Gravedad) | Descripción | Ejemplos |
1 | Un incidente crítico con un impacto muy alto |
|
2 | Un incidente principal con impacto significativo |
|
3 | Un incidente secundario con bajo impacto |
|
Una vez que hayas establecido el impacto del incidente, ajusta o confirma la gravedad de la incidencia del incidente y comunícasela al equipo. Hemos comprobado que la numeración del nivel resulta altamente beneficiosa a la hora de comunicar con claridad la gravedad.
En Atlassian, los incidentes de gravedad 3 se transmiten a los equipos de entregas para su resolución durante el horario laboral, mientras que los de gravedad 1 y 2 requieren ponerse en contacto con los miembros del equipo para corregirlos de manera inmediata. La diferencia de respuesta entre la gravedad 1 y 2 es más sutil y depende del servicio afectado.
Se debe documentar y acordar una matriz de gravedad para todos tus equipos con el fin de tener una respuesta coherente a los incidentes de acuerdo con el impacto en los clientes.
Statuspage a nivel interno | Statuspage a nivel externo | |
Nombre del incidente | | Investigar las incidencias con |
Mensaje | Estamos investigando un incidente que afecta a | Estamos investigando incidencias con |
Además de crear un incidente de Statuspage, enviamos un correo electrónico a una lista de distribución de comunicaciones de incidentes que incluye a nuestro equipo líder de ingeniería, a los gestores de incidentes principales y demás personal pertinente. Este correo electrónico tiene el mismo contenido que el incidente de Statuspage interno. El correo electrónico permite al personal responder y formular preguntas, mientras que la Statuspage es más bien una comunicación de difusión unidireccional.
Ten en cuenta que siempre incluimos la clave de incidencia de Jira del incidente en todas las comunicaciones internas relacionadas con el incidente, de modo que el personal sepa a qué sala de chat acceder si necesita realizar más preguntas.
Configuración de un horario de guardias con Opsgenie
En este tutorial aprenderás a configurar un horario de guardias, aplicar reglas de anulación, configurar notificaciones de guardias y mucho más, todo dentro de Opsgenie.
Leer el tutorialAnálisis retrospectivos: mejora los procesos de gestión de incidentes
Aprende a realizar análisis retrospectivos eficaces para mejorar tus procesos de gestión de incidentes y evitar incidencias futuras.
Leer el artículo