Gestión de incidentes para equipos de alta velocidad
Manual de gestión de incidentes de Atlassian
En la actualidad, se espera que los equipos que ofrecen servicios tecnológicos tengan una disponibilidad ininterrumpida.
Cuando algo va mal, ya sea debido a una interrupción del servicio o a que falle una funcionalidad, los miembros del equipo deben responder de inmediato y restaurar el servicio. Este proceso se denomina gestión de incidentes y supone un desafío complejo y constante para pequeñas y grandes empresas.
Queremos ayudar a todos los equipos, independientemente de dónde se encuentren, a mejorar la gestión de incidentes. Inspirándonos en equipos como el de .Google, hemos creado este manual a modo de resumen del proceso de gestión de incidentes de Atlassian. Estas son las lecciones que hemos aprendido tras una década de resolución de incidentes. A pesar de que se basan en nuestras experiencias exclusivas, esperamos que se puedan adaptar para cubrir las necesidades de tu propio equipo.
Obtén el manual en versión impresa o PDF
Tenemos existencias limitadas de la versión impresa del manual de gestión de incidentes, que enviamos de forma gratuita. También puedes descargar una versión en PDF.
Queremos ayudar a todos los equipos, independientemente de dónde se encuentren, a mejorar la gestión de incidentes. Inspirándonos en equipos como el de .Google, hemos creado este manual a modo de resumen del proceso de gestión de incidentes de Atlassian. Estas son las lecciones que hemos aprendido tras una década de resolución de incidentes. A pesar de que se basan en nuestras experiencias exclusivas, esperamos que se puedan adaptar para cubrir las necesidades de tu propio equipo.
Fase | Valor de incidente | Valor de Atlassian relacionado | Razonamiento |
1. Detectar | Atlassian se entera antes que nuestros clientes | Crea con el corazón y equilibrio | Un servicio equilibrado incluye las suficientes labores de supervisión y alerta para detectar incidentes antes de que lo hagan los clientes. El mejor sistema de supervisión alerta de los problemas antes de que se conviertan en incidencias. |
2. Responder | Escalar, escalar y escalar | Funcionar como un equipo | A nadie le gusta que lo despierten, y no nos tomamos la responsabilidad a la ligera. Sin embargo, todo el mundo suele entender que a veces se les despierte por un incidente para el que al final no hacen falta. Lo que suele ser más difícil de entender es que te despierten por un incidente grave y tengas que ponerte al corriente de la situación cuando deberían haberte avisado antes. No siempre tenemos todas las respuestas, por lo que "no dudes en derivar". |
3. Recuperar | Todo se vuelve un caos, soluciónalo rápidamente. | No #@!% al cliente | A nuestros clientes no les importa por qué se ha interrumpido el servicio. Lo único que les interesa es que lo restauremos lo más rápido posible. Nunca dudes en resolver un incidente rápidamente para que podamos minimizar el impacto en nuestros clientes. |
4. Aprender | Siempre irreprochable | Empresa abierta, sin tonterías | Los incidentes forman parte de la ejecución de los servicios. Nosotros mejoramos los servicios al hacer responsables a los equipos y no repartir las culpas. |
5. Mejorar | No dejes que se produzca dos veces el mismo incidente | Ser el cambio que deseas | Identifica el origen del problema y los cambios que evitarán que toda la clase de incidente ocurra de nuevo. Comprométete a realizar cambios específicos en fechas determinadas. |
Configuración de un horario de guardias con Opsgenie
En este tutorial aprenderás a configurar un horario de guardias, aplicar reglas de anulación, configurar notificaciones de guardias y mucho más, todo dentro de Opsgenie.
Leer el tutorialCómo respondemos a un incidente
Aquí te mostramos el proceso de Atlassian de respuesta ante incidentes con información de nuestro manual. Conoce los pasos que sigue el gestor de incidentes desde la detección hasta la resolución.
Leer el artículo