Gestión de incidentes para equipos de alta velocidad
Optimización de la gestión de incidentes para operaciones de TI
Las interrupciones afectan a los resultados.
El tiempo de inactividad a menudo implica no solo la pérdida de ingresos, sino también daños a la reputación, sanciones normativas y de cumplimiento, pérdida de clientes y mayores costes operativos y retrasos, ya que es preciso retirar a los profesionales de TI de otros proyectos para que resuelvan los incidentes.
De hecho, un informe de IHS estima que el tiempo de inactividad cuesta a las organizaciones norteamericanas más de 700 000 millones de dólares al año, y el 78 % de ese coste se atribuye a la pérdida de productividad de los empleados.
In fact, one report by IHS estimated downtime costs North American organizations over $700 billion per year—and 78% of that cost is attributed to lost employee productivity.
Cifras como estas dejan claro que la pérdida de ingresos no es la única prioridad, ni siquiera la más importante, para la gestión de incidentes. Un proceso de gestión de incidentes optimizado también debe abordar los desafíos muy reales y costosos de las personas, los procesos y la tecnología que están detrás de la gestión de incidentes.
Los desafíos de la gestión moderna de incidentes de TI
Procesos y tecnologías desconectados
Un efecto secundario de 40 años de innovación informática es que muchas empresas manejan ahora una ecléctica combinación de aplicaciones y sistemas. Algunas aplicaciones se alojan en sus propios centros de datos, donde pueden controlarse de cerca, mientras que otras se entregan en la nube y son gestionadas por proveedores externos.
Esta colección de aplicaciones, servicios y sistemas suele dar como resultado un entramado vagamente conectado de soluciones y procesos para el registro, la supervisión y el envío de alertas. No es raro que las empresas utilicen decenas de herramientas de supervisión para hacer un seguimiento de miles de eventos o alertas de aplicaciones cada día.
Este tipo de entramado puede provocar un volumen abrumador de alertas, problemas de comunicación, ausencia de prioridades claras para los empleados de guardia y una situación en la que un fallo en una etapa del proceso de dicho entramado puede hacer caer todo el entorno.
Un volumen abrumador de alertas e incidentes
Muchos departamentos de operaciones de TI canalizan las alertas en los buzones de correo electrónico para contrarrestar su problema de volumen. Sin embargo, esto no hace más que empeorar las cosas y crea una situación en la que el correo electrónico requiere una supervisión ininterrumpida por parte del personal de alto nivel responsable de priorizar los incidentes y de escalar los mensajes críticos.
Este flujo interminable de alertas puede ser abrumador y provocar fatiga por exceso de alertas, agotamiento, insatisfacción laboral, ansiedad y tiempos de respuesta más largos. Afecta tanto al bienestar de los empleados en el lugar de trabajo como a la productividad, lo cual repercute directamente en los resultados de la empresa.
Aumento de los costes operativos
Aunque los costes de infraestructura han disminuido, los costes operativos han aumentado, impulsados, en parte, por la complejidad de depurar los problemas cuando no se controla todo el sistema.
Medición de métricas de éxito incorrectas
A menudo, el éxito de las operaciones del centro de asistencia se ha medido con métricas que (como el rendimiento de las llamadas y el tiempo medio de estas) no contribuyen a una gestión de incidentes eficaz ni miden dicha gestión de incidentes directamente.
Incluso métricas útiles como las de MTTR y MTBF no bastan por sí solas para mejorar el rendimiento de la gestión de incidentes. Nos ayudan a identificar incidencias, pero no pueden responder a las preguntas más difíciles y cualitativas de por qué y cómo ocurren y se resuelven los incidentes, y cómo mejorar esas métricas.
Estructuras anticuadas del equipo de respuesta ante incidentes
Hasta hace diez años, el trabajo principal de los equipos de operaciones consistía en responder a los incidentes de TI. Las organizaciones solían tener una estructura de equipos por niveles (nivel 1, nivel 2 y nivel 3) para responder a las incidencias notificadas por los clientes o las herramientas de supervisión.
Entonces, los objetivos de la gestión de incidentes eran los mismos: minimizar los costes operativos y mantener al mismo tiempo los niveles de servicio. Debido a eso, los encargados de responder ante incidentes del nivel 1 solían ser empleados con poca experiencia y bajo coste. Si no podían resolver un incidente, lo escalaban al nivel 2 (normalmente, profesionales de nivel medio con más experiencia). Este proceso de escalación continuaba hasta que se resolvía la incidencia.
Si bien el proceso prioriza el ahorro de costes, lo hace a expensas de la agilidad. El tiempo de respuesta más lento de un equipo que inicia un proceso de gestión de incidentes con empleados con poca experiencia y requiere varios niveles de escalación puede tener una repercusión inmediata en los cronogramas de resolución de incidentes, lo cual afecta directamente a la reputación de empresas, a la vez que hace que la frustración de los clientes se difunda en los canales de redes sociales.
Además, dado que el 78 % del dinero que las empresas destinan a la gestión de incidentes se atribuye a la pérdida de productividad de los empleados, está bastante claro que el modelo de escalación no permite realmente ahorrar dinero a las empresas. Si la persona que compiló el software puede corregir el error en 15 minutos y la persona con poca experiencia dedica horas y al final debe escalarlo de todas maneras, el sistema no es eficiente.
En un mundo de servicios disponibles permanentemente, la agilidad es más importante que nunca. Las métricas como el tiempo medio de respuesta y tiempo medio de resolución han cobrado impulso precisamente porque las empresas necesitan maximizar la agilidad si quieren minimizar el coste.
Cómo optimizar el proceso de gestión de incidentes de TI
Está claro que ha llegado el momento de reorientar nuestros esfuerzos de gestión de incidentes con procesos, estructuras de equipo y prácticas que reflejen las nuevas realidades empresariales de hoy en día. Pero ¿cómo es ese proceso de reorientación?
Prioriza y consolida alertas
El principal culpable de la fatiga por alertas y un factor clave que contribuye a la pérdida de productividad es un exceso de alertas sin sentido y que no permiten actuar. ¿La solución más simple? Identificar los sistemas críticos, eliminar las notificaciones redundantes y crear una jerarquía clara de prioridades para las alertas.
Crea un horario de guardias que funcione para tus equipos
Evitar la fatiga por exceso de alertas, el agotamiento y las ineficiencias también significa crear un horario de guardias que funcione para tus equipos. Esto implica no sobrecargar a ninguna persona ni equipo, ofrecer soporte cuando sea necesario y reevaluar la eficacia del horario de forma periódica.
Automatiza todo lo que puedas
Es fácil perder la concentración cuando se están revisando manualmente decenas de informes para identificar y escalar los que son importantes. La buena noticia es que ya no es algo que tenga que hacer de forma manual un miembro del equipo. Además, se puede evitar la pérdida de productividad y la fatiga por exceso de alertas, al eliminarlas de la lista de tareas gracias a la automatización.
El enrutamiento de las alertas, las notificaciones, la desduplicación, los flujos de trabajo de los mensajes, la creación de puentes de conferencia, las actualizaciones de la página de estado, la programación de guardias, los procesos de escalación y el seguimiento de los KPI también se pueden automatizar total o parcialmente para ahorrar tiempo al equipo y reducir los errores humanos en tareas establecidas y repetitivas. Por no hablar de que la automatización ahorra dinero a la empresa a la larga.
Comunícate de forma eficaz entre los canales y las partes interesadas
Los incidentes afectan a diversas partes interesadas (que suelen ser tanto internas como externas) y es preciso que esas partes interesadas estén informadas Los estudios muestran que el 87 % de las partes interesadas de la empresa quiere recibir información actualizada sobre los incidentes (y el 56 % se siente más frustrado por la falta de comunicación que por el propio incidente). Y los clientes, definitivamente, sienten lo mismo.
En un momento en el que se espera que todos los sistemas estén siempre disponibles, tener un plan de comunicación de incidentes sólido es una pieza fundamental del rompecabezas de la optimización.
Haz que llevar un seguimiento de las métricas correctas sea fácil
Cuanto más fácil sea realizar un seguimiento de las métricas de éxito y revisarlas, más probable será que tu equipo se mantenga al día con ellas. Automatiza los informes siempre que sea posible y aclara desde el principio qué métricas son importantes para tu equipo y por qué.
Realiza análisis retrospectivos sin acusaciones
Un incidente no termina simplemente porque la aplicación o la base de datos vuelvan a estar en línea. Para evitar incidentes, reducir el tiempo dedicado a incidentes futuros y comprender mejor cómo tus procesos, equipos y políticas están afectando a tu gestión de incidentes, debes realizar análisis retrospectivos.
En Atlassian, los análisis retrospectivos se realizan sin reproches, lo que significa que se centran en mejorar el rendimiento y en avanzar, no en encontrar culpables.
Elige la tecnología que respalde tus procesos y necesidades
La automatización, la priorización de alertas, la planificación de guardias y el seguimiento de KPI son procesos esenciales que, para ser efectivos, necesitan tecnología que los respalde. Antes de elegir la tecnología, asegúrate de que comprendes tus objetivos, tus procesos y las necesidades de tu equipo. Si quieres organizar, desduplicar y priorizar alertas automáticamente, necesitas un sistema que cuente con estas funciones. Uno como Jira Service Management.
Descubre la comunicación de incidentes con Statuspage
En este tutorial, te mostraremos cómo utilizar plantillas de incidentes para comunicarte eficazmente durante las interrupciones. Puedes aplicarlo a muchos tipos de interrupciones del servicio.
Leer el tutorialPlantillas y ejemplos de comunicación de incidentes
A la hora de responder ante un incidente, las plantillas de comunicación tienen un valor incalculable. Hazte con las plantillas que utilizan nuestros equipos, así como con otros ejemplos para los incidentes comunes.
Leer el artículo