Gestión de incidentes para equipos de alta velocidad
Ventajas e inconvenientes de los diferentes enfoques de la gestión de las guardias
El mundo depende más que nunca de servicios que deben estar disponibles en todo momento. Una interrupción puede afectar a millones de personas, con un impacto real al no poder, por ejemplo, pagar sus facturas, reservar sus vuelos o hacer videollamadas con sus amigos.
Ya se trate de un error grave, incidencias de capacidad o una caída total, los clientes que dependen de tus servicios esperan una respuesta inmediata (lo mismo ocurre con los equipos internos).
Los incidentes pueden tener repercusiones reales no solo en términos económicos (cuestan 700 000 millones de dólares al año a las empresas tan solo en Norteamérica), sino también en lo que a la reputación de tu empresa, tu producto y tu equipo se refiere.
Con tanto en juego, los equipos han recurrido a poner a los departamentos de TI y desarrollo de guardia para asegurarse de que la organización cuente con las personas adecuadas para abordar un problema durante un incidente, independientemente de cuándo se produzca.
Una planificación de guardias equitativa con un plan de suplemento por guardias puede incluso fomentar una política corporativa de responsabilidad compartida y ayudar a los equipos a conocer más a fondo lo que se necesita para crear un software y unos servicios resilientes a fin de mejorar el producto en general y reducir las interrupciones.
¿En qué consiste la guardia?
La guardia es la práctica de designar a determinadas personas para que estén disponibles en momentos concretos con el fin de responder en caso de que surja una incidencia de servicio urgente, aunque no estén oficialmente trabajando.
La guardia es una responsabilidad esencial dentro de muchos equipos de TI, desarrollo, soporte y operaciones que gestionan servicios donde los clientes esperan una disponibilidad ininterrumpida. Los miembros del equipo se van rotando las guardias para ofrecer cobertura continua o solo fuera del horario normal de trabajo. Junto con las soluciones automatizadas de supervisión y alertas, el ingeniero de guardia puede responder de inmediato a cualquier interrupción de la disponibilidad del servicio.
La creciente importancia de los equipos de TI y software de guardia
En ocasiones, las guardias tienen mala reputación. Algunos empleados de TI veteranos cuentan historias de terror sobre el trabajo en equipos que se ampliaron demasiado y no recibieron el soporte que necesitaban para responder adecuadamente a los incidentes.
Gran parte de esa ansiedad puede mitigarse si el soporte de guardia se lleva a cabo correctamente. Con un plan de guardias eficaz, puedes asegurarte de que tu equipo escale para adaptarse a la ampliación de los servicios, con lo que se proporciona una cobertura constante de las funciones de TI críticas y una respuesta rápida ante los incidentes.
Un buen plan de gestión de las guardias tiene más ventajas que la de únicamente solucionar el tiempo de inactividad. Con cada fallo, los equipos tienen la oportunidad de aprender habilidades nuevas, como entender un poco mejor algún servicio esencial, ver cómo responde a los errores y saber cómo realizar los diseños para reducir los fallos o mejorar el plan de respuesta ante incidentes.
Además, un programa de guardias adecuado basado en una política corporativa de responsabilidad compartida también puede mejorar el compañerismo y disminuir el agotamiento, lo que, a su vez, puede conllevar una mayor retención de los empleados.
Ventajas e inconvenientes de estar de guardia
En las organizaciones que ponen en práctica la metodología DevOps, los equipos de software asumen gran parte de la responsabilidad en cuanto a la fiabilidad y la disponibilidad de los servicios que diseñan, un trabajo que solía circunscribirse a los equipos de operaciones. Para muchos de estos equipos, el nuevo lema es “tú lo creas, tú lo gestionas”. Al estar más familiarizados con el código, a menudo, los desarrolladores son los que mejor pueden solucionar las incidencias en el menor tiempo posible.
Además, a través de este proceso, los desarrolladores compilan un mejor software que, de hecho, tiene menos probabilidades de fallar. Con este cambio de responsabilidad, prueban su código de forma más rigurosa, ya que pueden ser ellos mismos los que tengan que responder fuera del horario de trabajo si surge alguna incidencia en el servicio.
El resultado es que los sistemas son más resilientes y, al haber más personas disponibles y capacitadas para hacerse cargo de los incidentes, se da un menor grado de agotamiento entre los trabajadores.
Sin un buen programa de guardias, las organizaciones no podrán aprovechar todas las ventajas de la metodología DevOps en términos de política corporativa ni satisfacer las exigencias de una infraestructura que va escalando continuamente. Si la carga de responder ante los incidentes recae más en un equipo que en otro, no contará con la capacidad necesaria para hacer bien su trabajo diario. Los desarrolladores no conseguirán implementar el feedback que proceda de los incidentes y los usuarios encargados de responder a los incidentes no podrán reforzar sus sistemas.
Si las responsabilidades no son equitativas, las personas asignadas al horario de guardia nunca desconectan del trabajo y pueden sucumbir fácilmente al agotamiento.
No obstante, disponer de un plan que tenga en cuenta los verdaderos requisitos de cobertura de la organización, equilibre la carga de tiempo entre los equipos de desarrollo y los de operaciones de TI, y recopile datos para promover la mejora continua puede beneficiar a todo el mundo. Esto no solo se traducirá en un mejor servicio para los clientes, sino que también puede ayudar a los empleados a perfeccionar sus destrezas y su producto, y a tener realmente ganas de hacer las guardias.
Cómo mejorar las funciones de los desarrolladores de guardia
Ningún ingeniero ha dicho nunca “¡Estoy deseando pasar la tarde supervisando esta implementación y respondiendo a las posibles interrupciones!”.
Dado que cada vez son más los desarrolladores que asumen la función de mantener los servicios que diseñan, resulta fundamental asegurarse de que estén preparados para sus responsabilidades de guardia, y el mejor momento para evaluar esto es durante el proceso de contratación.
Ahora bien, no es ningún secreto que hay una competencia feroz por conseguir los mejores talentos de la ingeniería. Y no a todo el mundo le motiva solo el dinero, por lo que es posible que pagar más a los desarrolladores por trabajar fuera de su horario no sea lo suficientemente convincente como para cerrar el trato (más adelante, profundizaremos más en el suplemento por guardias). Como es lógico, durante las entrevistas, los ingenieros de software plantearán preguntas sobre la frecuencia con la que tendrán que sacar tiempo de su vida personal para estar de guardia.
Demostrar que dispones de un plan documentado para las guardias que reparte las responsabilidades de forma equitativa entre un equipo competente de desarrolladores y el equipo de SRE puede contribuir en gran medida a asegurar a los nuevos empleados que tu organización tiene la gestión de las guardias bajo control. Con un plan documentado, puedes mostrar una total transparencia durante las entrevistas y cerciorarte de que los candidatos estén preparados para el compromiso de las guardias.
Cinco sencillas formas de facilitar las guardias a los desarrolladores
- Define claramente las responsabilidades de las guardias
Las responsabilidades durante las guardias se deben definir de manera clara. De este modo, se evita el agotamiento, la confusión y la frustración. Te recomendamos dejar por escrito el proceso de respuesta ante incidentes y las expectativas de lo que significa estar de guardia. - Asegúrate de asignar las alertas a la persona adecuada
El ajuste eficaz de la herramienta de alertas no se debe pasar por alto. Asegurarse de tener un flujo de alertas claro con las notificaciones y anulaciones adecuadas puede evitar muchos quebraderos de cabeza. - Asigna personas de respaldo principales y secundarias para responder ante incidentes
La vida no se detiene porque alguien esté de guardia. Al igual que una emergencia personal inesperada puede hacer que un desarrollador se quede sin conexión durante la jornada laboral, puede pasar lo mismo cuando esté de guardia. Asignar a una persona de respaldo limita el posible daño causado por este tipo de interrupción. - Ajusta tus horarios
Los equipos no son algo estático y tampoco debería serlo el horario de las guardias. Recomendamos una política corporativa de revisión, ajuste y mejora de tus prácticas de guardia de forma continua. - Asegúrate de que tengan acceso y estén familiarizados con todas las herramientas de diagnóstico pertinentes
Cada equipo usa diferentes herramientas para llevar un seguimiento del estado operativo, el rendimiento de las aplicaciones, el uso de los recursos, etc. Asegúrate de que tus ingenieros de guardia conozcan las herramientas que van a tener que utilizar y que tengan el acceso adecuado a ellas.
Cómo mejorar las guardias en las funciones de soporte y servicios de TI
No solo los desarrolladores pasan más tiempo de guardia. Cada vez más, en el caso de los equipos de soporte y servicios de TI, la asistencia continua es esencial para contribuir al correcto funcionamiento de la empresa.
Estos equipos se enfrentan a muchos de los mismos retos que los desarrolladores de guardia: estrés, agotamiento, funciones y responsabilidades poco claras o acceso a las herramientas.
Los equipos de TI suelen tener la tensión añadida de encontrarse a menudo en el mismo edificio que sus clientes, que pueden ralentizar los procesos con una avalancha de interrupciones (por correo electrónico, por Slack o incluso en persona) sobre el incidente.
A continuación, presentamos algunas tácticas para ayudar a gestionar los incidentes de TI:
- Comunicación rápida y transparente: la comunicación proactiva de los incidentes de TI muestra que te preocupas y que tienes el control.
- Haz un seguimiento de lo importante: la mayoría de los equipos de servicios de TI utiliza algún tipo de software de centro de asistencia. Es fundamental que no solo uses campos de entrada de datos de formato libre para capturar los detalles de cada ticket.
- Pon en práctica un sistema de supervisión: históricamente, muchos equipos de operaciones de TI supervisaban personalmente los paneles de rendimiento para estar atentos a las interrupciones. Hazle un favor al equipo y deja que las herramientas de supervisión y alertas se encarguen de gestionar esto.
Suplemento por guardias
Un buen plan de suplemento por guardias recompensa a los empleados por sus conocimientos y el tiempo que dedican a trabajar fuera de su horario. Si los empleados sienten que se les trata bien, a su vez, se preocuparán por la empresa y contribuirán a que todo vaya como la seda.
Según la Ley de Normas Laborales Justas (FLSA) de Estados Unidos, una ley federal que establece los requisitos de salario mínimo, horas extra y edad mínima para los empresarios y trabajadores, si un empleado está de guardia, pero es libre de hacer lo que quiera con su tiempo, se considera que está a la espera de tener que intervenir y, por tanto, no está trabajando.
Si a alguien le limitan su tiempo libre y no puede hacer lo que quiera fuera de su horario laboral, según la FSLA, ese tiempo de guardia puede considerarse como “horas trabajadas” y el empleado puede tener derecho a una retribución.
La legislación local puede variar, así que no olvides consultar a un experto. A partir de ahí, intenta dar con un plan de suplemento por guardias que sea competitivo y justo, y favorezca una política corporativa de responsabilidad compartida.
Diferentes tipos de planes de suplemento por guardias
1. Guardia con incentivos
Los planes de suplemento por guardias con incentivos recompensan a los empleados que, voluntariamente, trabajan en horas de guardia a cambio de días libres adicionales, horarios flexibles, sueldos base más altos o alguna combinación de estas opciones.
La ventaja de este enfoque del suplemento por guardias es que aumenta el sentido de propiedad sobre los servicios, lo que puede dar paso a sistemas más resilientes.
Además, ofrecer un generoso tiempo de descanso y un suplemento competitivo también permite a los empleados saber que se valora su trabajo, lo cual evita el agotamiento y reduce la rotación de personal.
2. Pago de guardia por horas extra programadas
El suplemento por guardias remunerado conlleva el pago directo a los empleados por el tiempo que pasan de guardia o que tienen programado para trabajar, aunque no surja ninguna incidencia durante su turno.
La ventaja más evidente de este modelo de suplemento por guardias es el incentivo tangible. Saber que recibes una compensación por llevar un buscapersonas (o, más probablemente, un portátil y un teléfono móvil) hace que sea más fácil justificar la carga de estar de guardia y a disposición de la empresa, a pesar de que no haya ninguna incidencia.
3. Pago de guardia por el tiempo dedicado a las incidencias
Otro modelo de retribución de las guardias consiste en ofrecer un suplemento a los empleados únicamente cuando trabajan en un incidente. Estas son algunas maneras de calcularla:
- Cantidad total pagada por trabajar de guardia
- Tarifa por horas por el tiempo dedicado a trabajar en alertas o incidencias
- Tarifa del número de alertas e incidencias en las que se ha trabajado
La ventaja de este modelo es que los empleados reciben un suplemento por el trabajo adicional que llevan a cabo fuera del horario normal de trabajo. Un posible inconveniente es la falta de un incentivo económico para reducir las alertas y las incidencias, lo que podría poner en riesgo la integridad general de los sistemas.
4. Pago de guardia por horas extra programadas y tiempo dedicado a las incidencias
Se trata de una combinación de los dos modelos anteriores. Algunas empresas ofrecen un suplemento por estar de guardia y una cantidad adicional por las alertas recibidas y las incidencias atendidas. La ventaja de este modelo de suplemento por guardias es que los empleados sienten que tienen una buena retribución por el tiempo y el esfuerzo adicionales que la organización les pide que dediquen. Además, si alguien se queda atascado con una incidencia especialmente difícil que le roba parte de su tiempo personal, se le compensa económicamente por el sacrificio. Pero, de nuevo, plantéate si tiene sentido en la política corporativa crear una recompensa indirecta por la existencia de errores en el software.
Otros aspectos que tener en cuenta
Estos son los modelos habituales para los planes de suplemento por guardias A continuación, te explicamos otros aspectos que se deben tener en cuenta según corresponda:
- Número de alertas recibidas dentro y fuera del horario de trabajo
Este número es fundamental para determinar si necesitas cobertura de horario de guardia después del horario de trabajo o un equipo especial de guardia durante el horario de trabajo.
- Tiempo de trabajo en los incidentes
La complejidad y la importancia de los incidentes de tu organización pueden variar. Un ingeniero de guardia puede dedicar un par de minutos a una incidencia o pasar la noche entera intentando solucionar un incidente. Debe tenerse en cuenta y evaluarse la cantidad de tiempo y esfuerzo que se dedica durante un turno de guardia típico para proporcionar un suplemento justo.
- Tiempo medio de confirmación de recepción o resolución
Según las políticas de escalación, el tiempo de confirmación de recepción es crítico para conseguir una resolución rápida. Medir el tiempo medio de confirmación de recepción y el tiempo medio de resolución en un plazo concreto ayuda a los gestores a determinar los incentivos adicionales.
Conclusión
Explorar las políticas de las guardias puede ser mucho más sencillo si se tienen las herramientas adecuadas. Con mejores herramientas de gestión de incidentes, es posible gestionar la planificación de las guardias, supervisar las alertas y mantener la satisfacción y el bienestar de los clientes. Las capacidades de alerta de Jira Service Management permiten a los equipos centralizar y filtrar las alertas en todas tus herramientas de supervisión, registro y CI/CD para responder rápidamente a las incidencias al mismo tiempo que se evita el exceso de alertas.
Configuración de un horario de guardias con Opsgenie
En este tutorial aprenderás a configurar un horario de guardias, aplicar reglas de anulación, configurar notificaciones de guardias y mucho más, todo dentro de Opsgenie.
Leer el tutorialPrácticas recomendadas para la comunicación de incidentes
La comunicación de incidentes es el proceso de alertar a los usuarios de que un servicio está experimentando algún tipo de interrupción del servicio o un rendimiento degradado.
Leer el artículo