Qué hace YBIYRI para ofrecer servicios siempre activos
Cómo pueden crear las organizaciones una cultura de DevOps que respalde los servicios ininterrumpidos
Krishna Sai
Responsable de ingeniería de soluciones de TI
La naturaleza de los servicios ininterrumpidos requiere una respuesta continua por parte de los equipos ágiles y de DevOps. Estos equipos deben pensar más allá de la actuación frente a un incidente y coordinar las herramientas, los valores y la estructura del equipo para que la excelencia operativa se convierta en una competencia básica.
Desafíos de los servicios ininterrumpidos
Desde que se habló por primera vez de esta práctica hace 14 años, el concepto YBIYRI sigue siendo un desafío para que los equipos de desarrollo modernos cumplan su promesa de acelerar el tiempo de resolución y escalar las prácticas operativas recomendadas. Lamentablemente, muchos equipos siguen encuadrando las competencias, los horarios y los procesos en el marco de la reacción ante un incidente, en lugar de considerarlos la base del éxito a largo plazo.
Los equipos suelen pasarse al enfoque YBIYRI sin la preparación adecuada, por lo que el primer incidente importante a menudo termina siendo una llamada de atención. Sin embargo, la reacción suele ser pensar que no se debe dejar que vuelvan a producirse incidentes. En el intento por conseguirlo, se ponen en marcha barreras de seguridad, puntos de control y otros procedimientos. Además, los tableros de revisión de cambios y las revisiones semanales de las publicaciones pasan a formar parte de los rituales del equipo. Cada cambio se analiza cuidadosamente en un intento por evitar interrupciones. Es cierto que esto suele reducir los incidentes, pero también puede ralentizar la velocidad de desarrollo y la dinámica del producto. Esto puede convertirse en una desventaja competitiva, ya que los competidores más ágiles pueden avanzar mucho más rápido.
Prácticas recomendadas para los servicios ininterrumpidos
Material relacionado
Pruébalo gratis
Ver la solución
Optimiza la gestión de incidentes y la respuesta a estos
Preparación operativa
Uno de los cambios más importantes para los equipos que adoptan el concepto YBIYRI es incluir la preparación operativa en los ciclos de planificación y ejecución de sprints. La preparación operativa puede incluir:
- Crear alertas adecuadas y de alta calidad en el código durante el desarrollo para reducir el tiempo medio de detección (MTTD) y el tiempo medio de aislamiento (MTTI).
- Crear monitores (incluidos monitores sintéticos cuando haga falta) para garantizar que los servicios dependientes funcionan según lo previsto.
- Dedicar tiempo a la creación de los paneles necesarios y formar a todos los miembros del equipo para que sepan usarlos.
- Asegurarse de que los miembros del equipo de guardia no tengan otras responsabilidades de desarrollo durante un sprint.
- Planificar simulaciones de crisis en el servicio para garantizar que las reversiones funcionan como deben.
- Dedicar cierto ancho de banda en los sprints a cerrar acciones de revisiones de incidentes anteriores.
- Abordar las incidencias operativas y de seguridad (actualizaciones/parches/credenciales de despliegue) como parte de los ciclos de sprints.
Todo esto requiere que los propietarios del producto entiendan los objetivos de nivel de servicio (SLO) y los prioricen adecuadamente, junto con los compromisos empresariales relacionados con el desarrollo y la funcionalidad de las funciones.
Adopción de los valores de incidente
Adoptar los valores de incidente a nivel de equipo puede crear una base sólida para el enfoque YBIYRI de un equipo. Los valores de incidente orientan al equipo en la respuesta ante incidentes. Estos valores garantizan que haya una base sólida para una cultura sostenible en torno a la creación y el funcionamiento de un servicio ininterrumpido. Los valores de incidente están diseñados para:
- Guiar la toma de decisiones autónoma de individuos y equipos en incidentes y análisis retrospectivos.
- Crear una cultura de equipo coherente que incluya cómo identificar, gestionar y aprender de los incidentes.
- Sincronizar a los equipos con respecto a la actitud que deben mostrar ante cada parte de la identificación, resolución y reflexión de incidentes.
Un manual de estrategias para valores de incidente es una guía excelente para ayudar a identificar los valores del equipo durante la respuesta ante incidentes y crear un plan para poner esos valores en práctica de forma sistemática. Puede ser útil si tu equipo tiene problemas con la orientación a los clientes, la cohesión del equipo, la percepción común, los niveles de servicio o los compromisos de servicio del Monitor de estado.
En Atlassian, adoptamos los siguientes valores de incidente a nivel de equipo:
Crea con el corazón y equilibrio
Detección
Atlassian se entera antes que nuestros clientes.
Un servicio equilibrado incluye procesos efectivos de supervisión y alerta para detectar los incidentes antes de que lo hagan los clientes. El mejor sistema de supervisión nos alerta de los problemas antes incluso de que se conviertan en incidentes.
Juega en equipo
Respuesta
Escalar, escalar y escalar.
No nos importa que nos despierten por un incidente para el que al final no se nos necesitaba. Pero sí que nos importa que no nos despierten cuando sí que era necesario. Puede que no siempre tengamos las respuestas, así que no hay que dudar en escalar.
No !@#$ al cliente
Recuperación
Pueden pasar mil cosas, el truco está en solucionarlas rápidamente.
A nuestros clientes no les importa por qué se ha interrumpido el servicio. Lo único que les interesa es que lo restauremos lo más rápido posible. Nunca dudes en resolver un incidente rápidamente para que podamos minimizar el impacto en nuestros clientes.
Empresa abierta, sin tonterías
Aprendizaje
Evita las acusaciones.
Los incidentes forman parte de la ejecución de los servicios ininterrumpidos. Nosotros mejoramos los servicios al hacer responsables a los equipos y evitar las acusaciones.
Ser el cambio que deseas
Mejora
No dejes que se repita el mismo incidente.
Identifica la causa raíz para que podamos evitar que el incidente vuelva a ocurrir. Comprométete a realizar cambios específicos en fechas determinadas.
Herramientas para una empresa siempre activa
Además de prácticas y una cultura sólidas, las empresas que ofrecen servicios ininterrumpidos necesitan las herramientas adecuadas. Los equipos que aplican prácticas de DevOps consolidadas utilizan herramientas para facilitar la planificación ágil de proyectos y los sprints, CI/CD, la automatización y las capacidades avanzadas de supervisión y alerta.
Una herramienta moderna de gestión de incidentes como Opsgenie garantiza que recibas alertas importantes en tus canales de notificación preferidos con las latencias más bajas. También ofrece la posibilidad de agrupar las alertas para filtrarlas, especialmente cuando se generan varias alertas a partir de un solo error o fallo. Una herramienta de gestión de alertas debe integrarse perfectamente con las herramientas de tu equipo (por ejemplo, la gestión de registros o los informes de fallos) para que se adapte de forma natural a su ritmo operativo y de desarrollo.
Cada equipo es diferente en cuanto a flujos de trabajo, políticas y partes interesadas. La herramienta de gestión de alertas debe permitir personalizar los horarios de guardias y las reglas de enrutamiento para gestionar las alertas en función de su origen y carga. A menudo, las alertas pueden justificar que un suceso se convierta en incidente. Si esto pasa, la herramienta debe gestionar el incidente sin distracciones mediante la creación automática de un gestor de incidentes. Esto te permitirá gestionar el incidente como si te encontraras en una sala de operaciones con toda la información a mano y con las herramientas de comunicación y colaboración integradas. Por último, la herramienta debe proporcionar informes y análisis avanzados que permitan obtener información sobre las áreas de éxito e identificar las oportunidades de mejora. Además, debe revelar los orígenes de las alertas, el rendimiento del equipo en la respuesta y cómo se distribuyen las cargas de trabajo en las guardias.
En conclusión...
El deseo de los consumidores de hoy en día de tener a su disposición servicios ininterrumpidos cada vez es menos deseo y más necesidad. Muchas empresas adoptan la cultura YBIYRI para desarrollar la agilidad necesaria para satisfacer estas demandas. El obstáculo es que muchas de estas empresas no están equipadas con las herramientas adecuadas ni con las estructuras o prácticas de equipo necesarias para mantener esta velocidad.
Si planeas cambiar a una cultura de DevOps con el concepto YBIYRI para tu equipo, estos son algunos pasos que debes seguir:
- Prepara a tu equipo para que controle todas las fases de desarrollo y funcionamiento de la aplicación o el servicio.
- Garantiza la coordinación con los propietarios de producto para que los SLO tengan prioridad en la planificación de sprints.
- Adopta un conjunto de valores de incidente que sirvan de pauta cuando el equipo tenga que responder ante un incidente.
- Proporciona a tu equipo una herramienta de gestión de incidentes y alertas moderna como Opsgenie, que es fiable, rápida y flexible.
Descarga nuestro manual gratuito de gestión de incidentes y empieza a utilizar Opsgenie de forma gratuita.
Compartir este artículo
Siguiente tema
Lecturas recomendadas
Consulta estos recursos para conocer los tipos de equipos de DevOps o para estar al tanto de las novedades sobre DevOps en Atlassian.