Recursos
Gestión de servicios para equipos de operaciones de TI, desarrollo y empresariales

Ofrece una gestión de servicios de alta velocidad y a gran escala.

Conseguirlo gratis

Más información

Cómo gestionar la prestación integral de servicios de TI

Consulta nuestros consejos para mejorar tus prácticas de gestión de servicios.

Más información

Todo lo que necesitas saber para empezar a usar JSM

Estas guías lo cubren todo, desde lo básico hasta prácticas recomendadas avanzadas.

Ver la guía

Biblioteca de recursos de Jira Service Management

Consulta nuestros artículos técnicos, casos prácticos, informes y mucho más para obtener toda la información que necesitas.

Ver biblioteca

Recursos
Gestión de servicios para equipos de operaciones de TI, desarrollo y empresariales

Ofrece una gestión de servicios de alta velocidad y a gran escala.

Conseguirlo gratis

Más información

Cómo gestionar la prestación integral de servicios de TI

Consulta nuestros consejos para mejorar tus prácticas de gestión de servicios.

Más información

Todo lo que necesitas saber para empezar a usar JSM

Estas guías lo cubren todo, desde lo básico hasta prácticas recomendadas avanzadas.

Ver la guía

Biblioteca de recursos de Jira Service Management

Consulta nuestros artículos técnicos, casos prácticos, informes y mucho más para obtener toda la información que necesitas.

Ver biblioteca

Gestión de incidentes para equipos de alta velocidad

¿Qué es un presupuesto de errores y por qué es importante?

Todos los equipos de desarrollo, de operaciones y de TI saben que a veces se producen incidentes.

Incluso las empresas más grandes con el talento más brillante y una reputación de casi el 100 % de tiempo de actividad ven con frustración cómo sus sistemas también caen a veces. Basta con mirar a Apple, Delta o Facebook, que han perdido decenas de millones en incidentes en los últimos cinco años.

Esta realidad significa que los acuerdos de nivel de servicio (SLA) nunca deben prometer un tiempo de actividad del 100 %, porque es una promesa que ninguna empresa puede cumplir.

También significa que, si tu empresa es muy buena evitando o resolviendo incidentes, cabe la posibilidad de que arrases sistemáticamente con tus objetivos de tiempo de actividad. Tal vez prometas un 99 % de tiempo de actividad y en realidad te acerques al 99,5 % o quizás augures un 99,5 % de tiempo de actividad y en realidad alcances el 99,99 % en un mes normal.

Cuando esto ocurre, los expertos del sector recomiendan que, en lugar de poner las expectativas de los usuarios demasiado altas con una superación constante de tus promesas, debes tomar ese 0,99 % adicional como un presupuesto de errores, es decir, como tiempo que tu equipo puede usar para asumir riesgos.

¿Qué es un presupuesto de errores?

Un presupuesto de errores es el plazo máximo que un sistema técnico puede fallar sin que haya consecuencias contractuales.

Por ejemplo, si tu acuerdo de nivel de servicio (SLA) especifica que los sistemas funcionarán el 99,99 % del tiempo antes de que la empresa tenga que compensar a los clientes por la interrupción del servicio, eso significa que tu presupuesto de errores (o el tiempo que tus sistemas pueden estar caídos sin que haya consecuencias) es de 52 minutos y 35 segundos al año.

Si tu SLA promete un tiempo de actividad del 99,95 %, tu presupuesto de errores es de 4 horas, 22 minutos y 48 segundos. Y con una promesa del SLA de un tiempo de actividad del 99,9 %, tu presupuesto de errores es de 8 horas, 46 minutos y 12 segundos.

¿Por qué los equipos técnicos necesitan presupuestos de errores?

De primeras, los presupuestos de errores no parecen demasiado importantes; son solo otra métrica que los equipos de TI y DevOps deben controlar para asegurarse de que todo funcione sin problemas, ¿verdad?

Afortunadamente, la respuesta es “No”. Los presupuestos de errores no son solo una forma cómoda de asegurarte de que cumples las promesas contractuales, sino también una oportunidad para que los equipos de desarrollo innoven y asuman riesgos.

Como explicamos en nuestro artículo de SRE:

“El equipo de desarrollo puede ‘gastar’ este presupuesto de errores como prefiera. Si el producto está funcionando sin problemas, con pocos o ningún error, podrá lanzar lo que quiera, cuando quiera. Por el contrario, si el equipo ha cumplido o superado el presupuesto de errores y está funcionando conforme al SLA definido o por debajo de este, se interrumpirán todos los lanzamientos hasta reducir el número de errores a un nivel que permita que estos lanzamientos puedan continuar”.

La ventaja de este enfoque es que anima a los equipos a minimizar los incidentes reales y a maximizar la innovación asumiendo riesgos dentro de unos límites aceptables. También acorta distancias entre los equipos de desarrollo, cuyos objetivos son la innovación y la agilidad, y de operaciones, que se preocupa por la estabilidad y la seguridad. Mientras el tiempo de inactividad sea bajo, los desarrolladores podrán seguir siendo ágiles e impulsar cambios sin desavenencias con el equipo de operaciones.

Cómo usar un presupuesto de errores

En primer lugar, deberás consultar tus SLA y SLO. ¿Qué objetivos has establecido para el tiempo de actividad o las solicitudes exitosas del sistema? ¿Qué promesas ha hecho tu empresa a los clientes? Las respuestas a estas preguntas dictarán tu presupuesto de errores.

Presupuestos de errores basados en el tiempo de actividad

La mayoría de los equipos supervisan el tiempo de actividad mensualmente. Si la disponibilidad es superior a la cifra prometida por el SLA/SLO, el equipo podrá publicar nuevas funciones y asumir riesgos. Por el contrario, si la cifra está por debajo del objetivo, las publicaciones se detendrán hasta que las cifras objetivo vuelvan a estar en orden.

Para utilizar este método con eficacia, tendrás que convertir tu objetivo de SLO (generalmente un porcentaje) en cifras reales con las que los desarrolladores puedan trabajar. Esto significa calcular en cuántas horas y minutos se convierten realmente tu 1 %, 0,5 % o 0,1 % del tiempo de inactividad permitido. Los objetivos más habituales son los siguientes:

SLA target	Tiempo de inactividad anual permitido	Tiempo de inactividad mensual permitido
Tiempo de actividad del 99,99 %	Tiempo de inactividad anual permitido 52 minutos, 35 segundos	Tiempo de inactividad mensual permitido 4 minutos, 23 segundos
Tiempo de actividad del 99,95 %	Tiempo de inactividad anual permitido 4 horas, 22 minutos, 48 segundos	Tiempo de inactividad mensual permitido 21 minutos, 54 segundos
Tiempo de actividad del 99,9 %	Tiempo de inactividad anual permitido 8 horas, 45 minutos, 57 segundos	Tiempo de inactividad mensual permitido 43 minutos, 50 segundos
Tiempo de actividad del 99,5 %	Tiempo de inactividad anual permitido 43 horas, 49 minutos, 45 segundos	Tiempo de inactividad mensual permitido 3 horas, 39 minutos
Tiempo de actividad del 99 %	Tiempo de inactividad anual permitido 87 horas, 39 minutos	Tiempo de inactividad mensual permitido 7 horas, 18 minutos

Presupuestos de errores basados en solicitudes exitosas

Los SLO tienen menos detractores que los SLA, pero pueden dar lugar a los mismos problemas si son poco precisos, demasiado complicados o imposibles de cuantificar. La clave para que los SLO no hagan que los ingenieros se tiren de los pelos es la simplicidad y la claridad. Solo las métricas más importantes deberían considerarse SLO, los objetivos deberían exponerse con un lenguaje sencillo y, al igual que con los SLA, siempre deberían dar cuenta de incidencias tales como los retrasos provocados por los clientes.

Mantente al tanto de los SLA para resolver las solicitudes en función de las prioridades y usa reglas de escalación automatizadas para notificar a los miembros adecuados del equipo y evitar incumplimientos de SLA con Jira Service Management.

Prueba Jira Service Management de forma gratuita

Tutorial

Descubre la comunicación de incidentes con Statuspage

En este tutorial, te mostraremos cómo utilizar plantillas de incidentes para comunicarte eficazmente durante las interrupciones. Puedes aplicarlo a muchos tipos de interrupciones del servicio.

Leer el tutorial

A continuación

La importancia de un proceso de análisis retrospectivo de los incidentes

El análisis retrospectivo de un incidente, también conocido como "revisión posincidente", es la mejor manera de repasar lo sucedido durante un incidente y plasmar las lecciones aprendidas.

Leer el artículo

Contenido destacado

Jira

Confluence

Jira Service Management

Trello

Rovo NUEVO

Jira Product Discovery NUEVO

Compass NUEVO

Guard NUEVO

Loom NUEVO

Desarrolladores

Jira

Bitbucket

Compass NUEVO

Gestores de productos

Jira

Confluence

Jira Product Discovery NUEVO

Profesionales de TI

Jira Service Management

Guard NUEVO

Equipos empresariales

Jira

Confluence

Trello

Loom NUEVO

Equipos de liderazgo

Jira

Confluence

Loom NUEVO

Jira Align

Equipos

software

Marketing

TI

Solución

Por tamaño del equipo

Por sector

¿Por qué Atlassian?

Integraciones

Clientes

FedRAMP

Resistencia

Plataforma

Trust Center

Recursos

Atención al cliente

Buscar un Partner

Programa de migración

Universidad

Soporte

Tutorial

Jira Service Management

Gestión de servicios de TI (ITSM)

Guía del producto

Biblioteca de recursos

Gestión de servicios para equipos de operaciones de TI, desarrollo y empresariales

Cómo gestionar la prestación integral de servicios de TI

Todo lo que necesitas saber para empezar a usar JSM

Biblioteca de recursos de Jira Service Management

Jira Service Management

Gestión de servicios de TI (ITSM)

Guía del producto

Biblioteca de recursos

Gestión de servicios para equipos de operaciones de TI, desarrollo y empresariales

Cómo gestionar la prestación integral de servicios de TI

Todo lo que necesitas saber para empezar a usar JSM

Biblioteca de recursos de Jira Service Management

Gestión de incidentes para equipos de alta velocidad

¿Qué es un presupuesto de errores y por qué es importante?

¿Qué es un presupuesto de errores?

¿Por qué los equipos técnicos necesitan presupuestos de errores?

Cómo usar un presupuesto de errores

Presupuestos de errores basados en el tiempo de actividad

SLA target

Tiempo de inactividad anual permitido

Tiempo de inactividad mensual permitido

Presupuestos de errores basados en solicitudes exitosas

Descubre la comunicación de incidentes con Statuspage

La importancia de un proceso de análisis retrospectivo de los incidentes