Close

Gestión de incidentes para equipos de alta velocidad

¿Qué pueden aprender los equipos de gestión de incidentes de la aviación?

Es de dominio público que volar es la forma más segura de viajar, y que la aviación ha ido mejorando decididamente su gestión de incidentes durante décadas. De hecho, en 1959, por cada millón de vuelos, se produjeron 40 accidentes mortales. Una década después, esa cifra había descendido a dos. En la actualidad, son 0,1.

En general, se podría decir que los riesgos son mayores en la aviación que en el software (probablemente tengamos una probabilidad inferior de morir por una interrupción del servicio del comercio electrónico que por un funcionamiento incorrecto de los equipos del avión), pero la práctica diaria de prevención y gestión de incidentes no es tan distinta. Ambos sectores gestionan el riesgo, emiten alertas y tienen que combatir la fatiga por exceso de estas. Ambos sectores necesitan planificaciones que se ocupen de necesidades urgentes las 24 horas. Ambos sectores sufren incidentes con niveles de gravedad variables. Ambos supervisan los KPI religiosamente y ambos deben rendir cuentas a sus clientes y al público en general.

Es por estos motivos por los que probablemente podremos aprender algunas cosas del enfoque estricto que aplica la aviación para mejorar la prevención y gestión de incidentes. Aquí tienes cinco prácticas que tu equipo puede tomar prestadas de las principales empresas de aviación:

Diseña y lanza teniendo en cuenta la gestión de incidentes

Tanto en la aviación como en la tecnología, diseñar teniendo en cuenta los incidentes puede acabar teniendo una repercusión enorme sobre los costes finales de esos incidentes.

En el ámbito de la aviación, la introducción de los asientos 16G en 1988 incorporó la protección contra lesiones en la cabeza y el pecho, y contra la posibilidad de quedarse atrapado en un asiento debido a la deformación durante un accidente. El beneficio estimado de estos asientos, en vidas salvadas y en lesiones evitadas, ascendió a 78,9 millones de dólares en 25 años. Y todo ello gracias al diseño, que tiene en cuenta la posibilidad de que se produzcan incidentes.

En el mundo tecnológico, obtenemos un beneficio parecido por el auge del concepto "you built it, you run it" ("tú lo creas, tú lo gestionas"), que combina las responsabilidades de desarrollo y gestión de incidentes. Uno de los resultados positivos de este enfoque es que los equipos encargados de desarrollar la tecnología son más conscientes de los riesgos de los incidentes y más propensos a trabajar para prevenirlos y minimizar su repercusión.

Automatiza para reducir la posibilidad de introducir errores

El error del piloto figura como la causa más habitual de los desastres de aviación. En el caso de los incidentes de software y de TI, las personas suelen ser el blanco de las acusaciones. La automatización puede ayudar en ambos campos, y en muchos sectores se ha demostrado que reduce considerablemente los errores. Por lo tanto, tiene todo el sentido que la aviación esté avanzando cada año hacia una mayor automatización. En la actualidad, el piloto automático ya se encarga de más o menos el 90 % del vuelo y se están probando opciones totalmente automatizadas.

La naturaleza prolífica del error humano es también el motivo por el que una de las preguntas más importantes que planteamos en Atlassian en nuestros análisis retrospectivos es la siguiente: ¿Hay algo que podamos automatizar para evitar que esto vuelva a suceder? Porque, a menudo, una incidencia se puede evitar con una sencilla corrección técnica.

Un buen ejemplo de esto ocurrió en Atlassian hace un par de años:

"Un ingeniero cometió un grave error en la sintaxis de un archivo de configuración en un componente de un equipamiento crítico, y dejó fuera de servicio a toda la empresa durante 45 minutos. Para hacerse una idea cuantitativa de lo que esto supuso, estamos hablando de cientos de miles de dólares… Los seres humanos cometemos errores. No hay nada que podamos hacer para evitarlo. La pregunta es la siguiente: ¿cómo podemos reducir la probabilidad de que se dé un error humano?

Al final, la corrección, sencilla y permanente, consistió en introducir una comprobación automatizada de inicialización en el archivo de configuración antes de cargarlo, y en acabar eliminando toda interacción humana con la configuración del sistema. En la actualidad, la incidencia causante de la interrupción del servicio se evita mediante una corrección técnica rápida.

Define claramente las prioridades (y básate en ellas para diseñar las alertas).

Si hay algo en lo que sobresale el sector de la aviación es en delimitar implacablemente las prioridades. Porque la verdad es que, incluso en una situación de emergencia, algunas incidencias son más urgentes que otras. Y, cuando un avión está en peligro de estrellarse, te interesa que tu piloto sepa (con gran claridad) qué emergencia requiere su atención y en qué orden.

Por este motivo, aunque el ordenador supervise más de 10 000 puntos de datos de un avión en cualquier momento dado, en tan solo el 10 % de todos los vuelos se le muestra siquiera una sola alerta al piloto. ¿Debe saber el piloto que el nivel de anticongelante de los parabrisas ha pasado de alto a medio? ¿Debe saber que ha fallado una bomba hidráulica y otra ha ocupado su lugar, sin que ello haya afectado al avión o a su trayectoria de vuelo? Según los expertos en aviación, las respuestas son no y no.

Cuando las alertas son necesarias (en el caso de fallo del motor o de incidencia de presurización de la cabina) y estas se muestran en la cabina, sus niveles de prioridad son muy claros, y se indican no solo a través de señales visuales como texto y luces rojas, sino también mediante señales de audio y físicas como, por ejemplo, temblores en el mecanismo de dirección o una advertencia de voz.

Como cabría esperar, cuanto mayor sea el nivel de alerta, mayores serán las señales. Si tu avión está a punto de caer en picado, el piloto recibirá un mensaje en texto rojo, luces rojas, una advertencia de voz y temblores en el mecanismo de dirección.

El nivel inmediatamente inferior tiene todo lo indicado más arriba, excepto por los temblores en los mandos. El siguiente nivel genera luces y un mensaje de texto en amarillo. Y, el siguiente nivel, que no requiere ninguna intervención por parte del piloto, sigue presentando un simple mensaje de texto en amarillo en la pantalla. Esta es una jerarquía rigurosa que hace que a los pilotos les resulte fácil saber a qué deben prestar atención.

Establece umbrales de alerta altos

Aparte de indicar claramente la prioridad en sus alertas, al sector de la aviación se le da muy bien entender qué es lo que tiene que generar una alerta y qué no debe hacerlo en absoluto.

El máximo nivel de prioridad está reservado solo para las peores emergencias: el tipo de emergencia en la que si el piloto no reacciona de inmediato y efectúa acciones definitivas, el avión acabará estrellándose.

El segundo grupo de incidencias prioritarias, a las que se las denomina "advertencias", también requieren una intervención inmediata por parte del piloto, pero no harán que el avión se estrelle en ese mismo momento. Entre ellas se incluyen circunstancias como la pérdida de presión en la cabina o un conflicto en el tráfico que ponga a un avión en peligro de colisión.

El tercer nivel es una precaución, que exige que el piloto sea consciente, pero no que reaccione al instante. Y es aquí donde se hace evidente el implacable establecimiento de niveles en la aviación, ya que hasta el incendio de un motor o un fallo en un único motor podrían ser dignos de tan solo una precaución.

Esta estrategia inflexible de priorización ha ayudado al sector de la aviación a combatir la fatiga por exceso de alertas y a preservar la seguridad de los pasajeros.

Tener bien preparados los manuales de estrategias y las listas de comprobación

Cuando suena una alerta y el piloto se entera de que la unidad de aire acondicionado ha dejado de funcionar (lo que puede provocar un desplome de la presión de la cabina) o de que uno de los motores está en peligro, el sector de la aviación no depende de la formación de ese piloto para resolver el incidente.

Esto se debe a que, aunque la formación del piloto entrará en juego, resulta más seguro (por no decir más rápido) comunicar los próximos pasos directamente. Este es el motivo por el que las alertas en cabina vienen con una checklist de los pasos sucesivos, diseñada para coincidir con la alerta específica. Aunque no se trata exactamente de automatización, este enfoque presenta un beneficio parecido. En lugar de depender completamente de la formación de alguien, el sistema explica en detalle la solución más probable para una incidencia.

Los esfuerzos del sector de la aviación por optimizar las prácticas de GI ayudaron a que otros sectores, como el de la tecnología, pudieran seguir mejorando sus procesos de gestión y respuesta ante incidentes.

Consulta más información sobre cómo puede Jira Service Management ayudar a los equipos a responder ante incidentes, resolverlos y seguir mejorando los procesos posteriormente.