Cómo mejorar tu flujo de trabajo de soporte de TI
¿Qué es la gestión de la continuidad del servicio de TI?
La gestión de continuidad del servicio de TI (ITSCM) es un componente clave de la prestación de servicios de ITIL . Se centra en la planificación de la prevención, predicción y gestión de incidentes con el objetivo de mantener el rendimiento y la disponibilidad del servicio en los niveles más altos posibles antes, durante y después de un incidente a nivel de desastre.
El objetivo de ITSCM es reducir el tiempo de inactividad, los costes y el impacto empresarial de los incidentes mediante procesos eficaces y estandarizados que deben aplicarse cuando sucedan los inevitables incidentes.
Sin un plan, hay muchos factores que pueden ralentizar (incluso detener) la recuperación de incidentes. Después de todo, tu experto de guardia podría tener que responder amodorrado a las tres de la mañana. También podría haber pasado unos meses trabajando en otras cosas y estar totalmente desconectado del código en cuestión. Puede que entre en pánico al ver la dimensión del incidente, o tocarle la papeleta al último en llegar al equipo de recuperación ante desastres, sin ninguna experiencia en la resolución de incidencias.
Tener un plan bien documentado y claro para la gestión de la continuidad del servicio reducirá los retrasos causados por la curva de aprendizaje, por haber pasado un tiempo sin contacto con el código, por el pánico ante un desastre o por las alertas que suenan en mitad de la noche.
ITSCM e ITIL 4
En ITIL 4, la gestión de continuidad del servicio es un proceso destinado a respaldar la gestión de la continuidad empresarial (BCM). El objetivo del proceso es garantizar que, después de grandes interrupciones, los servicios estén recuperados y funcionando dentro de unos plazos acordados.
ITSCM y gestión de incidentes
ITIL 4 distingue entre la gestión de incidentes (que se ocupa de incidentes de diversos niveles de impacto) e ITSCM (que trata de planificar desastres a gran escala).
¿Qué es exactamente un desastre? La respuesta puede ser diferente para cada empresa, pero el Business Continuity Institute ofrece esta definición: "Un evento repentino y no planificado que causa grandes daños o pérdidas graves a una organización. Provoca que una organización no proporcione funciones empresariales críticas durante algún período de tiempo mínimo preestablecido".
Toda empresa deberá definir y documentar tres factores: la escala de lo que se considera desastre, el tiempo mínimo preestablecido y la definición de las funciones críticas del negocio.
ITSCM y gestión de la continuidad empresarial (BCM)
La gestión de la continuidad empresarial es un proceso gestionado fuera de TI, que identifica los riesgos para el negocio y trabaja para mitigarlos. Algunos riesgos pueden estar relacionados con TI, incluidos los incidentes a nivel de desastre, y otros pueden estar fuera del control de TI, como desastres naturales o incendios de las instalaciones.
La gestión de la continuidad empresarial (BCM) abarca ITSCM y otros procesos de mitigación de riesgos, por lo que tiene lógica que los equipos de TI colaboren con el equipo de BCM para crear lo siguiente:
- Un plan de continuidad empresarial (BCP) que incluye planes para la prevención y la recuperación de incidentes de TI a nivel de desastre
- Análisis de impacto empresarial (BIA) que identifican el posible impacto de un desastre de TI en el negocio
Objetivos de ITSCM
Desde una perspectiva empresarial, el objetivo de ITSCM es reducir el tiempo de inactividad, los costes y el impacto empresarial de los incidentes a nivel de desastre. Estos son los objetivos en un nivel más táctico:
- Colaborar estrechamente con BCM para proteger la continuidad general del negocio
- Crear y gestionar planes para la continuidad del servicio de TI y la recuperación en caso de desastre
- Colaborar con proveedores para minimizar el impacto de los tiempos de inactividad en productos y servicios, por la repercusión que esto tiene para el negocio
- Analizar el riesgo y el impacto, y revisar los planes en consecuencia con el tiempo
El proceso de ITSCM
En Atlassian, nuestro propio plan de continuidad se basa en la idea de que el proceso de planificación de desastres es un proceso continuo que debe estar impulsado por los directivos y que debe someterse a exhaustivas pruebas. Estamos decididos a no #@! % a los clientes. Nuestro proceso incluye planificación, comunicación, responsabilidades claras, pruebas y mejora continua.
Planificación
Para comenzar la planificación, hazte preguntas generales y, después, construye un plan a partir de tus respuestas. Estas podrían ser algunas primeras preguntas:
- ¿Cuál es nuestra respuesta ante incidentes?
- ¿Qué valores seguiremos?
- ¿Qué tipo de desastres tenemos que planificar? ¿Cuáles son los riesgos y amenazas inherentes a nuestro negocio?
- ¿Qué sistemas debemos respaldar? ¿Cuáles son críticos?
- ¿Cómo responderemos ante cada desastre?
- ¿Dónde está la información que necesitaremos para respaldar y recuperar sistemas críticos?
- ¿Cómo podemos centralizar esa información y simplificar los procesos de recuperación?
- ¿Los equipos que van a ocuparse de la gestión pueden revisar la información y la documentación del proceso y colaborar en ellas?
Cuando hayas respondido, define lo siguiente con tus respuestas:
- Políticas para la recuperación ante desastres
- Alcance de las responsabilidades de TI
- Alcance del impacto empresarial de cada riesgo
- Planes y procesos de cada escenario de riesgo
- Necesidades de personal y documentación
La clave para que todo vaya bien con la planificación de ITSCM es documentar y crear plantillas del plan resultante, para que sea claro y repetible. Tener activos como un manual de estrategias de respuesta ante incidentes u otros manuales de procedimiento puede ser una fuente de veracidad y organización para los equipos de respuesta durante un escenario de alto riesgo.
Siguiendo el espíritu de ITSCM, una solución con acceso a una base de conocimientos, como Jira Service Management, que cuenta con la tecnología de Confluence, permite una documentación continua que a su vez permite revisiones, optimizaciones y colaboraciones. De esta manera, los equipos de respuesta tienen acceso a la documentación de resoluciones previas y a recursos actualizados.
Responsabilidades claras
En caso de desastre, ¿quién es responsable? ¿Quién se encarga de mantener y actualizar planes, procesos y documentación? El ITSCM siempre debe tener claras las funciones y responsabilidades, no solo con respecto a los desastres en sí, sino también para la vigilancia y la mejora permanentes. Con Jira Service Management, los equipos de respuesta pueden etiquetar a la parte o la persona adecuada en las incidencias para garantizar que las responsabilidades se deleguen correctamente y facilitar la colaboración interdisciplinaria.
En Atlassian, parte de nuestro concepto consiste en celebrar reuniones periódicas de recuperación ante desastres con nuestros ingenieros de fiabilidad del sitio y nuestro equipo de riesgos y cumplimiento normativo. Analizan carencias en la recuperación ante desastres y determinan dónde es necesario realizar planes, mejoras, evaluaciones o cambios adicionales.
Comunicación
Un valor fundamental en Atlassian es la mentalidad abierta y creemos que, cuanto mejor conozca tu organización los planes de ITSCM, más efectivos serán esos planes.
Ofrecer canales de comunicación flexibles durante el proceso de respuesta ante incidentes permite a los equipos mantenerse en contacto mediante el método que prefieran. Jira Service Management integra varios canales de comunicación para minimizar el tiempo de inactividad, como el widget de estado integrable, la statuspage especializada, el correo electrónico, las herramientas de chat, las redes sociales y los SMS.
La comunicación no solo mantiene implicadas a las partes interesadas y ayuda a los altos directivos a evitar el pánico durante los incidentes críticos. También permite al equipo recurrir a la ayuda de otros equipos si es necesario y mitigar el riesgo de fricción que puede causar la confusión en la organización.
Pruebas
¿Cómo puedes saber si tus planes funcionan sin probarlos? Esta es una pregunta fundamental para ITSCM y la razón por la que las pruebas y los simulacros de gestión de incidentes son cruciales para el éxito de la práctica.
Las pruebas pueden servir para identificar puntos débiles en el proceso, problemas imprevistos y puntos en los que los equipos pueden necesitar formación o mejor documentación.
Evaluar y mejorar
ITSCM no es un proceso único. Requiere una planificación cuidadosa por adelantado, y formación, evaluación y mejora continuas. Por eso, celebramos reuniones periódicas de recuperación ante desastres. También probamos las copias de seguridad del sistema y ejecutamos simulacros sobre lo que ocurre en caso de interrupción del servicio del centro de datos o de fallo en la región de AWS. Por todo esto, cualquier plan ITSCM que valga la pena está en cambio permanente y en constante supervisión.
La mayoría de las empresas imaginan el proceso ITSCM como una serie de pasos, pero para nosotros es más bien un círculo. La planificación debería dar lugar a funciones y responsabilidades claramente definidas. A partir de ahí, el equipo debe comunicarse en toda la organización, probar una y otra vez, evaluar, supervisar y mejorar y, en esas mejoras, seguir actualizando el plan, definiendo todavía más roles y llevando adelante la comunicación.
De nuevo, es aquí donde entra en juego una base de conocimientos integrada y colaborativa. Los artículos de la base de conocimientos son un recurso valioso para la evaluación y la documentación. Los informes de los análisis retrospectivos de incidentes son cruciales para revisar y reparar después de un incidente, pero también pueden servir de recurso consolidado para posibles problemas en el futuro. Jira Service Management, operado por Confluence, ofrece una potente plataforma colaborativa para ejecutar soluciones de evaluación y mejora.
Roles y responsabilidades de ITSCM
Con el fin de planificar e implementar con eficacia prácticas de ITSCM en toda la organización, muchas empresas nombran un Gestor de continuidad del servicio y un equipo de Recuperación de continuidad del servicio.
Gestor de continuidad del servicio
Como su nombre indica, el Gestor de continuidad del servicio se encarga de supervisar la continuidad del servicio. Esta persona suele estar al cargo del proceso de principio a fin, liderando el desarrollo de planes, administrando actividades de supervisión y evaluación continuas, y supervisando los planes en acción en caso de desastre.
Suele ser un profesional de asistencia técnica con experiencia y de alto nivel, u ocupar un rol de gestión y no estar directamente involucrado con la tecnología en su trabajo diario.
Equipo de recuperación de continuidad del servicio
Liderado por el Gestor de continuidad del servicio, este equipo se encarga de realizar pruebas y simulacros de incidentes y mejorar continuamente ITSCM. El equipo suele incluir personal técnico, profesionales de control de calidad o usuarios para pruebas, y representantes de departamentos de toda la organización que se ocupan de la comunicación entre ITSCM y sus respectivos equipos.
La importancia de ITSCM
Las organizaciones con planes claros para la recuperación ante desastres se recuperarán más rápida y plenamente en caso de desastres.
ITSCM no se ocupa de planificar las interrupciones diarias. Lo que trata es de abordar los peores escenarios y garantizar que, si suceden, causen una interrupción mínima en la vida de clientes y empleados.
Estas son tres ventajas claras de una buena práctica de ITSCM:
- Si se produce un desastre, un buen plan ITSCM permitirá recuperar rápidamente los servicios esenciales.
- La organización siempre está preparada para un desastre grave y puede reaccionar de forma rápida y apropiada.
- Todas las personas de la empresa saben qué sucederá en caso de desastre y en cuánto tiempo podrán contar de nuevo con los sistemas.
Descubre cómo ITSCM mejora la calidad del servicio de atención al cliente y minimiza el tiempo de inactividad de la organización con Jira Service Management.
Manual de gestión de incidentes de Atlassian
Este manual incluye los procesos de gestión de incidentes reales que hemos desarrollado como compañía global con miles de empleados y más de 200 000 clientes.
Consigue el manual¿En qué consiste la gestión de problemas? Una guía
La gestión de problemas permite a los equipos de TI evitar incidentes identificando el origen del problema. Descubre el proceso general, sus ventajas y las prácticas recomendadas.
Leer el artículo