Gestión de incidentes para equipos de alta velocidad
Familiarízate con el ciclo de vida de la respuesta ante incidentes
Si te juntas durante el tiempo suficiente con profesionales de la seguridad y la gestión de incidentes, acabarás observando un patrón. Las personas más inteligentes de estos sectores piensan en ciclos, no en líneas rectas.
¿Por qué? ¿Y qué significa eso? Significa que cada incidente y cada interrupción del servicio no es un evento aislado que empieza en un punto y acaba en otro (aunque así pudiera parecerlo). Los incidentes nos dan una oportunidad para aprender.
El mero hecho de que un servicio vuelva a estar "operativo" no significa que el trabajo de tu equipo haya concluido. Las actividades posincidente deberían llevarte a planificar hojas de ruta futuras, a cambiar tu forma de prepararte para los incidentes en el futuro y a descubrir cosas nuevas que desarrollar y que te ahorrarán más incidentes en el futuro. Es un ciclo interminable de mejoras, y existen formas distintas de concebir las diversas fases en función de la doctrina a la que te adscribas.
¿Qué es un ciclo de vida de la respuesta ante incidentes?
La respuesta ante incidentes es el proceso mediante el cual una organización reacciona ante amenazas de TI, como es el caso de los ciberataques, las vulneraciones de seguridad y el tiempo de inactividad de los servidores.
El ciclo de vida de la respuesta ante incidentes es el marco de trabajo pormenorizado de tu organización para identificar y reaccionar ante una interrupción del servicio o ante una amenaza de seguridad.
El ciclo de vida de respuesta ante incidentes de Atlassian
1. Detectar el incidente
Nuestro proceso de detección de incidentes suele comenzar con herramientas de supervisión y alertas, aunque a veces la primera noticia de un incidente nos llega a través de los clientes o los miembros del equipo.
Dado que las alertas de incidentes pueden provenir de diferentes fuentes, tener implementada una solución que integre varias herramientas de alertas y avisos puede marcar la diferencia entre dar una respuesta caótica e inconexa o una respuesta colaborativa y coordinada. Herramientas como Jira Service Management permiten a los equipos personalizar y filtrar las alertas en todas las plataformas de supervisión, registro y de CI/CD. Así pueden centrarse rápidamente en los incidentes y evitan verse desbordados por las alertas.
2. Definir los canales de comunicación del equipo
Unos de los primeros pasos más importantes consiste en definir los canales de comunicación del equipo encargado de los incidentes. En esta fase, el objetivo consiste en concentrar las comunicaciones del equipo en lugares que todos sus miembros conozcan bien como, por ejemplo, un canal de Slack exclusivo y un puente de videoconferencia.
Con Jira Service Management, el proceso de coordinar las respuestas ante incidentes se hace muy sencillo. Los equipos no solo pueden comunicarse como les viene mejor (por ejemplo, por Slack o videoconferencia), sino que pueden hablar con los clientes más fácilmente gracias a la automatización y la personalización. En el paso 4 hablaremos sobre la comunicación externa.
3. Evaluar la repercusión y aplicar un nivel de gravedad
Ahora toca evaluar la repercusión del incidente para que el equipo pueda decidir con quién más hay que ponerse en contacto y qué hay que comunicar a los clientes y a las partes interesadas. Asignar un nivel de gravedad a los incidentes no solo sirve para identificar su impacto, sino también para sentar las bases de los planes de resolución y las comunicaciones externas. En Jira Service Management, al escalar un incidente y asignarle un nivel de gravedad, se desencadenan acciones automatizadas y se envían notificaciones a los encargados de responder para supervisar el progreso de resolución.
4. Comunicarse con los clientes
Nuestro objetivo es ponernos en contacto con las partes interesadas internas y externas lo antes posible. Una comunicación rápida y precisa ayuda a generar confianza entre los clientes y el resto de la organización. Como hemos mencionado antes, poder personalizar las formas de comunicación ayuda a los equipos a trabajar como mejor saben y contribuye a agilizar los tiempos de resolución. Asimismo, les permite controlar qué mensaje quieren dar y cuándo. Además, les ahorra tiempo a la hora de gestionar los incidentes gracias a las respuestas automatizadas que se envían desde los tickets directamente a los clientes.
5. Escala a los usuarios de respuesta adecuados
Es habitual que los encargados de responder tengan que pedir ayuda a otros equipos para solucionar los incidentes, para lo cual les avisan mediante una función de alertas en Jira Service Management. Puedes asignar los encargados de responder directamente a los tickets de los incidentes agrupando los tickets relacionados y etiquetando en ellos a los encargados de responder. Así las notificaciones irán coordinadas y todo el mundo tendrá el contexto necesario.
6. Delegar las funciones de respuesta ante incidentes
A medida que otros miembros del equipo se van uniendo a la respuesta, el gestor de incidentes delega en ellos una función. Llegado este punto, ayuda tener un buen manual de estrategias de respuesta ante incidentes (que se debe elaborar con antelación) en el que se describan claramente las distintas funciones y responsabilidades. Las personas que forman parte del equipo de respuesta ante incidentes deben conocer las funciones de sus compañeros y de qué es responsable cada uno durante un incidente.
7. Resolver el incidente
Un incidente se resuelve cuando concluye el impacto empresarial actual o inminente. Llegados a este punto, el proceso de respuesta de emergencia termina y el equipo pasa a ocuparse de cualesquiera tareas de limpieza que hagan falta y del análisis retrospectivo.
Lo ideal sería que la solución de gestión de incidentes empleada contenga un cronograma de incidentes detallado, que es justo lo que ofrece Jira Service Management. Los encargados de responder pueden consultar después los datos clave de los incidentes y elaborar un informe que ayude al equipo a evitar incidentes similares en el futuro y a identificar el origen de cada uno. Los análisis retrospectivos también pueden ser un buen recurso, por si alguna vez volviera a ocurrir algo parecido.
El ciclo de vida de respuesta ante incidentes del NIST
Otro ciclo de vida de respuesta ante incidentes estándar del sector viene de la mano del National Institute of Standards and Technology (NIST). El NIST es una agencia gubernamental que establece estándares y prácticas recomendadas sobre temas tales como la respuesta ante incidentes y la ciberseguridad.
"NIST" son las siglas del National Institute of Standards and Technology, una agencia del gobierno estadounidense que se proclama con orgullo "uno de los laboratorios de ciencias físicas más longevos del país". Su campo de trabajo abarca todo tipo de cuestiones tecnológicas, entre las que se incluye la ciberseguridad, un ámbito en el que se han convertido en uno de los dos referentes estándares del sector en lo tocante a la respuesta ante incidentes gracias a su procedimiento de respuesta ante incidentes.
Al igual que nosotros en Atlassian, en el NIST consideran que es imposible prevenir todos los incidentes, por lo que más vale estar preparados:
"Las actividades preventivas basadas en los resultados obtenidos de las evaluaciones de riesgos pueden reducir el número de incidentes, pero no todos se pueden evitar. Por lo tanto, se hace necesaria una capacidad de respuesta ante incidentes que permita detectarlos con rapidez, minimizar las pérdidas y la destrucción, mitigar los puntos flacos aprovechados y restaurar los servicios de TI". — NIST
El ciclo de vida de la respuesta ante incidentes del NIST divide la respuesta ante incidentes en cuatro fases principales: preparación; detección y análisis; contención, erradicación y recuperación; y actividad tras el evento.
Fase 1: Preparación
La fase de preparación abarca el trabajo que lleva a cabo una organización para prepararse para la respuesta ante incidentes, lo cual incluye el establecimiento de las herramientas y recursos adecuados y la capacitación del equipo. Esta fase también incluye el trabajo efectuado para evitar que se produzcan incidentes.
Fase 2: Detección y análisis
Según el NIST, detectar y evaluar los incidentes con exactitud suele ser la parte más difícil de la respuesta ante incidentes para muchas organizaciones.
Fase 3: Contención, erradicación y recuperación
Esta fase se centra en reducir al máximo las consecuencias del incidente y mitigar las perturbaciones del servicio.
Fase 4: Actividad tras el evento
Aprender y mejorar después de un incidente es uno de los componentes más importantes de la respuesta ante incidentes y el que más se suele pasar por alto. En esta fase se analizan el incidente y los esfuerzos de respuesta correspondientes. Los objetivos aquí son limitar las posibilidades de que el incidente vuelva a producirse e identificar formas de mejorar la actividad futura de respuesta ante incidentes.
Respuesta ante incidentes para equipos de DevOps modernos
A lo largo de la última década, el movimiento DevOps ha ayudado a los equipos a cambiar su forma de compilar, implementar y manejar software. Además, ha traído consigo innovaciones en lo tocante a la forma de responder a los incidentes de estos equipos.
El enfoque de DevOps para la gestión de incidentes no se diferencia demasiado de los pasos tradicionales para gestionar los incidentes de forma eficaz. La gestión de incidentes de DevOps incluye un énfasis explícito en implicar a los equipos de desarrolladores desde el principio (incluidos a los que trabajan de guardia) y en asignar el trabajo en función de la experiencia, no de los cargos laborales.
Respuesta ante incidentes y mejora continua
Empezamos el artículo hablando de ciclos en contraste con líneas rectas. Habrás observado que todos estos enfoques de gestión de incidentes tienen algo en común: que no son lineales. Todos y cada uno de ellos incluyen los mismos componentes básicos: formas de definir, de detectar y de identificar incidentes; formas de responder rápidamente y tomar medidas para mitigarlos; y formas de analizar incidentes para mejorar la detección y la respuesta futuras. No tiene ningún sentido analizar un incidente que ya se haya producido solo por tratar de mejorarlo. No puedes retroceder en el tiempo ni cambiar lo sucedido. Lo que tienes que hacer es aprender del incidente para mejorar la detección y la respuesta futuras. El aprendizaje y la mejora constantes y continuos son el mecanismo mediante el cual los equipos cierran ese ciclo.
Durante el proceso (no lineal) de respuesta ante incidentes hay mil cosas a tener en cuenta. Con una solución de gestión de incidentes como Jira Service Management, se puede hacer un seguimiento de forma sencilla de cada paso del proceso junto con herramientas integradas de colaboración y comunicación. Centraliza las alertas y unifica los equipos con flexibilidad para poder responder ante los incidentes y resolverlos rápidamente.
Configuración de un horario de guardias con Opsgenie
En este tutorial aprenderás a configurar un horario de guardias, aplicar reglas de anulación, configurar notificaciones de guardias y mucho más, todo dentro de Opsgenie.
Leer el tutorialVentajas e inconvenientes de los diferentes enfoques de la gestión de las guardias
Los equipos de guardia evolucionan rápidamente. Descubre las ventajas y los inconvenientes de los diferentes enfoques de la gestión de las guardias.
Leer el artículo