Close

Gestión de incidentes para equipos de alta velocidad

El lenguaje de la gestión de incidentes

Un glosario para los equipos de gestión de incidentes

El lenguaje que se utiliza en el ecosistema tecnológico es, como mínimo dinámico. En ningún otro lugar se puede encontrar una mezcla de jerga técnica perfectamente entrelazada con referencias a la ciencia ficción, la mitología, la cultura popular, la historia y la literatura. Si bien esto hace que las conversaciones sean entretenidas e interesantes, también provoca que a menudo sean difíciles de precisar.

Cuando no hay nada urgente, este tipo de lenguaje va muy bien. Pero cuando surgen incidentes y los niveles de gravedad se disparan, necesitamos que nuestras palabras sean prácticas y precisas en términos técnicos, y no dejen lugar a malentendidos.

¿Qué quiere decir esto? Que, cuando se trata de la gestión de incidentes, necesitamos una serie de definiciones claras para que todo el mundo cuente con la misma información.

Confirmación de recepción de incidentes

Cuando se genera una alerta de incidente, un usuario puede confirmar su recepción en la mayoría de las herramientas de alertas de guardia. Esto significa que el usuario se ha hecho cargo de la incidencia y está trabajando para resolverla.

Alerta procesable

Una alerta procesable es aquella que describe claramente una incidencia y su impacto, y que se dirige a las personas adecuadas en el momento oportuno para que el equipo pueda actuar de inmediato.

Supervisión activa

Los sistemas que cuentan con supervisión activa se comprueban con regularidad o se supervisan automáticamente con un software para detectar cualquier cambio de rendimiento que pueda provocar incidentes.

Revisión posterior a la acción

Una revisión posterior a la acción es un proceso de revisión estructurado que tiene lugar después de un evento. En general, el proceso describe en detalle lo que ha sucedido, intenta identificar el motivo y señala las áreas de mejora para evitar eventos iguales o similares en el futuro. Las revisiones posteriores a la acción también suelen conocerse como “análisis retrospectivos” o “revisiones posincidentes”.

Tiempo de servicio acordado

El tiempo de servicio acordado es la cantidad de tiempo (que generalmente se mide en horas al año) que se prevé que un servicio esté disponible. Este acuerdo se suele recoger en un SLA (acuerdo de nivel de servicio) formalizado entre el proveedor y el cliente. Por lo general, los servicios de alta disponibilidad prometen un tiempo de actividad del 99,99 %, lo que deja menos de una hora de tiempo de inactividad al año.

Alerta

Se trata de una alarma o advertencia que se genera cuando las herramientas de supervisión identifican cambios, acciones de alto riesgo o fallos en el entorno de TI.

Avalancha de alertas

La avalancha de alertas se da cuando se crea una enorme cantidad de alertas en muy poco tiempo, lo que dificulta que los encargados de responder puedan identificar con exactitud qué servicios se han visto afectados y cómo establecer las prioridades de su trabajo. Las avalanchas de alertas pueden contribuir al agotamiento por exceso de alertas.

Agotamiento por exceso de alertas

El agotamiento por exceso de alertas se produce cuando las personas encargadas de responder a los incidentes se ven sobrepasadas por el volumen o la frecuencia de las alertas. Este exceso suele traducirse en respuestas lentas (o la ausencia de ellas), ya que los responsables tienden a normalizar las alertas constantes.

Servicios ininterrumpidos

Un servicio que se espera que funcione de manera continua.

Activo/gestión de activos

Componentes de cualquier sistema o red que tengan valor empresarial. La gestión de activos tiene lugar cuando un trabajador o equipo hace inventario de esos componentes para conocer el impacto de una actualización o la retirada de un sistema.

Auditoría

Se trata de una evaluación formal de la disponibilidad y el uso de un sistema o proceso, así como del cumplimiento de las políticas, directrices y prácticas recomendadas.

Disponibilidad

Cuando un producto o sistema está disponible y funciona según lo previsto. También se conoce como “tiempo de actividad del sistema”.

Restauración

La práctica de restaurar un servicio a un estado fiable anterior o a un punto de referencia. Normalmente, se trata de una solución rápida que se aplica cuando una actualización o publicación provoca errores en algo esencial de un sistema.

Copia de seguridad

Una copia almacenada de los datos o un sistema redundante que se puede usar en caso de que el original se vea comprometido o se pierda.

Referencia

Un punto de referencia para el comportamiento previsto. Ayuda a los equipos a cuantificar los cambios y las mejoras.

Punto de referencia

Un punto de referencia que sirve para cuantificar el progreso o comparar resultados. Por ejemplo, si en nuestro sector el estándar es un tiempo de actividad del 99,99 %, podemos considerarlo un punto de referencia para compararnos con la competencia y evaluarnos con respecto a las expectativas de los clientes.

Error

Un problema accidental en el software, el código, los programas, etc., que puede provocar un comportamiento anómalo o un fallo.

Análisis de impacto en el negocio

Un análisis de impacto en el negocio consiste en la evaluación sistemática del posible impacto de las interrupciones y el tiempo de inactividad del servicio debido a un incidente grave. El objetivo del análisis de impacto en el negocio es entender el efecto que cada servicio tiene en la empresa y definir los requisitos para la recuperación en caso de que se produzca un incidente.

Capacidad

La cantidad máxima de información que puede transferirse entre las redes u ofrecerse a través de un servicio. El hecho de rebasar la capacidad es un indicador común de incidentes.

Cambio

Cualquier modificación realizada en un servicio, configuración, red o proceso de TI. A menudo se hace un seguimiento mediante una práctica que se conoce como “gestión de cambios”.

Historial de cambios

Se trata de un registro exhaustivo de los cambios realizados en un servicio, configuración, red o proceso de TI desde el principio de su ciclo de vida hasta el estado actual.

Gestión de cambios

Una práctica de TI centrada en minimizar las interrupciones durante los cambios o actualizaciones de los sistemas y servicios críticos. Para algunos equipos, esta práctica abarca todos los aspectos del cambio, desde la vertiente técnica hasta la de las personas y los procesos. Para otros equipos, que se rigen por las directrices de ITIL 4, la gestión de cambios se enfoca en gestionar los aspectos humanos o corporativos del cambio, mientras que otra práctica denominada “control de cambios”” se orienta a la evaluación de riesgos, las planificaciones y la autorización de los cambios.

ChatOps

La práctica de utilizar herramientas de chat y colaboración para la gestión de incidentes. Como explica Sean Regan de Atlassian:

“ChatOps es un modelo de colaboración que conecta personas, herramientas, procesos y automatización en un flujo de trabajo transparente. Este flujo conecta el trabajo necesario, el que está en curso y el realizado en una ubicación persistente atendida por las personas, bots y herramientas relacionadas”.

Estado cerrado

Un incidente tiene el estado cerrado cuando se han realizado todas las acciones necesarias y se ha cerrado la incidencia.

Espera pasiva (recuperación gradual)

La espera pasiva se utiliza cuando un sistema actúa como reserva de otro sistema. Si el sistema principal falla, el sistema en espera pasiva lo sustituye mientras se soluciona el problema. Se trata de una estrategia especialmente útil si el fallo del sistema principal requiere una recuperación gradual (que puede llevar varias semanas) en caso de que haya que reemplazar y poner en marcha el hardware informático.

Inicio en frío

El inicio en frío se da cuando una aplicación que no está en ejecución tarda más en iniciarse que una aplicación que ya “tiene los motores en caliente” o está ejecutándose.

Responsable de comunicación

El miembro del equipo que se encarga de la comunicación durante un incidente.

Conformidad

Se trata de la conformidad con las normativas. A menudo, los sistemas de supervisión se programan para controlar las incidencias de cumplimiento y desencadenar alertas si un sistema no cumple las normas.

Análisis de impacto de fallos de componentes

El proceso que consiste en determinar el impacto en un servicio si un componente o configuración deja de funcionar según lo previsto.

Simultaneidad

La cantidad de acciones iguales que se producen simultáneamente en un sistema. Por ejemplo: ¿cuántos usuarios están accediendo a la misma operación o realizando la misma transacción?

Control

Procedimientos y políticas que gestionan el riesgo, garantizan el funcionamiento de un producto o servicio según lo previsto y protegen el cumplimiento.

Servicio principal

Un servicio que cumple una función crucial para los usuarios o clientes.

Medida correctiva

Una reacción específica que tiene como fin proteger un sistema o restaurar las operaciones.

Servicio orientado al cliente

Servicios que los clientes utilizan y con los que interactúan.

Marco Cynefin

Un marco de toma de decisiones que se ha adaptado a los procesos de gestión de incidentes para ayudar a los gestores a organizar la respuesta más eficaz. El marco divide las situaciones en cinco categorías según la complejidad de un incidente y cada categoría tiene su propio (y diferente) conjunto de pasos que seguir.

Tablero

Una visualización unificada de los sistemas, alertas e incidentes diseñada para organizar la presentación de la información procedente de diversas herramientas con información contextual en un formato claro y preciso.

Dependencia

La relación entre dos servicios, procesos o configuraciones que dependen el uno del otro para funcionar.

Obsoletización

Cuando una función o herramienta se deja fuera de servicio, cae en desuso o ya no se actualiza.

Diagnosis

El proceso y el resultado de entender un incidente y su causa raíz.

Diagnóstico

Los síntomas o señales que llevan al diagnóstico de un incidente.

Tiempo de inactividad/interrupción

Momento en el que un servicio no funciona o no está disponible según lo previsto.

Cambio urgente

Una actualización o parche que se implementa rápidamente, por lo general, como parte de la resolución de un incidente. Los cambios urgentes suelen saltarse los procesos de aprobación porque el riesgo de la espera es mayor que el de implementar el cambio.

Servicio de habilitación

Un servicio necesario para que un servicio principal funcione, pero que no se ofrece a los clientes por sí mismo.

Entorno de prueba*

La infraestructura en la que se prueba la funcionalidad prevista de un servicio, función, proceso, elemento de configuración, etc. Este entorno se controla de cerca para reflejar la producción.

Entorno de producción

La infraestructura en la que se presta un servicio a un cliente. Las entregas de este entorno son dinámicas y, en ocasiones, también se denomina “entorno dinámico”.

Error

Un problema que provoca el fallo de un elemento de configuración o servicio. Se puede tratar de un problema de diseño, procesamiento o humano.

Escalación

El proceso de trasladar una tarea de gestión de incidentes a un equipo o persona con más conocimientos o experiencia. La escalación funcional se da cuando se transfiere una alerta o incidente a una persona o equipo con más experiencia. La escalación jerárquica tiene lugar cuando dicha alerta o incidente se transfiere de un miembro júnior a otro sénior.

Evento

Una situación notable del sistema o servicio. Los eventos suelen deberse a una acción del usuario o un incidente.

Informe de excepciones

Un informe que se genera cuando los indicadores clave de rendimiento superan sus umbrales o no cumplen las expectativas.

Tolerancia a fallos

La tolerancia a los fallos describe la capacidad de un servicio para seguir funcionando aunque se produzca un error en un elemento de configuración o una parte concreta.

Análisis de árbol de errores

Técnica utilizada para determinar los eventos que han provocado un incidente y predecir qué eventos podrían desembocar en incidentes en el futuro. Suele usarse para identificar la causa raíz de un incidente grave.

Soporte de primer nivel

El usuario de respuesta que se espera que reaccione primero ante un incidente. Suele ser la persona que está de guardia.

Solución

Una acción o método de reparación.

Activo fijo

Un activo fijo es una parte física, de valor y a largo plazo de la empresa, como una oficina, un ordenador o una licencia.

Planificación de trabajo diurno ininterrumpido

Un método de atención al cliente o gestión de incidentes que hace que roten las responsabilidades de guardia entre diferentes zonas horarias para ofrecer una cobertura ininterrumpida sin necesidad de que haya equipos de guardia en mitad de la noche.

Análisis forense

Una investigación científica y basada en pruebas de un sistema informático con el fin de identificar la causa de un incidente.

Funcional

Un servicio se describe como “funcional” cuando puede funcionar según lo previsto.

Recuperación gradual

Una recuperación gradual es un proceso de recuperación que tarda más de lo habitual (semanas en lugar de horas). Cuando esto ocurre, se suele poner en línea un sistema en espera pasiva (de reserva) para que ocupe el lugar del sistema afectado.

Espera activa

La espera activa es una opción de recuperación en la que los activos redundantes se ejecutan simultáneamente para respaldar un servicio de TI en caso de fallo. Si se produce un error en el sistema activo, el que se encuentra en espera activa ya está en marcha y listo para ocupar su lugar sin necesidad de que el equipo tenga que hacer nada y sin que haya ningún tiempo de inactividad. También se conoce como “recuperación inmediata”.

Revisión

Una actualización que se aplica a un software para resolver un problema o corregir un error. Suele utilizarse para solucionar una incidencia comunicada por un cliente.

Consecuencias

La cuantificación del coste (en dinero, tiempo y reputación) que tiene un incidente, un cambio o una interrupción del servicio. También se conoce como “coste del tiempo de inactividad”.

Alerta improcesable

Una alerta que no permite actuar al usuario de respuesta. Suele significar que la alerta carece de información contextual, que se ha enviado a la persona equivocada o que tiene un alcance poco claro. Las alertas improcesables pueden contribuir al agotamiento por exceso de alertas.

Incidente

Un evento que causa una interrupción del servicio o una reducción de su calidad y que requiere una respuesta urgente. Los equipos que siguen las prácticas de ITIL o ITSM pueden utilizar el término “incidente grave” en su lugar.

Respuesta ante incidentes

La forma en que los equipos reaccionan ante un incidente. Por lo general, la respuesta ante los incidentes es un proceso preestablecido donde las normas, las funciones y las prácticas recomendadas se han definido antes de que surja un incidente.

gestión de incidentes

El proceso que utilizan los equipos de DevOps y operaciones de TI para responder a un evento no planificado o a una interrupción del servicio a fin de recuperar el estado operativo.

Responsable de la gestión de incidentes

El responsable de la gestión de incidentes es un miembro de los equipos de TI o DevOps que se ocupa de gestionar la respuesta ante los incidentes. Este responsable es el encargado del equipo de gestión de incidentes y tiene el control total y la última palabra en todas las decisiones relativas a los incidentes. Esta función también suele conocerse como “gestor de incidentes”.

Ciclo de vida de los incidentes

La duración de un incidente desde su creación y detección hasta su resolución.

Métricas de E/S

Un conjunto de métricas que cuantifican la entrada y la salida. Entre las métricas más comunes de esta categoría, se incluyen la espera de E/S (el tiempo que una CPU espera una solicitud de E/S) y la tasa de IOPS (el número de solicitudes de E/S por segundo).

Organización de la respuesta ante incidentes

Una función de Opsgenie que permite a los equipos identificar de forma rápida y eficaz los problemas, enviar notificaciones a las personas adecuadas, facilitar la comunicación entre las unidades empresariales y colaborar entre los equipos para la gestión de incidentes.

Registro de incidentes

Un registro de los detalles y procesos utilizados durante un incidente concreto.

Encargado de responder a los incidentes

Personas o equipos responsables de la investigación y resolución de un incidente.

Partes interesadas/observadores del incidente

Personas que deben estar al tanto de un incidente porque afecta a su trabajo o capacidad para realizarlo. Estas personas pueden o no influir en la resolución del incidente, pero no intervienen de forma activa.

Recuperación intermedia

También conocido como “espera semiactiva”, este tipo de recuperación suele tardar entre 24 y 72 horas. En general, el motivo de que el tiempo de recuperación sea relativamente largo es la restauración de los datos o la configuración del hardware y el software.

Biblioteca de infraestructuras de tecnologías de la información (ITIL)

Un conjunto documentado de prácticas recomendadas ampliamente aceptadas para los servicios de TI.

Gestión de servicios de tecnologías de la información (ITSM)

Todos los aspectos de los procesos y procedimientos necesarios para prestar un servicio de TI a los clientes. Esto incluye todos los elementos del ciclo de vida del servicio, desde el diseño hasta la prestación y la gestión de incidentes.

Método Kepner Tregoe (método KT)

Un método de análisis de causas raíz y toma de decisiones en el que los problemas se evalúan por separado de la decisión final sobre una incidencia.

Indicadores clave de rendimiento (KPI)

Valoración del éxito de los sistemas o productos. Los indicadores clave de rendimiento se deciden de antemano, se supervisan con regularidad y suelen generar alertas si se desvían de los umbrales previstos. Por ejemplo, si el tiempo medio entre fallos (MTBF) empieza a ser cada vez más corto, es posible que se genere una alerta para que el equipo pueda identificar y analizar el problema.

Error conocido

Una incidencia preexistente que ya tiene una solución.

Latencia

Un retraso experimentado durante la transferencia de datos.

Registros

Los registros de todos los eventos relacionados con un servicio o aplicación. Esto incluye los datos transferidos, las horas y las fechas, los incidentes, los cambios, los errores, etc.

Capacidad de mantenimiento

La evaluación de la facilidad con la que se pueden aplicar cambios de manera satisfactoria en un servicio o función.

Solución alternativa manual

Una solución implementada manualmente (en lugar de hacerlo de forma automática).

Tiempo medio entre fallos (MTBF)

El tiempo medio que transcurre entre los fallos reparables de un producto tecnológico. También se conoce como tiempo medio entre incidentes de servicio (MTBSI).

Tiempo medio de confirmación de recepción (MTTA)

El tiempo medio que transcurre desde que se desencadena una alerta hasta que se empieza a trabajar en la incidencia.

Tiempo medio sin averías (MTTF)

El tiempo medio que transcurre entre los fallos no reparables de un producto tecnológico.

Tiempo medio de reparación (MTTR)

El tiempo medio que se tarda en reparar un sistema (por lo general, se trata de una cuestión técnica o mecánica). Incluye tanto el tiempo de reparación como el tiempo de prueba.

Tiempo medio de recuperación (MTTR)

El tiempo medio que se tarda en recuperarse de un fallo de un producto o sistema. Esto incluye todo el tiempo de la interrupción, desde el momento en que el sistema o el producto falla hasta que vuelve a funcionar por completo.

Tiempo medio de resolución (MTTR)

El tiempo medio que se tarda en resolver un fallo por completo, incluido el tiempo dedicado a asegurarse de que el fallo no vuelva a repetirse.

Tiempo medio de respuesta (MTTR)

El tiempo medio que se tarda en recuperarse de un fallo de un producto o sistema desde el momento en que se avisa por primera vez de dicho fallo. Esto no incluye ningún tiempo de retraso en tu sistema de alertas.

Modelo/creación de modelos

Una representación de un sistema, servicio, aplicación, etc., real.

Supervisión

El procedimiento reiterado de comprobar un servicio o proceso para asegurarse de que funcione según lo previsto.

Cambio normal

Un cambio no urgente que no tiene un proceso definido y previamente aprobado.

Horario de guardias

Una planificación que garantiza que la persona adecuada esté siempre disponible, ya sea de día o de noche, para responder con rapidez a incidentes e interrupciones del servicio. Los horarios de guardias son habituales en el sector sanitario y en el tecnológico.

Centro de operaciones

El lugar físico donde se realiza la supervisión de los servicios de TI.

Responsable de operaciones

La persona responsable de supervisar las operaciones diarias. En algunos casos, esta persona puede ser también el gestor de incidentes (o responsable de la gestión de incidentes), que se encarga de dirigir la resolución del incidente.

Resultado

La consecuencia de un evento, proceso o cambio relacionado con los servicios de TI. Los equipos suelen hablar tanto de los resultados previstos como de los reales.

Análisis de consecuencias

Un análisis que se utiliza para identificar el impacto empresarial de un incidente. Suele tener en cuenta el coste del tiempo de inactividad, la duración del incidente, las consecuencias para los usuarios y el número de usuarios afectados.

Supervisión pasiva

Cuando la funcionalidad del servicio se supervisa automáticamente (en lugar de hacerse de forma activa o manual).

Ausencia de problemas

Cuando los servicios y las operaciones funcionan según lo previsto sin ninguna interrupción.

Disminución del rendimiento

Una estimación de lo que ha disminuido el rendimiento de un sistema debido a un evento o incidente.

Tiempo de inactividad planificado

Periodo de tiempo en el que un servicio de TI no está disponible intencionadamente por motivos de mantenimiento o actualización.

Manual de estrategias

Un conjunto de estrategias o acciones concretas que un equipo puede llevar a cabo para abordar un problema, incidente u objetivo específico.

Análisis retrospectivo/análisis posincidentes/revisión posincidentes

El proceso de comprensión de un incidente una vez resuelto. El objetivo de los análisis retrospectivos es mejorar los procedimientos de respuesta, prevenir futuros incidentes y entender la causa del incidente más reciente.

Priority

El orden en que deberían abordarse los incidentes. Los elementos de alta prioridad requieren una mayor urgencia que los de prioridad más baja. La prioridad viene determinada por la urgencia, la gravedad y las posibles consecuencias para la empresa.

Registro de problemas

Un registro de problemas es un documento que abarca todos los aspectos de una incidencia, desde su detección hasta su resolución.

Previsión de interrupción del servicio

Un documento en el que se describe cómo afectarán las futuras tareas de mantenimiento o pruebas a los niveles de servicio normales.

Control de calidad

El proceso mediante el que se realizan pruebas para garantizar el cumplimiento de los estándares en todo lo relacionado con los servicios de TI, desde las nuevas funciones hasta las guías de instrucciones.

Sistema de gestión de la calidad

El marco o los sistemas de los que se dispone para garantizar la calidad.

Supervisión reactiva

La supervisión que se realiza en respuesta a un evento o incidente.

Recuperación

El proceso de devolver a un servicio su funcionalidad y estado de referencia.

Objetivo del punto de recuperación

La máxima pérdida de datos que se permite durante la recuperación.

Objetivo del tiempo de recuperación

El tiempo máximo que se tolera para una interrupción del servicio.

Lanza

Un cambio implementado para los usuarios.

gestión de versiones

La planificación, el diseño, las pruebas, la programación y la implementación de los cambios, así como la resolución de problemas relacionados con ellos.

Resistencia

La capacidad de un sistema para soportar los fallos y recuperarse rápidamente en caso de que se produzca un incidente.

Tiempo de respuesta

El tiempo que transcurre desde que se genera una alerta hasta que el equipo lleva a cabo la primera acción.

Evaluación de los riesgos

El proceso de identificar el riesgo de un activo mediante la evaluación de su valor, las amenazas potenciales y el posible impacto de estas.

Gestión de riesgos

El proceso de gestión de las amenazas mediante su identificación y control.

"Root cause" (Origen del problema)

Normalmente, se considera que la causa raíz es el motivo único por el que falla un servicio o una aplicación. Sin embargo, suele haber muchos factores interconectados que contribuyen a los errores, por lo que los equipos están empezando a cuestionarse si este término resulta útil en la gestión de incidentes y muchos se han pasado a la forma en plural: causas raíz.

Runbooks

Los runbooks ofrecen procedimientos detallados para la gestión de incidentes. Normalmente, los mantiene un administrador de sistemas o un equipo de control de operaciones de red (NOC). Los runbooks pueden ser digitales o impresos.

Ámbito de aplicación

El ámbito de un problema, solución, proyecto, capacidad, etc.

Soporte de segundo nivel

Personas con competencias adicionales (tiempo, experiencia, conocimientos o recursos) para resolver incidencias que pueden ir más allá de la capacidad de los primeros usuarios de respuesta.

Cambio en el servicio

Actualizaciones, correcciones, obsoletizaciones u otros cambios realizados en un servicio.

Incidencias

Un equipo que recibe las solicitudes de atención al cliente y sirve de punto de contacto entre estos y el departamento de TI.

Análisis de fallos del servicio

El análisis de fallos del servicio es el proceso de inspección de una interrupción del servicio para identificar la causa.

Acuerdo de nivel de servicio (SLA)

Un acuerdo entre el proveedor y el cliente sobre los parámetros cuantificables, como el tiempo de actividad, la capacidad de respuesta y las responsabilidades.

Gráfico de supervisión de los acuerdos de nivel de servicio

Un documento en el que se registran el progreso y los datos sobre los objetivos de nivel de servicio.

Objetivos de nivel de servicio (SLO)

Un acuerdo enmarcado en un SLA sobre un parámetro concreto, como el tiempo de actividad.

Niveles de gravedad

El grado en que se ve afectado un servicio debido a un incidente. En general, los equipos utilizan una estructura de 3 a 5 niveles de gravedad, donde el 1 es el de mayor gravedad y el 3, el 4 o el 5 son los que indican las incidencias de menor gravedad que no requieren tanta urgencia.

Punto único de fallo

Una variable de la que depende un sistema para funcionar. Por ejemplo, un elemento de configuración esencial.

Especificación

Un registro formal de los requisitos de una configuración relacionada con los servicios de TI.

Ingeniero de fiabilidad del sitio (SRE)

Un ingeniero de software encargado de las operaciones. Los SRE suelen ocuparse de automatizar las tareas manuales, administrar los SLO y gestionar los incidentes.

Cambios estándar

Cambios de bajo riesgo, que se repiten con frecuencia y que se han aprobado previamente, como añadir memoria o capacidad de almacenamiento.

En espera

Recursos inactivos que están disponibles para facilitar la gestión de incidentes.

Estado

La condición actual de un servicio.

Statuspage

Un lugar dedicado a la comunicación del estado actual de un servicio, con actualizaciones periódicas sobre el estado de los incidentes.

Experto en la materia

Una persona con conocimientos específicos sobre una incidencia, servicio, etc., en particular.

Recursos tecnológicos

Los lenguajes de programación, el software y los componentes que juntos forman una aplicación. Un paquete tecnológico tiene dos caras: el front-end (orientado al cliente) y el back-end (orientado al desarrollador).

Métricas de tensión

Datos que, al cambiar un conjunto o punto, repercuten negativamente en otros puntos de datos.

Umbral

Un nivel o número predefinido que, cuando se supera, genera una alerta. Por ejemplo, el umbral para que la página de inicio de sesión se cargue podría ser de tres segundos. Si la carga de la página empieza a tardar más, se creará una alerta.

Cronograma

Se trata de una lista completa de eventos, cambios, correcciones, resultados y el momento en que se ha producido cada uno durante un incidente.

Análisis de tendencias

Una investigación sobre los patrones en relación con el tiempo. En el análisis de tendencias, se presume que los patrones anteriores pueden predecir los patrones futuros en los datos. Esto lo convierte en una práctica de gran utilidad para la prevención de incidentes.

Solución

Una forma eficaz de implementar una corrección rápida que permita recuperar la funcionalidad del sistema aunque aún no se haya resuelto el incidente subyacente.

Carga de trabajo

Los recursos, tanto humanos como informáticos, que se necesitan para prestar un servicio de TI.

A continuación
Get the handbook