Gerenciamento de incidentes para equipes de alta velocidade
A linguagem do gerenciamento de incidentes
Glossário para equipes de gerenciamento de incidentes
A linguagem usada em todo o ecossistema de tecnologia é dinâmica, para dizer o mínimo. Em nenhum outro lugar você pode encontrar uma mistura de jargão técnico mesclado com referências de ficção científica, mitologia, cultura pop, história e literatura. Embora as conversas ganhem vida e se tornem envolventes, elas também se tornam muitas vezes difíceis de entender.
Quando nada urgente acontece, funciona. Mas quando os incidentes acontecem e os níveis de gravidade disparam ladeira acima, é necessário que a linguagem seja técnica, precisa e útil e não deixe espaço para interpretações erradas.
Em outras palavras, quando se trata de gerenciamento de incidentes, é necessário um conjunto claro de definições para manter as pessoas na mesma sintonia.
Reconhecimento de incidentes
Depois que um alerta de incidente é gerado, um usuário pode reconhecer um alerta na maioria das ferramentas de alerta de plantão. Ou seja, o usuário assume a responsabilidade pelo item e está trabalhando para achar uma resolução.
Alerta prático
Alerta útil é um alerta que descreve um problema e seu impacto com clareza e é encaminhado para as pessoas certas no momento certo para que a equipe possa agir de imediato.
Monitoramento ativo
Os sistemas com monitoramento ativo são verificados com frequência ou monitorados por meio automático com software para qualquer alteração de desempenho que possa levar a incidentes.
Análise pós-ação (AAR)
Uma análise pós-ação é um processo de revisão estruturado que ocorre após um evento. Em geral, o processo descreve o que aconteceu em detalhes, tenta identificar por que aconteceu e aponta áreas para melhorias a fim de evitar eventos iguais ou semelhantes no futuro. As análises pós-ação também são conhecidas como análises retrospectivas ou análises pós-incidentes.
Tempo de serviço acordado (AST)
O tempo de serviço acordado é a quantidade de tempo, em geral medida em horas por ano, que se espera que um serviço esteja disponível. Em geral, esse acordo é descrito em um SLA (Acordo de Nível de Serviço) entre o fornecedor e o cliente. Os serviços de alta disponibilidade prometem 99,99% de disponibilidade, o que permite menos de uma hora de tempo de inatividade por ano.
Alerta
Alarme ou aviso gerado quando as ferramentas de monitoramento identificam mudanças, ações de alto risco ou falhas no ambiente de TI.
Alerta de ruído
O ruído dos alertas ocorre quando um número grande de alertas é criado em um curto espaço de tempo, tornando difícil para os respondentes identificar com precisão quais serviços estão afetados e como priorizar o trabalho. O ruído dos alertas pode ser um fator que contribui para a fadiga de alerta.
Fadiga de alerta
A fadiga de alerta ocorre quando os respondentes de incidentes ficam sobrecarregados com o volume ou a frequência dos alertas. Muitas vezes, a fadiga de alerta leva a respostas lentas, ou nenhuma resposta, já que os respondentes tendem a normalizar os alertas constantes.
Serviços sempre disponíveis
Serviço que se espera funcionar com continuidade.
Ativos/Gerenciamento de ativos
Componentes de qualquer sistema ou rede que tenha valor comercial. A gestão de recursos ocorre quando um funcionário ou equipe faz um inventário desses componentes para entender o impacto de uma atualização ou remoção de um sistema.
Auditoria
Inspeção formal da disponibilidade e do uso de um sistema ou processo. A auditoria também verifica se as políticas, as diretrizes e as práticas recomendadas estão sendo seguidas.
Disponibilidade
Quando um produto ou sistema está disponível e funcionando conforme o esperado. Também conhecido como disponibilidade do sistema.
Retorno
Prática de restaurar um serviço a um parâmetro ou estado anterior confiável. Em geral, se trata de uma correção rápida aplicada quando uma atualização ou versão causa uma falha em algo essencial em um sistema.
Backup
Cópia armazenada de dados ou um sistema redundante disponível para uso caso o original seja comprometido ou perdido.
Parâmetro
Ponto de referência para o comportamento esperado. Os parâmetros ajudam as equipes a medir mudanças e melhorias.
Referencial
Ponto de referência que funciona como um parâmetro para medir o progresso ou comparar resultados. Por exemplo, se o padrão do setor é 99,99% de disponibilidade, essa marca pode ser uma referência para nos avaliar em relação à concorrência e às expectativas do cliente.
Bug
Um problema não intencional no software, código, programas etc. que pode causar comportamento anormal ou falha.
Análise de impacto dos negócios (BIA)
Análise de impacto dos negócios é a avaliação sistemática do impacto potencial de interrupções e tempo de inatividade do serviço devido a um incidente grave. O objetivo do BIA é entender o efeito que cada serviço tem nos negócios e definir os requisitos para recuperação em caso de incidente.
Capacidade
Quantidade máxima de informações que podem ser transferidas entre redes ou entregues por meio de um serviço. Exceder a capacidade é um indicador comum de incidentes.
Alterações
Qualquer alteração feita em um serviço, configuração, rede ou processo de TI. Quase sempre monitorada em uma prática conhecida como gestão de mudanças.
Histórico de alterações
Registro abrangente das mudanças feitas em um serviço, configuração, rede ou processo de TI, do início do ciclo de vida ao estado atual.
Gerenciamento de alterações
Prática de TI focada em minimizar interrupções durante mudanças/atualizações em sistemas e serviços essenciais. Para algumas equipes, essa prática abrange todos os aspectos da mudança — do técnico às pessoas e ao processo. Para outras equipes, com base nas diretrizes ITIL 4, a gestão de mudanças se concentra no gerenciamento dos aspectos humanos ou culturais da mudança, enquanto outra prática chamada controle de mudanças se concentra na avaliação de riscos, cronogramas e autorização de mudanças.
ChatOps
Prática de usar ferramentas de bate-papo e colaboração para gerenciamento de incidentes. Como Sean Regan da Atlassian explica:
"ChatOps é um modelo de colaboração que conecta pessoas, ferramentas, processos e automação em um fluxo de trabalho transparente. Esse fluxo conecta o trabalho necessário, o trabalho que está acontecendo e o trabalho realizado em um local persistente composto por pessoas, bots e ferramentas relacionadas."
Estado encerrado
Um incidente está em um estado encerrado quando todas as ações necessárias foram tomadas e o item é encerrado.
Espera fria (recuperação gradual)
Uma espera fria é usada quando um sistema atua como backup para outro sistema. Se o sistema primário falhar, a espera fria substitui o sistema primário enquanto ele está sendo corrigido. Essa é uma estratégia bem útil se a falha do sistema primário exigir uma recuperação gradual (uma recuperação que pode levar semanas) no caso de o hardware precisar ser substituído e configurado.
Inicialização a frio
Uma inicialização a frio ocorre quando um aplicativo que não está em execução leva mais tempo para iniciar do que um aplicativo que está "aquecido" ou já em execução.
Líder de comunicação
Membro da equipe responsável pela comunicação durante um incidente.
Conformidade
Alinhamento com os regulamentos. Com frequência, os sistemas de monitoramento vão ser programados para monitorar itens de conformidade e acionar alertas se um sistema não estiver em conformidade.
Análise de impacto de falha de componentes (CFIA)
O processo de determinar o impacto em um serviço se um componente ou configuração parar de funcionar conforme o esperado.
Simultaneidade
A medida de quantas das mesmas ações estão acontecendo ao mesmo tempo dentro de um sistema. Por exemplo, quantos usuários estão acessando a mesma operação ou realizando a mesma transação?
Controle
Procedimentos e políticas que gerenciam riscos, garantem que um produto ou serviço opere conforme o esperado e protegem a conformidade.
Serviço central
Serviço que serve uma função central para usuários/clientes.
Contramedida
Ação reativa e específica tomada para proteger um sistema ou restaurar operações.
Serviço voltado para o cliente
Serviços que os clientes usam e com os quais interagem.
Estrutura Cynefin
Conceito de tomada de decisão que foi adaptado aos processos de gerenciamento de incidentes para ajudar os gerentes a organizar a resposta mais eficaz. A estrutura divide as situações em cinco categorias com base na complexidade do incidente, e cada categoria tem o próprio conjunto (diferente) de próximas etapas.
Painel
Visualização em uma única tela de sistemas, alertas e incidentes criada para organizar a apresentação de informações de uma variedade de ferramentas com informações contextuais exibidas em um formato limpo e preciso.
Dependência
Relacionamento entre dois serviços, processos ou configurações que dependem um do outro para funcionar.
Depreciação
Quando uma função ou ferramenta é retirada de serviço, não está mais em uso ou não é mais atualizada.
Diagnóstico
O processo e o resultado da compreensão de um incidente e a causa raiz.
Diagnóstico
Os sintomas ou sinais que levam ao diagnóstico do incidente.
Tempo de inatividade/interrupção
Tempo em que um serviço não está funcionando ou não está disponível conforme o esperado.
Alteração emergencial
Atualização ou correção implementada com rapidez, em geral como parte da resolução de incidentes. As alterações emergenciais muitas vezes ignoram os processos de aprovação de mudança porque o risco de esperar por aprovações é maior do que o risco de implementar a mudança.
Serviço de ativação
Serviço necessário para que um serviço central funcione, mas que não é oferecido aos clientes em si.
Ambiente de teste*
Infraestrutura em que um serviço, função, processo, item de configuração etc. é testado quanto à funcionalidade esperada. Esse ambiente é controlado de perto para espelhar a produção.
Ambiente de produção
Infraestrutura onde um serviço é entregue a um cliente. Os resultados neste ambiente são em tempo real e às vezes também são conhecidos como ambiente ativo.
Erro
Erro que causa a falha de um item de configuração ou serviço. Pode ser um erro de design, processamento ou erro humano.
Escalonamento
Processo de mover uma atribuição de gerenciamento de incidentes para uma equipe ou indivíduo com habilidades ou experiência mais relevantes. O escalonamento funcional ocorre quando um alerta ou incidente é transferido para um indivíduo ou equipe com mais experiência. O escalonamento hierárquico ocorre quando o referido alerta ou incidente é transferido de um funcionário júnior para um sênior.
Evento
Sistema ou situação de serviço notável. Em geral, os eventos são causados por ação do usuário ou incidente.
Relatório de exceção
Relatório gerado quando os indicadores-chave de desempenho (KPIs) excedem os limites ou não atendem às expectativas.
Tolerância a falhas
A tolerância a falhas descreve a capacidade de um serviço de continuar operando mesmo se um item de configuração ou peça individual falhar.
Análise de árvore de falhas
Técnica usada para determinar os eventos que levaram a um incidente e prever quais eventos podem levar a incidentes no futuro. Muitas vezes, é usada para encontrar a causa raiz de um incidente grave.
Suporte de primeira linha
Respondente que deve reagir primeiro a um incidente. É a pessoa de plantão.
Consertar
Ação ou método de reparo.
Ativo fixo
Um ativo fixo é um item físico, de valor e de longo prazo da empresa, por exemplo: escritório, computador ou licença.
Cronograma de sol a sol
Método de suporte ao cliente ou gerenciamento de incidentes que reveza as responsabilidades de plantão entre fusos horários para entregar cobertura em tempo integral, sem exigir que as equipes estejam de plantão no meio da noite.
Investigação forense
Investigação científica baseada em evidências em um sistema de computador com o objetivo de identificar a causa de um incidente.
Funcional
Um serviço é descrito como funcional quando é capaz de funcionar conforme o esperado.
Recuperação gradual
Recuperação gradual é um processo de recuperação que leva mais tempo do que o normal (semanas, não horas). Quando acontece, é comum usar uma espera fria (sistema de backup) para substituir o sistema afetado.
Espera ativa
Espera ativa é uma opção de recuperação em que ativos redundantes são executados ao mesmo tempo para oferecer suporte a um serviço de TI em caso de falha. Se o sistema ativo falhar, a espera ativa já está em execução e pronta para assumir o lugar sem nenhuma ação exigida pela equipe e sem tempo de inatividade. Também conhecida como recuperação imediata.
Hotfix
Uma atualização aplicada ao software para resolver um problema ou corrigir um bug. Em geral, é usado para corrigir um problema relatado pelo cliente.
Impacto
A medição do custo — de dinheiro, tempo, reputação — que uma interrupção de serviço, incidente ou alteração causa. Também conhecida como custo do tempo de inatividade.
Alerta inativo
Alerta que não capacita um respondente a agir. Em geral, significa que o alerta não tem informações contextuais, foi encaminhado para a pessoa errada ou tem um escopo pouco claro. Alertas não práticos podem contribuir para fatiga de alerta.
Incidente
Evento que causa interrupção ou redução na qualidade de um serviço que requer uma resposta emergencial. As equipes que seguem as práticas de ITIL ou ITSM podem usar o termo incidente grave.
Resposta a incidentes
Como as equipes reagem a um incidente. Muitas vezes, a resposta a incidentes é um processo predefinido com regras, funções e práticas recomendadas definidas antes do incidente surgir.
Gerenciamento de incidente
Processo usado pelas equipes de DevOps e operações de TI para responder a um evento ou interrupção de serviço não planejada e restaurar o serviço ao estado operacional.
Responsável pela gestão de incidentes
O responsável pela gestão de incidentes é um membro das equipes de TI ou DevOps encarregado de gerenciar respostas a incidentes. É o chefe da equipe de gerenciamento de incidentes e tem o controle e a palavra final sobre todas as decisões de incidentes. Essa função também é chamada de gerenciador de incidentes.
Ciclo de vida de incidentes
A vida de um incidente, da criação e detecção à resolução.
Métricas de E/S
Coleção de métricas que medem a entrada e a saída. As métricas comuns nessa categoria incluem Espera de E/S (o tempo que uma CPU aguarda uma solicitação de E/S) e IOPS (o número de solicitações de E/S por segundo).
Orquestração de resposta a incidentes
Função do Opsgenie que permite às equipes identificar problemas com rapidez e eficácia, notificar as pessoas certas, facilitar a comunicação entre as unidades de negócios e colaborar entre as equipes para o gerenciamento de incidentes.
Registro de incidentes
Registro de informações e processos usados durante um incidente específico.
Respondente de incidentes
Indivíduos e/ou equipes responsáveis pela investigação e resolução de um incidente.
Interessados/observadores de incidentes
Indivíduos que precisam ser mantidos informados sobre um incidente porque afeta o trabalho/capacidade de realizar o trabalho deles. Os indivíduos podem ou não influenciar a resolução de incidentes, mas não são respondentes ativos.
Recuperação intermediária
Também conhecida como espera passiva, esse tipo de recuperação leva de 24 a 72 horas. A restauração de dados e/ou configuração de hardware e software são, em geral, a razão para o tempo de recuperação longo.
Infraestrutura de tecnologia da informação (ITIL)
Conjunto documentado de práticas recomendadas aceitas para serviços de TI.
Gerenciamento de serviços de tecnologia da informação (ITSM)
Todos os aspectos dos processos e procedimentos necessários para proporcionar serviço de TI aos clientes. Inclui todos os aspectos do ciclo de vida do serviço — do design à entrega e ao gerenciamento de incidentes.
Método Kepner-Tregoe (método KT)
Análise de causa raiz e método de tomada de decisão em que os problemas são avaliados separados da decisão final sobre um item.
Indicadores-chave de desempenho (KPIs)
Medições de sucesso para sistemas ou produtos. Os KPIs são decididos com antecedência, rastreados com frequência e em geral geram alertas se desviarem dos limites esperados. Por exemplo, se o tempo médio entre as falhas (MTBF) começar a ficar cada vez mais curto, um alerta pode ser gerado para que a equipe possa identificar e examinar o problema.
Erro conhecido
Item preexistente que já tem uma solução alternativa.
Latência
Atraso sentido durante a transferência de dados.
Logs
Registros de todos os eventos relacionados a um serviço ou aplicativo. Inclui dados transferidos, horas e datas, incidentes, mudanças, erros etc.
Capacidade de manutenção
Medida da facilidade em que as mudanças podem ser aplicadas com sucesso a um serviço ou função.
Solução alternativa manual
Solução implementada por método manual (em vez de automático).
Tempo médio entre as falhas (MTBF)
Tempo médio entre as falhas reparáveis de um produto de tecnologia. Também é conhecido como tempo médio entre incidentes de serviço (MTBSI).
Tempo médio para confirmação (MTTA)
Tempo médio que leva do momento em que um alerta é acionado até o início do trabalho no item.
Tempo médio sem falhas (MTTF)
Tempo médio entre as falhas não reparáveis de um produto de tecnologia.
Tempo médio para reparos (MTTR)
Tempo médio que leva para reparar um sistema (em geral técnico ou mecânico). Inclui o tempo de reparo e qualquer tempo de teste.
Tempo médio para recuperação (MTTR)
Tempo médio gasto para a recuperação de uma falha de produto ou do sistema. Ele inclui o tempo total da interrupção — do momento em que o sistema ou o produto falha ao momento em que retoma a operação por completo.
Tempo médio para a resolução (MTTR)
Tempo médio necessário para resolver por completo uma falha, incluindo o tempo gasto para garantir que a falha não aconteça de novo.
Tempo médio de resposta (MTTR)
Tempo médio gasto para a recuperação de uma falha de produto ou do sistema a partir do primeiro alerta para essa falha. Ele não inclui o tempo de atraso no sistema de alerta.
Modelo/modelagem
Representação de um sistema, serviço, aplicativo real etc.
Monitoramento
Processo repetido de verificação de um serviço ou processo para garantir que ele esteja funcionando conforme o esperado.
Alteração normal
Alteração não emergencial que não tem um processo definido e pré-aprovado.
Cronograma de plantão
Cronograma que garante que a pessoa certa esteja sempre disponível, dia ou noite, para responder a incidentes e interrupções com rapidez. Os cronogramas de plantão são comuns nos setores de medicina e de tecnologia.
Ponte de operações
Local físico onde ocorre o monitoramento dos serviços de TI.
Líder de operações
Pessoa responsável por supervisionar as operações diárias. Em alguns casos, essa pessoa também pode ser o gerenciador de incidentes (ou responsável pela gestão de incidentes), encarregado de liderar a resolução de incidentes.
Resultado
Resultado de um evento, processo ou mudança relacionado à TI. As equipes costumam falar sobre os resultados previstos e os reais.
Análise do valor do dano
Análise usada para identificar o impacto de um incidente nos negócios. É levado em consideração o custo do tempo de inatividade, a duração de um incidente, o impacto sobre os usuários e o número de usuários afetados.
Monitoramento passivo
Quando a funcionalidade do serviço é monitorada por método automático (em vez de ser monitorada por método ativo ou manual).
Tempo de paz
Quando os serviços e as operações estão funcionando conforme o esperado, sem qualquer interrupção.
Degradação do desempenho
Medida que mostra quanto o desempenho de um sistema diminuiu devido a um evento ou incidente.
Tempo de inatividade planejado
Período em que um serviço de TI fica indisponível de propósito para fins de manutenção ou atualizações.
Esquemas táticos
Coleção de "táticas" ou ações específicas que a equipe pode realizar para resolver um problema, incidente ou meta específica.
Análise retrospectiva/análise pós-incidente/revisão pós-incidente
Processo de compreensão de um incidente depois que ele é resolvido. O objetivo de uma análise retrospectiva é melhorar os processos de resposta, prevenir incidentes futuros e compreender a causa do incidente mais recente.
Priority
Ordem em que os incidentes devem ser resolvidos. Os itens de alta prioridade exigem mais urgência do que os itens de baixa prioridade. A prioridade é determinada pela urgência, gravidade e impacto potencial nos negócios.
Registro de problema
Registro de problema é um documento que abrange todos os aspectos de um item, da detecção à resolução.
Interrupção projetada de serviço
Documento que descreve como a manutenção ou teste futuro vai afetar os níveis normais de serviço.
Garantia de qualidade
Processo de testes para garantir que os padrões sejam atendidos para qualquer item relacionado à TI, de funções novas a guias de procedimentos.
Sistema de gestão da qualidade
Estrutura ou sistemas implementados para oferecer garantia da qualidade.
Monitoramento reativo
Monitoramento feito em reação a um evento ou incidente.
Recuperação
Processo de retornar um serviço à funcionalidade e integridade dos parâmetros.
Objetivo do ponto de recuperação
Perda máxima de dados permitida durante a recuperação.
Objetivo do tempo de recuperação
Tempo máximo tolerado para uma interrupção do serviço.
Lance
Alteração implementada para os usuários.
Gerenciamento de versão
Planejamento, projeto, teste, agendamento, solução de problemas e implementação de alterações.
Resiliência
Capacidade de um sistema resistir a falhas e recuperar-se com rapidez no caso de um incidente.
Tempo de resposta
Quantidade de tempo que leva do momento em que um alerta é gerado até quando uma ação inicial é executada pela equipe.
Avaliação de risco
Processo de identificação do risco de um ativo avaliando o valor, as ameaças potenciais e o impacto potencial dessas ameaças.
Gestão de riscos
Processo de lidar com ameaças, com identificação e controle.
Causa-raiz
Em geral, a causa raiz é considerada o único motivo da falha de um serviço ou aplicativo. No entanto, muitas vezes existem muitos fatores interligados que contribuem para as falhas. Assim, as equipes estão começando a debater se esse termo é útil no gerenciamento de incidentes, e muitos mudaram para a forma plural: causas raízes.
Runbooks
Os runbooks oferecem procedimentos detalhados para o gerenciamento de incidentes. Eles são mantidos pelos administradores do sistema ou pela equipe do Network Operations Control (NOC). Os runbooks podem ser digitais ou impressos.
Escopo
Extensão de um problema, solução, projeto, capacidade etc.
Suporte de segunda linha
Pessoas com capacidades adicionais — tempo, experiência, conhecimento, recursos — para resolver itens que podem estar além da capacidade dos primeiros respondentes.
Alteração de serviço
Atualizações, correções, depreciação ou outras mudanças feitas em um serviço.
Central de atendimento
Equipe que atende às solicitações de suporte ao cliente e atua como ponto de contato entre os clientes e a TI.
Análise de falhas de serviço
A análise de falha de serviço é o processo de inspecionar uma interrupção de serviço para identificar a causa.
Acordo de Nível de Serviço (SLA)
Acordo entre o provedor e o cliente sobre métricas mensuráveis, como disponibilidade, capacidade de resposta e responsabilidades.
Gráfico de monitoramento do Acordo de Nível de Serviço (SLAM)
Documento que registra o progresso e os dados sobre as metas de nível de serviço.
Objetivos de Nível de Serviço (SLOs)
Acordo dentro de um SLA sobre uma métrica específica, como disponibilidade.
Níveis de gravidade (GRAV)
Grau em que um serviço é afetado por um incidente. Em geral, as equipes usam uma estrutura de nível de gravidade que vai de 3 a 5, com 1 sendo a gravidade mais alta e 3 a 5 indicando itens de gravidade mais baixa que não exigem tanta urgência.
Ponto único de falha
Variável da qual um sistema depende para funcionar. Por exemplo: um item de configuração essencial.
Especificação
Registro formal de requisitos para uma configuração relacionada à TI.
Engenheiro de Confiabilidade do Site (SRE)
Engenheiro de software encarregado de operações. Os SREs são responsáveis por automatizar tarefas manuais, gerenciar SLOs e gerenciar incidentes.
Alterações padrão
Alterações pré-aprovadas de baixo risco e repetidas, como adição de memória ou armazenamento.
Espera
Recursos inativos e disponíveis para dar suporte ao gerenciamento de incidentes.
Status
Condição atual de um serviço.
Página de status
Página inicial dedicada para comunicar a condição atual de um serviço, com atualizações regulares do status dos incidentes.
Especialista (SME)
Indivíduo com conhecimento específico sobre um determinado item, serviço etc.
Pilha de tecnologia
Linguagens de programação, software e componentes que constituem um aplicativo. Existem dois lados nos recursos tecnológicos: front-end (voltado para o cliente) e back-end (voltado para o desenvolvedor).
Métricas de tensão
Dados que, quando um conjunto ou ponto é alterado, têm impacto negativo em outros pontos de dados.
Limite
Nível ou número predefinido que, quando excedido, gera um alerta. Por exemplo, o limite para a página de login carregar pode ser de três segundos. Se a página começar a demorar mais tempo para carregar, um alerta vai ser gerado.
Linha do tempo
Lista abrangente de eventos, alterações, correções, resultados e quando cada um aconteceu durante um incidente.
Análise de tendência
Investigação sobre os padrões relacionados ao tempo. A análise de tendências pressupõe que os padrões passados podem prever padrões futuros nos dados. Assim, a análise de tendências se torna uma prática valiosa para a prevenção de incidentes.
Solução alternativa
Método bem-sucedido de implementar uma correção rápida que faz com que a funcionalidade do sistema volte a funcionar, mesmo se o incidente subjacente ainda não for resolvido.
Carga de trabalho
Os recursos, humanos e máquinas, necessários para entregar um serviço de TI.
Configuração de um on-call schedule com o Opsgenie
Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.
Leia este tutorialPrós e contras de diferentes abordagens ao gerenciamento de plantão
As equipes de plantão estão evoluindo com rapidez. Explore os prós e contras de diferentes abordagens ao gerenciamento de plantão.
Leia este artigo