Gerenciamento de incidentes para equipes de alta velocidade
Respondendo a um incidente
As seções a seguir descrevem o processo da Atlassian para reagir aos incidentes. O Gestor de incidentes (IM) segue esta série de etapas para orientar o incidente, desde a detecção até a resolução.
Campo Jira | Tipo | Texto de ajuda |
Resumo | Texto | Qual é a emergência? |
Descrição | Texto | Qual é o impacto para os clientes? Inclua os dados de contato para que os respondentes possam entrar em contato com você |
Gravidade | Seleção única | (Hiperlink para uma página do Confluence com nossa escala de gravidade) Escolher a Grav. 2 ou 1 significa que você acha que isto deve ser resolvido imediatamente - pessoas serão chamadas. |
Serviço com falha | Seleção única | O serviço que tem a falha que está causando o incidente. Use seu melhor palpite se não tiver certeza. Selecione "Desconhecido" se não tiver ideia. |
Produtos afetados | Caixas de seleção | Quais produtos são afetados pelo incidente? Selecione os que se aplicam |
Depois que o incidente é criado, sua chave de item é usada em todas as comunicações internas sobre ele.
Os clientes abrirão casos de suporte com frequência sobre um incidente que os afeta. Depois que as equipes de suporte ao cliente determinarem que todos estes casos estão relacionados a um incidente, elas rotulam estes casos com a chave de item do incidente para poder rastrear o impacto no cliente e acompanhar com mais facilidade os clientes afetados quando o incidente é resolvido.
Gravidade | Descrição | Exemplos |
1 | Um incidente crítico com impacto muito alto |
|
2 | Um incidente grande com impacto significativo |
|
3 | Um incidente menor com impacto baixo |
|
Depois de estabelecer o impacto do incidente, ajuste ou confirme a gravidade do item do incidente e comunique a gravidade à equipe. Descobrimos que enumerar o nível é muito benéfico para comunicar com clareza a gravidade.
Na Atlassian, os incidentes de gravidade 3 são transmitidos às equipes de fornecimento para serem resolvidos durante o horário comercial, enquanto os de gravidade 1 e 2 exigem a chamada de membros da equipe para correção imediata. A diferença na resposta entre a gravidade 1 e 2 é mais sutil e depende do serviço afetado.
Sua matriz de gravidade deve ser documentada e acordada entre todas as suas equipes, para ter uma resposta consistente aos incidentes com base no impacto do cliente.
Statuspage interna | Statuspage externa | |
Nome do incidente | | Investigando problemas com o |
Mensagem | Estamos investigando um incidente que afeta o | Estamos investigando problemas com o |
Além de criar um incidente no Statuspage, enviamos um e-mail para uma lista de distribuição de comunicações sobre incidentes que inclui nosso líder de engenharia, os gestores de incidentes grandes e outros agentes interessados. Este e-mail tem o mesmo conteúdo do incidente do Statuspage interno. O e-mail permite que os agentes respondam e façam perguntas, enquanto o Statuspage é uma comunicação mais unilateral.
Observe que nós sempre incluímos a chave de item Jira do incidente em todas as comunicações internas sobre o incidente, para que os agentes saibam em qual sala de chat entrar para fazer mais perguntas.
Configuração de um on-call schedule com o Opsgenie
Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.
Leia este tutorialAnálises retrospectivas: aprimore os processos de gerenciamento de incidentes
Aprenda a conduzir análises retrospectivas eficazes para melhorar os processos de gerenciamento de incidentes e evitar problemas futuros.
Leia este artigo