Gerenciamento de incidentes para equipes de alta velocidade
Manual de incidentes da Atlassian
Espera-se que as equipes que executam serviços tecnológicos atualmente tenham uma disponibilidade de tempo integral.
Quando algo dá errado, seja uma queda de energia ou um recurso com falha, os membros da equipe precisam responder imediatamente e restaurar o serviço. Este processo é chamado de gerenciamento de incidente, e é um desafio complexo e contínuo para todas as empresas, grandes e pequenas.
Queremos ajudar as equipes de todos os lugares a melhorar o gerenciamento de incidentes. Inspirados por equipes como as do Google, a gente criou este manual como um resumo do processo de gerenciamento de incidentes da Atlassian. Existem duas lições que aprendemos respondendo a incidentes durante mais de uma década. Embora dependa de experiências únicas, a gente espera que ele possa ser adaptado às necessidades da sua própria equipe.
Obtenha o manual em formato impresso ou PDF
Oferecemos uma quantidade limitada de versões impressas do Manual de gerenciamento de incidentes com envio grátis. Você também pode baixar a versão em PDF.
Queremos ajudar as equipes de todos os lugares a melhorar o gerenciamento de incidentes. Inspirados por equipes como as do Google, a gente criou este manual como um resumo do processo de gerenciamento de incidentes da Atlassian. Existem duas lições que aprendemos respondendo a incidentes durante mais de uma década. Embora dependa de experiências únicas, a gente espera que ele possa ser adaptado às necessidades da sua própria equipe.
Estágio | Valores relacionados a incidentes | Valor relacionado da Atlassian | Justificativa |
1. Detectar | A Atlassian sabe antes que os nossos clientes saibam | Construir com o coração e equilíbrio | Um serviço equilibrado inclui o monitoramento e alerta adequados para detectar os incidentes antes dos clientes. O melhor monitoramento nos alerta sobre os problemas antes que se tornem incidentes. |
2. Reagir | Escalonar, escalonar, escalonar | Jogar sempre em equipe | Ninguém gosta de ser acordado e a gente leva essa responsabilidade a sério. Mas as pessoas entendem que, às vezes, elas podem ser acordadas para resolver um incidente e que, no fim, elas não eram necessárias. O que costuma ser mais difícil é acordar por causa de um incidente grave e tentar recuperar o atraso quando você deveria ter sido alertado antes. Nem sempre teremos todas as respostas; então, "não hesite em escalonar". |
3. Recuperar | As coisas dão errado, conserte imediatamente | Não !@#$ o cliente | Nossos clientes não se importam com o motivo do serviço não estar funcionando, somente com a restauração do serviço o mais rápido possível. Nunca hesite em resolver incidentes com rapidez para que a gente possa minimizar o impacto nos clientes. |
4. Aprender | Sempre sem culpa | Empresa aberta, sem papo-furado | Os incidentes fazem parte da execução de serviços. Melhoramos os serviços dando responsabilidade às nossas equipes, não apontando um culpado. |
5. Melhorar | Não deixe que o incidente se repita | Seja a mudança que você quer | Identifique a causa-raiz e as mudanças que evitarão que toda a classe de incidentes ocorra novamente. Comprometa-se em promover mudanças específicas em datas específicas. |
Configuração de um on-call schedule com o Opsgenie
Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.
Leia este tutorialComo respondemos a um incidente
Veja aqui o processo para responder a incidentes no manual da Atlassian. Aprenda as etapas que o gerenciador de incidentes segue da detecção à resolução.
Leia este artigo