Teste o Compass grátis

Aprimore a experiência de desenvolvedor, catalogue todos os serviços e melhore a integridade do software.

Experimente grátis!

Como o YBIYRI permite serviços sempre ativos

Como as organizações podem criar uma cultura de DevOps que ofereça suporte aos serviços contínuos

Krishna Sai

Chefe de Engenharia, Soluções de TI

A natureza dos serviços contínuos exige respostas constantes das equipes ágeis e de DevOps. Essas equipes precisam pensar além da reação a um único incidente e alinhar a estrutura, os valores e as ferramentas da equipe para garantir que a excelência operacional se torne uma competência central.

Desafios dos serviços contínuos

Desde que foi discutida pela primeira vez há 14 anos, a YBIYRI ainda desafia as equipes modernas de desenvolvimento a cumprir a promessa de acelerar o tempo de resolução e escalar as práticas operacionais recomendadas. A realidade é que muitas equipes ainda estruturam suas habilidades, cronogramas e processos no formato de reação a incidentes, em vez de criar uma base para o sucesso em longo prazo.

As equipes muitas vezes mudam para uma cultura YBIYRI sem a preparação adequada. Como resultado, o primeiro incidente grave muitas vezes acaba sendo um alerta. No entanto, a reação muitas vezes é desencadeada pelo sentimento: “a gente não pode deixar que incidentes aconteçam de novo”. Nessa tentativa, portas de segurança, pontos de verificação e outras despesas gerais processuais são implementados. Além disso, os quadros de revisão de alterações e as avaliações de lançamentos semanais fazem parte dos rituais da equipe. Cada alteração é analisada com cuidado na tentativa de evitar interrupções de serviço. Embora essas práticas diminuam os incidentes, elas podem reduzir a velocidade de desenvolvimento e o andamento do produto. Essa redução pode se tornar uma desvantagem competitiva, pois concorrentes mais ágeis podem avançar com muito mais rapidez.

Práticas recomendadas para equipes de serviços contínuos

Material relacionado

Comece gratuitamente

Saiba mais

ver solução

Simplifique o gerenciamento e a resposta a incidentes

Obtenha grátis

Prontidão operacional

Uma das mudanças essenciais para as equipes da YBIYRI é incluir a prontidão operacional como parte dos ciclos de planejamento e execução de sprints. A prontidão operacional pode incluir:

Durante o desenvolvimento, a criação de alertas adequados e de alta qualidade no código que diminuam o tempo médio de detecção (MTTD) e o tempo médio de isolamento (MTTI)
A criação de monitores — incluindo monitores sintéticos, quando apropriado — para garantir que os serviços dependentes funcionem conforme o esperado
Disposição de tempo para a criação dos painéis necessários e o treinamento de todos os membros da equipe sobre o seu uso
A garantia de que os membros da equipe de plantão não tenham outros compromissos de desenvolvimento durante um sprint
Planejamento de “simulações” do serviço para garantir que os rollbacks funcionem conforme o esperado
Planejamento da largura de banda em sprints para finalizar ações de investigações de incidentes anteriores
Resolução de questões de segurança (upgrades/patches/credenciais contínuas) e operacionais como parte dos ciclos de sprint

Todas essas etapas exigem que os proprietários dos produtos entendam os objetivos de nível de serviço (SLO) e os priorizem de maneira adequada, junto com os compromissos empresariais relacionados ao desenvolvimento e à funcionalidade de funções.

Aproveite os valores relacionados a incidentes

O aproveitamento dos valores relacionados a incidentes no nível da equipe pode criar uma base sólida para a jornada de YBIYRI. Eles orientam a equipe na resposta a incidentes. Esses valores garantem que haja uma base sólida para uma cultura sustentável em torno da criação e operação de um serviço contínuo. Os valores relacionados a incidentes são projetados para:

Orientar a tomada autônoma de decisões por pessoas e equipes durante incidentes e análises retrospectivas
Criar uma cultura de equipe consistente que inclua como identificar, gerenciar e aprender com os incidentes
Alinhar as equipes sobre quais atitudes devem ser tomadas em cada parte da identificação, resolução e repercussão do incidente

Um esquema tático dos Valores de Incidentes oferece um excelente guia para ajudar a identificar os valores da equipe durante a resposta a incidentes e criar um plano para aproveitar esses valores com regularidade. Ele pode ser útil se sua equipe tiver dificuldades em relação ao foco no cliente, coesão da equipe, compreensão compartilhada, níveis de serviço ou determinações de serviço no Monitor de Saúde.

Na Atlassian, adotamos os seguintes valores de incidentes no nível da equipe:

Valor da Atlassian

Estágio e valores relacionados a incidentes

Justificativa

Construir com o coração e equilíbrio

Identificar
A Atlassian sabe o que está acontecendo antes que os clientes saibam

Um serviço equilibrado inclui o monitoramento e alerta adequados para identificar os incidentes antes dos clientes. O melhor monitoramento informa a gente sobre os problemas antes que eles se tornem incidentes.

Jogar como uma equipe

Responder
Escalonar, escalonar, escalonar

A gente não se incomoda em acordar para resolver incidentes, mesmo que não seja necessário. Mas a gente se importa de não receber o aviso quando deveria. É possível que nem sempre as respostas estejam com a gente, então “não hesite em escalar”.

Não ferre a vida do cliente

Recuperar
Problemas acontecem, resolva-os com rapidez

Os clientes não se importam com o motivo pelo qual o serviço não está funcionando, somente com a sua resolução rápida. Nunca hesite em solucionar incidentes com rapidez para que a gente minimize o impacto para os clientes.

Empresa aberta, sem papo-furado

Aprender
Sempre sem apontar culpados

Incidentes fazem parte da execução de serviços contínuos. A gente melhora os serviços com a atribuição de responsabilidade às equipes, sem apontar culpados.

Seja a mudança que você quer

Melhorar
Não deixe que o incidente se repita

Identifique a causa raiz para que a gente evite a recorrência do incidente. Realize mudanças específicas até datas específicas.

Ferramentas para uma empresa sempre ativa

Além de práticas e cultura sólidas, as empresas que executam serviços contínuos precisam das ferramentas certas. Equipes com práticas maduras de DevOps usam ferramentas para facilitar o planejamento ágil de projetos e sprints, integração contínua/implementação contínua (IC/CD), automação e recursos avançados de monitoramento e alertas.

Uma ferramenta moderna de gerenciamento de incidentes como o Opsgenie garante que você receba alertas importantes direto em canais de notificação preferidos com as menores latências. Ele também inclui o recurso de agrupamento de alertas para filtrar vários deles, em especial quando diversos alertas são gerados a partir de um único erro ou falha. Uma ferramenta de gerenciamento de alertas deve se integrar com perfeição às ferramentas da equipe (por exemplo, gerenciamento de registros, relatórios de falhas) para que ela se encaixe com naturalidade no ritmo operacional e de desenvolvimento da equipe.

Cada equipe é diferente em termos de fluxos de trabalho, políticas e partes interessadas. A ferramenta de gerenciamento de alertas deve ser capaz de personalizar cronogramas de plantão e regras de encaminhamento para lidar com alertas com base em sua origem e carga útil. Muitas vezes, os alertas podem justificar o encaminhamento para um incidente. A ferramenta deve gerenciar um incidente sem distrações, criando de maneira automática um gerenciador de incidentes. Dessa forma, é possível gerenciar o incidente de maneira detalhada, com todas as informações ao seu dispor, integrações com as ferramentas de comunicação e colaboração. Por fim, a ferramenta deve disponibilizar relatórios e análises avançadas para se obter insights sobre as áreas que estão indo bem e identificar oportunidades de melhoria. Ela deve revelar a origem dos alertas, o desempenho de respostas da equipe e como as cargas de trabalho de plantão são distribuídas.

Conclusão...

O desejo do consumidor moderno por serviços contínuos está deixando de ser um desejo e sendo cada vez mais uma necessidade. Muitas empresas adotam uma cultura de YBIYRI para desenvolver a agilidade necessária para atender a essas demandas. O desafio é que muitas empresas não estão equipadas com as ferramentas adequadas e as estruturas/práticas de equipe necessárias para acompanhar essa velocidade.

Se você está planejando mudar para uma cultura YBIYRI de DevOps para sua equipe, aqui estão algumas etapas a serem seguidas:

Prepare sua equipe para assumir todas as fases de desenvolvimento e operação do aplicativo ou serviço
Garanta o alinhamento com os proprietários do produto para que os SLOs sejam priorizados no planejamento de sprint
Adote um conjunto de valores de incidentes que orientam o comportamento de sua equipe na resposta a um incidente
Capacite sua equipe com uma ferramenta moderna de gerenciamento de alertas e incidentes, como o Opsgenie, que é confiável, rápida e flexível

Baixe o manual gratuito de gerenciamento de incidentes e comece a usar o Opsgenie grátis.

Krishna Sai

Krishna Sai é chefe de engenharia e soluções de TI da Atlassian. Ele tem mais de duas décadas de liderança em engenharia/tecnologia em várias startups e empresas, incluindo Atlassian, Groupon e Polycom. Mora em Bengaluru, na Índia e é apaixonado pelo desenvolvimento de produtos que impactam a maneira como as equipes colaboram.

Compartilhe este artigo

Próximo tópico

Estruturas de DevOps

Leitura recomendada

Marque esses recursos para aprender sobre os tipos de equipes de DevOps ou para obter atualizações contínuas sobre DevOps na Atlassian.

Comunidade de DevOps

Saiba mais

Caminho de aprendizagem de DevOps

Saiba mais

Comece gratuitamente

Saiba mais

Inscreva-se para receber a newsletter de DevOps

Thank you for signing up

Destaque

Coleções da Atlassian NOVO

Jira

Confluence

Loom

Agentes

Alinhamento

Foco

Talento

Agentes

Plataforma Atlassian Cloud

Aplicativos apresentados

Jira

Confluence

Jira Service Management

Rovo NOVO

Desenvolvedores

Jira

Bitbucket

Compass NOVO

Gerentes de produtos

Jira

Confluence

Jira Product Discovery NOVO

Profissionais de TI

Jira Service Management

Guard NOVO

Equipes administrativas

Jira

Confluence

Trello

Loom NOVO

Equipes de liderança

Jira

Confluence

Loom NOVO

Jira Align

Foco NOVO

Soluções

Soluções

Jira

Confluence

Loom

Agentes

Alinhamento

Foco

Talento

Agentes

Plataforma Atlassian Cloud

Por que a Atlassian

Sistema de trabalho Novo

Integrações

Clientes

FedRAMP

Resiliência

Plataforma

Trust Center

Recursos

Suporte ao cliente

Encontre parceiros

Migration Program

Acadêmico

Suporte

Saiba mais

Jira

Jira Service Management

Confluence

Teste o Compass grátis

Artigos

Tutorais

Guias interativos

Como o YBIYRI permite serviços sempre ativos

Como as organizações podem criar uma cultura de DevOps que ofereça suporte aos serviços contínuos

Krishna Sai

Desafios dos serviços contínuos

Práticas recomendadas para equipes de serviços contínuos

Material relacionado

Comece gratuitamente

ver solução

Simplifique o gerenciamento e a resposta a incidentes