Gestione degli imprevisti per i team high velocity
Come creare un playbook di risposta agli imprevisti
Prendi una pagina del nostro manuale.
La nostra mission in Atlassian è liberare il potenziale di ogni team. Una cosa che sappiamo hanno in comune i team migliori? Utilizzano i playbook per gestire i numerosi processi formulati per garantire operazioni aziendali senza intoppi.
Questo articolo descrive i 5 passaggi fondamentali per creare un efficace playbook di risposta agli imprevisti. Utilizzeremo il nostro Manuale di gestione degli imprevisti di Atlassian come modello per sviluppare un piano di risposta agli imprevisti.
Perché i team Agile necessitano di un playbook sugli imprevisti
Un playbook di risposta agli imprevisti mette a disposizione dei team passaggi e procedure standard per la risposta agli imprevisti e la loro risoluzione in tempo reale. I playbook possono inoltre includere corsi di formazione ed esercizi in tempo di pace per preparare il team al prossimo imprevisto.
I team Atlassian dedicati agli imprevisti sono impegnati in continue attività di formazione, perfezionamento e test e non smettono mai di apportare miglioramenti al processo di gestione degli imprevisti. Abbiamo sviluppato il playbook di risposta agli imprevisti per:
- Guidare il processo decisionale autonomo di singoli e team in caso di imprevisti e analisi retrospettive.
- Sviluppare una cultura coerente tra i vari team circa il modo in cui individuiamo, gestiamo e impariamo dagli imprevisti.
- Allineare i team sulla mentalità di cui devono dare prova in ogni fase dell'identificazione e della risoluzione degli imprevisti e della successiva riflessione critica.
Che cos'è un playbook di risposta agli imprevisti?
I playbook sono un componente chiave della gestione degli imprevisti DevOps e IT, oltre che della sicurezza informatica. Stabiliscono le policy e le pratiche dell'organizzazione per quanto riguarda la risposta alle interruzioni non pianificate, aiutano i team a portare ordine nel caos e assicurano una risposta coerente agli imprevisti e alle minacce alla sicurezza.
Nei manuali di gestione degli imprevisti il team può trovare un insieme di processi per rispondere, risolvere e apprendere da ogni imprevisto, sia che si tratti di un problema di sicurezza o di un'altra vulnerabilità emergente. Il contenuto può includere qualsiasi cosa, da runbook e checklist a modelli, esercizi di formazione, scenari di attacchi alla sicurezza ed esercitazioni di simulazione.
Creare un playbook di risposta agli imprevisti
Per la creazione del Manuale di gestione degli imprevisti di Atlassian, abbiamo identificato 5 best practice per la gestione degli imprevisti. Questi passaggi possono essere implementati da diversi team DevOps e delle operazioni IT e guidano il processo di creazione di un efficace playbook di risposta agli imprevisti.
1. Definisci il significato di "imprevisto" per la tua organizzazione
Cosa includere: una definizione specifica di cosa costituisce un imprevisto
Perché: non puoi risolvere in modo efficace un imprevisto se non sai quando si verifica. Team diversi definiscono gli imprevisti in modi diversi. Se qualcosa va storto, ogni secondo è prezioso e non va sprecato per discutere di semantica.
Esempio:
La definizione di imprevisto come riportata nel Manuale di gestione degli imprevisti di Atlassian:
Che cos'è un imprevisto?
Definiamo un imprevisto come un evento che causa un'interruzione o una riduzione della qualità di un servizio e che richiede una risposta di emergenza. I team che seguono le pratiche ITIL o ITSM potrebbero invece usare il termine "imprevisto grave" per definire un tale evento.
Un imprevisto è risolto quando il servizio compromesso riprende a funzionare nel modo consueto. Ciò include solo i task richiesti per il ripristino della piena funzionalità ed esclude i task successivi come l'identificazione della causa primaria e la mitigazione, che sono parte dell'analisi retrospettiva.
L'analisi retrospettiva di un imprevisto viene svolta dopo l'imprevisto per determinarne la causa primaria e assegnare azioni per assicurare che tale causa sia affrontata prima che l'imprevisto possa ripetersi.
2. Fissa ruoli prestabiliti
Cosa includere: ruoli e responsabilità legati all'imprevisto
Perché: un playbook di risposta agli imprevisti adeguato indica ruoli e responsabilità chiari. I membri del team di risposta agli imprevisti hanno familiarità con ogni ruolo e conoscono le proprie responsabilità durante un imprevisto.
Esempio:
I ruoli che usiamo in Atlassian hanno l'obiettivo di assicurare che non venga saltato nessun passaggio, che lo stesso lavoro non venga svolto due volte e che la comunicazione avvenga in modo fluido ed efficace.
- Il Gestore imprevisti ha la responsabilità generale e l'autorità decisionale sull'imprevisto. Ha facoltà di intraprendere qualsiasi azione necessaria a risolvere l'imprevisto, incluso contattare altri addetti dell'organizzazione e tenere focalizzate sul ripristino più rapido possibile del servizio tutte le parti coinvolte nella risoluzione dell'imprevisto.
- Il Coordinatore tecnico è un tecnico d'intervento esperto. È responsabile di elaborare teorie sulla natura e sul motivo del malfunzionamento, di decidere le modifiche e di gestire il team tecnico. Lavora a stretto contatto con il Gestore imprevisti.
- Il Responsabile comunicazioni è una persona che ha familiarità con le comunicazioni pubbliche, meglio se proveniente dal team di assistenza clienti o dalle pubbliche relazioni. È responsabile della redazione e dell'invio di comunicazioni interne ed esterne.
3. Implementa un processo coerente
Cosa includere: flussi di lavoro e passaggi del processo
Perché: ogni imprevisto è diverso dall'altro. Ma ciò non vuol dire che gli addetti non possano introdurre un flusso di lavoro coerente di risposta agli imprevisti.
Delinea le fasi e i passaggi chiave e assicurati che i membri del team abbiano un'idea chiara su cosa ci si aspetta durante ogni fase e su cosa avverrà dopo. Ad esempio, Atlassian delinea il flusso di risposta agli imprevisti in sette passaggi su tre fasi al fine di portare l'imprevisto dal rilevamento alla risoluzione.
Esempio:
Quando viene rilevato un nuovo imprevisto, il gestore imprevisti avvia la comunicazione interna e l'organizzazione della risposta. Quindi il team può iniziare a lavorare per risolvere la causa dell'imprevisto e individuare una soluzione. In questa fase, le organizzazioni più solide facilitano l'azione, alimentata da comunicazioni frequenti. L'impiego di una procedura coerente porta a una risoluzione più rapida, incluso un esercizio di analisi retrospettiva di cui parleremo più avanti.
4. Abilita una risposta rapida
Cosa includere: modelli e checklist
Perché: i playbook sugli imprevisti devono essere sufficientemente semplici per essere seguiti dai team nei momenti di stress. Il nostro processo include una fondamentale "scheda di riferimento rapido" per il Gestore imprevisti in cui, in una sola pagina, sono riportati passaggi chiave come la valutazione, l'escalation e la delega.
Seguire un processo di risposta agli imprevisti prestabilito non vuol dire che non ci sia spazio per l'improvvisazione. Al contrario, occorre essere flessibili e sapere quando è necessario adattarsi a una situazione mutevole. Gli imprevisti, per definizione, sono scenari in cui le cose non vanno secondo i piani, ma ciò non esclude che non sia possibile pianificarli. I team che si formano e si esercitano con una serie di strategie sono in genere dei team di successo.
Usa quanto segue:
Prova a inscenare una strategia dei valori della risposta agli imprevisti per migliorare la coesione del team e risolvere potenziali incomprensioni prima che si verifichi l'imprevisto. Usa la risorsa Playbook dei team Atlassian per comprendere meglio il processo del tuo team e creare un playbook dinamico.
5. Favorisci analisi retrospettive complete
Cosa includere: delinea il processo e i campi del problema dell'analisi retrospettiva
Perché: l'analisi retrospettiva mira a massimizzare il valore di un imprevisto attraverso la comprensione di tutte le cause che hanno vi contribuito, la documentazione dell'imprevisto per riferimento futuro e per l'identificazione di schemi ricorrenti e l'implementazione di azioni preventive efficaci per ridurne l'impatto o la probabilità che si ripeta.
Se pensiamo agli imprevisti come a un investimento non pianificato nell'affidabilità del sistema, allora le analisi retrospettive sono il modo in cui massimizzare il ritorno su questo investimento.
Prova quanto segue:
Perché le analisi retrospettive siano efficaci, il processo deve semplificare per i team l'identificazione delle cause e la loro correzione. I metodi che scegli di utilizzare dipendono dalla cultura del tuo team; in Atlassian, abbiamo individuato una combinazione di metodi che si adattano alle esigenze dei nostri team di analisi retrospettiva:
- Le riunioni faccia a faccia aiutano a condurre analisi appropriate e allineano il team su ciò che deve essere corretto.
- Le approvazioni delle analisi retrospettive da parte dei responsabili dei team operativi e di rilascio incentivano i team a svolgere in modo accurato tali analisi.
- Le azioni prioritarie designate hanno un Obiettivo del livello di servizio (SLO) assegnato con promemoria e rapporti per assicurarsi che siano completate.
Una descrizione dettagliata delle analisi retrospettive di risposta agli imprevisti di Atlassian è disponibile a pagina 46 del nostro Manuale di gestione degli imprevisti.
In conclusione, i playbook di risposta agli imprevisti devono essere usati per favorire una collaborazione efficace tra i team per risolvere gli imprevisti il più rapidamente possibile. Quando si verifica un imprevisto, nessuno ha il tempo per discutere di best practice o per accusare gli altri. Playbook completi e ben strutturati consentono ai team di svolgere al meglio il loro lavoro. In Atlassian, la nostra guida a tutte queste strategie è descritta nel dettaglio nel Manuale di gestione degli imprevisti.
Configurare una On-call Schedule con Opsgenie
In questo tutorial imparerai come configurare una On-call Schedule, applicare le regole di sostituzione, configurare le notifiche su chiamata e molto altro, il tutto in Opsgenie.
Segui il tutorialPro e contro dei diversi approcci alla gestione del servizio su chiamata
I team su chiamata si stanno evolvendo rapidamente. Scopri pro e contro dei diversi approcci alla gestione del servizio su chiamata.
Leggi l'articolo