Close

Gestione degli imprevisti per i team high velocity

Come condurre un processo di gestione degli imprevisti gravi

Gestione e risoluzione degli imprevisti a impatto elevato

La gestione degli imprevisti gravi (spesso nota in Atlassian semplicemente come gestione degli imprevisti) è il processo utilizzato dai team DevOps e delle operazioni IT per rispondere a un evento non pianificato o a un'interruzione del servizio e ripristinarlo al suo stato operativo.

Che cos'è un imprevisto grave?

Quindi, che cosa costituisce un imprevisto grave? Un imprevisto grave è un'interruzione a livello di emergenza o una perdita del servizio.

La definizione di livello di emergenza varia a seconda dell'organizzazione. In Atlassian, abbiamo tre livelli di gravità e i primi due (SEV 1 e SEV 2) sono entrambi considerati imprevisti gravi.

Se un servizio rivolto ai clienti è inattivo per tutti i clienti Atlassian, si tratta di un imprevisto SEV 1. Se lo stesso servizio è inattivo per un sottoinsieme di clienti, l'imprevisto è SEV 2. Entrambi rientrano nella categoria di imprevisto grave e richiedono una risposta immediata da parte dei nostri team di gestione degli imprevisti.

Qualsiasi problema che non interferisca con le attività essenziali è considerato di livello SEV 3 e non è un imprevisto grave.

Definizione del tuo processo di gestione degli imprevisti gravi

Il ciclo di vita degli imprevisti (a volte noto anche come processo di gestione degli imprevisti) è il percorso che intraprendiamo per identificare gli imprevisti, risolverli, comprenderli ed evitare che si ripetano.

I processi di gestione degli imprevisti variano da azienda ad azienda, ma la chiave del successo per qualsiasi team è definire e comunicare in modo chiaro i livelli di gravità, le priorità, i ruoli e i processi in anticipo, prima che si verifichi un imprevisto grave.

Per ottenere una comprensione condivisa delle priorità, dei ruoli e dei processi, qualsiasi team che stia avviando o ridefinendo il proprio processo di gestione degli imprevisti gravi dovrebbe innanzitutto fornire una risposta chiara a domande come le seguenti:

  • Che cosa costituisce un imprevisto grave per la nostra azienda/i nostri prodotti?
  • In che modo definiremo la gravità e i livelli di priorità degli imprevisti? Se si verificano più imprevisti gravi contemporaneamente, come faremo a sapere cosa affrontare prima?
  • Chi è responsabile della gestione degli imprevisti gravi? Quali ruoli avranno i membri del team? Come verranno definiti e comunicati questi ruoli?
  • Quale procedura seguiranno i team in caso di imprevisto grave? Esiste più di un processo, a seconda del tipo di imprevisto?
  • Con che frequenza comunicheremo con gli stakeholder, sia interni che esterni? Qual è il nostro piano di comunicazione?
  • Quali caratteristiche avrà la nostra programmazione su chiamata per gli imprevisti gravi? Chi ha la responsabilità di gestire un imprevisto alle 2 del mattino o nel fine settimana? Oppure durante le vacanze?
  • Quando e in che modo dobbiamo avvisare il nostro gestore imprevisti su chiamata, dando priorità alla risoluzione rapida degli imprevisti gravi ed evitando al contempo lo stress da avvisi?

Il processo di gestione degli imprevisti gravi di Atlassian

In Atlassian, il processo di gestione degli imprevisti include il rilevamento, la segnalazione di un nuovo imprevisto, l'apertura delle comunicazioni, la valutazione, l'invio delle comunicazioni iniziali, l'escalation, la delega, l'invio delle comunicazioni di follow-up, la revisione e la risoluzione.

Illustrazione della risposta agli imprevisti: rilevamento, apertura delle comunicazioni, valutazione, invio delle comunicazioni, escalation, delega, risoluzione

Rilevamento

Innanzitutto, un imprevisto viene rilevato tramite la nostra tecnologia, le segnalazioni dei clienti o il personale. Chiunque rilevi l'imprevisto (che si tratti di un tecnico che nota il problema o di un addetto dell'assistenza clienti che riceve una chiamata da un cliente in difficoltà) è responsabile della sua registrazione nel nostro sistema e dell'identificazione del livello di gravità.

Quando un imprevisto viene comunicato ai nostri team, presenta già un livello SEV 1, 2 o 3 allegato. Consideriamo i livelli SEV 1 e 2 come imprevisti gravi, mentre un livello SEV 3 indica un imprevisto di minore impatto.

Segnalazione di un nuovo imprevisto

Una volta creato un ticket per l'imprevisto, viene inviata una notifica al professionista su chiamata responsabile di quel servizio.

L'avviso pagina che inviamo ad Atlassian include informazioni sulla gravità e la priorità dell'imprevisto, nonché un riepilogo che chiarisce, a colpo d'occhio, se la priorità è assoluta o se è possibile attendere la risoluzione di un altro imprevisto in corso.

Apertura delle comunicazioni

Quando il gestore imprevisti riceve un avviso, deve innanzitutto comunicare che la correzione dell'imprevisto è in corso. A tale scopo, modifica lo stato dell'imprevisto su "in fase di correzione" e configura i canali di comunicazione del team.

È fondamentale offrire canali di comunicazione flessibili durante l'intero processo di risposta agli imprevisti per consentire ai team di rimanere in contatto attraverso il metodo che preferiscono. Jira Service Management integra più canali di comunicazione, come widget per lo stato incorporabili, pagine di stato dedicate, e-mail, strumenti di chat, social media ed SMS, per ridurre al minimo il tempo di inattività.

Valutazione

Il gestore imprevisti è stato avvisato e i canali di comunicazione sono aperti. Passaggio successivo: valutare l'imprevisto stesso.

Per i nostri team, questo processo inizia con una serie di domande a cui il team deve rispondere:

  • Qual è l'impatto sui clienti e sui dipendenti di Atlassian?
  • Cosa stanno notando i clienti?
  • Quanti clienti sono interessati? Alcuni? Tutto?
  • Quando è iniziato l'imprevisto?
  • Quanti casi di assistenza sono stati aperti per l'imprevisto?
  • Sono presenti altri fattori che influiscono sul livello di gravità o sulla priorità o cambiano il modo in cui gestiamo l'imprevisto? Ad esempio, problemi di sicurezza, situazioni di crisi dei PR sui social media e così via.

Dopo aver risposto a queste domande, possiamo procedere con sicurezza con la diagnostica e le soluzioni proposte o modificare il livello SEV e il livello di priorità di un imprevisto in base alle esigenze.

Invio delle comunicazioni iniziali

Una volta confermato che l'imprevisto è reale, la comunicazione con i nostri clienti e dipendenti diventa la massima priorità. Come affermiamo nel nostro manuale:

"L'obiettivo della comunicazione interna iniziale è di concentrare la risposta agli imprevisti in un'unica posizione e ridurre la confusione. L'obiettivo della comunicazione esterna è spiegare ai clienti che il malfunzionamento è noto e che lo si sta analizzando con urgenza."

Una comunicazione rapida e precisa contribuisce a creare e a mantenere la fiducia dei clienti.

Abbiamo un piano strategico di comunicazione degli imprevisti e forniamo aggiornamenti di stato regolari che utilizzano un formato semplice. Inviamo anche un'e-mail a un elenco prestabilito di stakeholder che include la nostra leadership tecnica, i responsabili degli imprevisti gravi e altro personale interno chiave. Come accennato in precedenza, tutti questi metodi di comunicazione sono personalizzabili in Jira Service Management e possono essere adattati al piano di risposta agli imprevisti di qualsiasi organizzazione.

Escalation

A volte, un imprevisto viene risolto rapidamente dal team su chiamata. Tuttavia, nei casi in cui ciò non accade, il passo successivo è quello di inoltrare il ticket a un altro esperto o team di esperti più indicato per la risoluzione dell'imprevisto specifico.

In Jira Service Management, gli addetti alla risposta possono raggruppare i ticket correlati e aggiungere collaboratori per coordinare gli avvisi. Possono anche registrare automaticamente tutte le azioni con una timeline degli imprevisti ricca e accedere agli articoli sull'automazione e sulla knowledge base per indagare sugli imprevisti e risolverli rapidamente.

Delega

Quando il ticket viene inoltrato a una persona nuova, il gestore imprevisti delega un ruolo a tale persona. In Atlassian, questi ruoli sono preimpostati, così i membri del team possono capire rapidamente cosa ci si aspetta da loro.

A volte gli imprevisti gravi richiedono un unico gestore imprevisti e un team di piccole dimensioni; altre volte possono richiedere più coordinatori tecnici o anche più gestori imprevisti. Il gestore imprevisti originale ha il compito di capire se la situazione richiede il coinvolgimento di altre persone.

Invio delle comunicazioni di follow-up

Nel corso dell'imprevisto, sarà utile avvalersi di un altro ciclo di comunicazioni al di fuori del team tecnico per tenere informati clienti e dipendenti e creare un clima di calma e fiducia. Fare questo è semplicissimo quando i collaboratori possono gestire gli avvisi su diverse piattaforme di comunicazione per rimanere aggiornati sulla risposta agli imprevisti.

Rivedi

Purtroppo, in fatto di risoluzione degli imprevisti non esiste una soluzione valida per tutte le situazioni. Ecco perché in questa fase del processo ci prendiamo il tempo necessario per:

  • Osservare cosa sta avvenendo, condividendo e confermando le osservazioni con il team.
  • Sviluppare teorie sui motivi che spiegano ciò che sta avvenendo (e su come possiamo correggerlo).
  • Sviluppare e condurre esperimenti che dimostrino o confutino queste teorie.
  • Ripetere.

Durante questo processo, il gestore imprevisti controlla l'andamento della situazione. I membri del team sono sovraccarichi di lavoro? Qualcuno ha bisogno di una pausa? Occorre coinvolgere altre persone? Se necessario, delega di più.

Risoluzione

Nel nostro Manuale sulla gestione degli imprevisti la risoluzione è definita come "il momento in cui l'impatto attuale o imminente sul business è cessato".

A quel punto, l'emergenza è terminata e il team passa alle attività di pulizia e alle analisi retrospettive.

Analisi retrospettive

Il nostro ciclo di vita dell'imprevisto termina con la risoluzione dell'imprevisto, ma questo non segna la fine del processo in Atlassian. Vogliamo anche fare tutto ciò che è in nostro potere per garantire che un imprevisto non si ripeta. Ecco perché il passaggio successivo è un'analisi retrospettiva oggettiva che è pensata per identificare la causa di un imprevisto e ridurre il rischio in futuro.

Utilizza i modelli di analisi retrospettiva con Jira Service Management per creare ed esportare facilmente i report delle analisi retrospettive, insieme alle relative timeline degli imprevisti, in Confluence in modo che gli addetti alla risposta possano continuare a collaborare con i team interfunzionali per monitorare le azioni successive ed evitare che imprevisti simili si verifichino in futuro.

Ruoli e responsabilità

I ruoli e le responsabilità variano in base alla cultura della tua organizzazione, alle dimensioni del team, alle programmazioni su chiamata e ad altri fattori. Alcuni ruoli comuni relativi agli imprevisti importanti includono:

Gestore imprevisti: la persona che ha la responsabilità di supervisionare la risoluzione dell'imprevisto.

Coordinatore tecnico: un professionista tecnico di livello senior che ha il compito di capire il problema e le relative cause, determinare la linea d'azione migliore e condurre il team tecnico.

Responsabile delle comunicazioni: un professionista delle comunicazioni (spesso dei team di pubbliche relazioni o dell'assistenza clienti) responsabile della comunicazione con i clienti interni ed esterni interessati dell'imprevisto.

Coordinatore dell'assistenza clienti: la persona che ha il compito di assicurarsi che i ticket, le telefonate e i tweet ricevuti sull'imprevisto vengano gestiti con una risposta tempestiva e appropriata.

Coordinatore dei social media: un professionista dei social media che ha il compito di comunicare l'imprevisto sui canali social.

Altri ruoli comuni includono:

Analista della causa principale o gestore problemi: la persona che ha la responsabilità di andare oltre la risoluzione dell'imprevisto per identificare la causa principale e le eventuali modifiche che devono essere apportate per evitare che il problema si ripeta in futuro.

Commissione d'indagine sugli imprevisti gravi: un gruppo che ha la responsabilità delle indagini e della gestione delle modifiche.

Una soluzione di gestione degli imprevisti come Jira Service Management ti aiuterà in ogni passaggio del processo di risposta, dall'organizzazione della programmazione su chiamata e degli avvisi all'unificazione dei team per una migliore collaborazione fino all'esecuzione delle analisi retrospettive.

Prossimo contenuto
IT incident management