Gestione degli imprevisti per i team high velocity
Scopri il ciclo di vita della risposta agli imprevisti
Resta con i professionisti della sicurezza e della gestione degli imprevisti abbastanza a lungo e noterai uno schema. Le persone più intuitive in questi settori pensano in cicli, non in linea retta.
Perché è così? Cosa significa esattamente? Significa che ogni imprevisto e interruzione non è un evento isolato con un punto iniziale e un punto finale (anche se può sembrare così). Gli imprevisti sono anche un'opportunità di apprendimento.
Solo perché un servizio è di nuovo "operativo", non significa che il lavoro del tuo team sia finito. Le attività post-imprevisto dovrebbero spingerti a pianificare roadmap future, cambiare il modo in cui ti prepari per gli imprevisti futuri e sviluppare nuove soluzioni che impediranno altri imprevisti in futuro. È un ciclo di miglioramento senza fine e ci sono diversi modi di pensare alle varie fasi, a seconda della scuola di pensiero a cui ti ispiri.
Cos'è il ciclo di vita di una risposta agli imprevisti?
La risposta agli imprevisti è il processo di reazione di un'organizzazione alle minacce IT come attacchi informatici, violazioni della sicurezza e tempo di inattività dei server.
Il ciclo di vita della risposta agli imprevisti è il framework dettagliato usato dalla tua organizzazione per identificare e reagire a un'interruzione del servizio o a una minaccia alla sicurezza.
Diagramma della risposta agli imprevisti di Atlassian
1. Rilevazione dell'imprevisto
La nostra rilevazione dell'imprevisto inizia in genere con strumenti di monitoraggio e avviso, anche se a volte veniamo a conoscenza di un imprevisto dai clienti o dai membri del team.
Poiché gli avvisi di imprevisti possono provenire da fonti diverse, disporre di una soluzione che integra una varietà di strumenti di avviso e reporting può fare la differenza tra una risposta disgiunta e ingombrante e una coesa e collaborativa. Una soluzione come Jira Service Management consente ai team di personalizzare e filtrare gli avvisi in tutti gli strumenti di monitoraggio, registrazione e CI/CD per garantire che i team scremino rapidamente gli imprevisti evitando lo stress da avvisi.
2. Configurazione dei canali di comunicazione del team
Un primo passo importante consiste nel configurare i canali di comunicazione del team addetto agli imprevisti. L'obiettivo a questo punto è concentrare le comunicazioni del team in luoghi noti, come un canale Slack dedicato e un bridge per videoconferenze.
All'interno di Jira Service Management, coordinare le risposte agli imprevisti può essere un processo semplice. Non solo i team sono in grado di comunicare nei modi migliori per loro, come Slack e le videoconferenze, ma anche la comunicazione con i clienti diventa più facile con l'automazione e la personalizzazione. Parleremo della comunicazione esterna nel passaggio 4.
3. Valutazione dell'impatto e assegnazione di un livello di gravità
Ora è il momento di valutare l'impatto dell'imprevisto in modo che il team possa decidere chi altri contattare e cosa comunicare ai clienti e agli stakeholder. L'assegnazione di un livello di gravità non solo identifica l'impatto dell'imprevisto, ma pone anche le basi per piani di risoluzione e comunicazioni esterne. In Jira Service Management, l'escalation di un imprevisto e l'assegnazione della gravità attivano azioni automatizzate, oltre a fornire notifiche agli addetti per rimanere aggiornati sull'avanzamento della risoluzione.
4. Comunicazione con i clienti
Il nostro obiettivo è informare gli stakeholder internamente ed esternamente il prima possibile. Comunicare in modo rapido e preciso aiuta a creare un clima di fiducia con i clienti e il resto dell'organizzazione. Come accennato in precedenza, la possibilità di personalizzare il modo in cui comunichi consente al tuo team di lavorare come preferisce, agevolando e accelerando la risoluzione. La possibilità di personalizzare la comunicazione consente inoltre al tuo team di assumere il controllo del messaggio che desidera proiettare e quando desidera farlo. Inoltre, consente al tuo team di risparmiare tempo nel bel mezzo di un imprevisto con risposte automatiche all'interno di un ticket, inviate direttamente al cliente.
5. Escalation agli addetti appropriati
Spesso gli addetti iniziali devono coinvolgere altri team nell'imprevisto chiamandoli tramite una funzionalità di avviso in Jira Service Management. Indirizza automaticamente i soccorritori al ticket dell'imprevisto raggruppando i ticket correlati e taggando gli addetti pertinenti direttamente sul ticket. In questo modo, le notifiche sono coordinate e tutti hanno il contesto completo.
6. Delega agli addetti alla risposta agli imprevisti
Man mano che altri membri del team si uniscono alla risposta, il gestore imprevisti delega loro un ruolo. È qui che è utile disporre di un adeguato playbook di risposta agli imprevisti, sviluppato in precedenza, che delinea ruoli e responsabilità chiari. I membri del team di risposta agli imprevisti hanno familiarità con ogni ruolo e conoscono le proprie responsabilità durante un imprevisto.
7. Risoluzione dell'imprevisto
Un imprevisto è risolto quando l'impatto attuale o imminente sul business è terminato. A quel punto, la risposta all'emergenza si conclude e il team passa alle eventuali attività di ripulitura e analisi retrospettiva.
Idealmente, la soluzione di gestione degli imprevisti mantiene una solida timeline degli imprevisti, come nel caso dell'utilizzo di Jira Service Management. Gli addetti alla risposta possono accedere ai dati cruciali sugli imprevisti in un secondo momento e sviluppare un report che aiuti i team a evitare imprevisti simili in futuro e a individuare la causa principale. Le analisi retrospettive possono anche fungere da risorsa, nella remota possibilità in cui si ripeta un imprevisto simile.
Il ciclo di vita della risposta agli imprevisti del NIST
Un altro ciclo di vita della risposta agli imprevisti standard del settore è quello fornito dal National Institute of Standards and Technology o NIST. Il NIST è un'agenzia governativa che stabilisce standard e pratiche su argomenti come la risposta agli imprevisti e la sicurezza informatica.
NIST sta per National Institute of Standards and Technology. Si tratta di un'agenzia governativa degli Stati Uniti che si proclama con orgoglio come "uno dei più antichi laboratori di scienze fisiche della nazione". Si occupa di tutte le tecnologie, inclusa la sicurezza informatica, settore per il quale è diventata uno dei due punti di riferimento standard per la risposta agli imprevisti con le sue fasi di risposta agli imprevisti.
Come Atlassian, il NIST ritiene che non sia possibile prevenire tutti gli imprevisti. Quindi è meglio essere preparati:
"Le attività preventive basate sui risultati delle valutazioni del rischio possono ridurre il numero di imprevisti, ma non consentono di prevenire tutti gli imprevisti. Una capacità di risposta agli imprevisti è quindi necessaria per rilevare rapidamente gli imprevisti, ridurre al minimo la perdita e la distruzione, mitigare i punti deboli sfruttati e ripristinare i servizi IT". — NIST
Il ciclo di vita della risposta agli imprevisti del NIST suddivide la risposta agli imprevisti in quattro fasi principali: preparazione; rilevazione e analisi; contenimento, eradicazione e ripristino; e attività post-evento.
Fase 1: Preparazione
La fase di preparazione copre il lavoro svolto da un'organizzazione per prepararsi alla risposta agli imprevisti, compresa la definizione degli strumenti e delle risorse giusti e la formazione del team. Questa fase include il lavoro svolto per evitare che si verifichino imprevisti.
Fase 2: Rilevazione e analisi
Secondo il NIST, la rilevazione e la valutazione accurati degli imprevisti sono spesso la parte più difficile della risposta agli imprevisti per molte organizzazioni.
Fase 3: Contenimento, eradicazione e ripristino
Questa fase si concentra sul mantenere l'impatto degli imprevisti il più possibile ridotto possibile e sulla mitigazione delle interruzioni del servizio.
Fase 4: Attività post-evento
Imparare e migliorare dopo un imprevisto è una delle parti più importanti della risposta agli imprevisti e quella che viene ignorata più spesso. In questa fase vengono analizzati gli sforzi di risposta agli imprevisti e agli incidenti. Gli obiettivi qui sono limitare le possibilità che l'imprevisto si ripeta e identificare modi per migliorare la futura attività di risposta agli imprevisti.
Risposta agli imprevisti per i team DevOps moderni
Negli ultimi dieci anni, il movimento DevOps ha aiutato i team a ridefinire il modo in cui costruiscono, distribuiscono e gestiscono il software. Inoltre ci sono innovazioni sul modo in cui questi team rispondono agli imprevisti.
L'approccio DevOps alla gestione degli imprevisti non è molto diverso dai passaggi tradizionali per una gestione efficace degli imprevisti. La gestione degli imprevisti DevOps include un'enfasi esplicita sul coinvolgimento dei team di sviluppatori sin dall'inizio, inclusa la chiamata, e sull'assegnazione del lavoro in base alle competenze, non ai titoli professionali.
Risposta agli imprevisti e miglioramento continuo
Abbiamo iniziato l'articolo parlando di cicli e linee rette. Avrai notato che tutti questi approcci di gestione degli imprevisti hanno una cosa in comune: non sono lineari. Ciascuno di essi include gli stessi componenti di base: modi per definire, rilevare e identificare gli imprevisti; modi per rispondere rapidamente e intraprendere azioni per mitigare gli imprevisti; e modi per analizzare gli imprevisti al fine di migliorare la rilevazione e la risposta future. Non ha senso analizzare un imprevisto che si è già verificato solo al fine di quell'imprevisto. Non puoi tornare indietro nel tempo e cambiare quello che è successo. Ciò che stai facendo è imparare da quell'imprevisto per migliorare la rilevazione e la risposta future. L'apprendimento e il miglioramento costanti e continui sono il modo in cui i team chiudono il ciclo.
Il processo di risposta agli imprevisti (non lineare) presenta molte parti mobili. Con una soluzione di gestione degli imprevisti come Jira Service Management è facile tenere traccia di ogni fase grazie a strumenti di collaborazione e comunicazione integrati. Centralizza gli avvisi e unifica i team con la flessibilità necessaria per rispondere e risolvere rapidamente gli imprevisti.
Configurare una On-call Schedule con Opsgenie
In questo tutorial imparerai come configurare una On-call Schedule, applicare le regole di sostituzione, configurare le notifiche su chiamata e molto altro, il tutto in Opsgenie.
Segui il tutorialPro e contro dei diversi approcci alla gestione del servizio su chiamata
I team su chiamata si stanno evolvendo rapidamente. Scopri pro e contro dei diversi approcci alla gestione del servizio su chiamata.
Leggi l'articolo