Close

Gestione degli imprevisti per i team high velocity

Affrontare il processo di gestione degli imprevisti come un professionista delle operazioni IT

Di Nick Wright, Atlassian Service Operations Manager

Vorrei, innanzitutto, dire una cosa: le persone dell'assistenza di prima linea sono gli eroi sconosciuti di ogni azienda.

Di ogni singola azienda.

Credo davvero che l'assistenza tecnica debba essere considerata alla stregua di un settore di servizi e che i clienti debbano poter lasciare mance agli agenti che offrono un servizio eccellente. Se solo potessi, lascerei volentieri una mancia a ogni persona dell'assistenza che risolve i miei problemi rapidamente e con il sorriso sulle labbra.

Ma sto divagando. Se stai leggendo questo articolo, probabilmente gestisci un team di help desk o ne fai parte. Probabilmente anche in questo momento avrai i capelli dritti capelli dritti in testa. Quindi facciamo qualcosa al riguardo e teniamo sotto controllo il tuo processo di gestione degli imprevisti IT.

Prima di approfondire l'argomento della gestione degli imprevisti, però, cerchiamo di chiarire alcuni termini comuni.

ITSM e gestione degli imprevisti

Se lavori nel settore IT, probabilmente i termini ITIL, ITSM, imprevisti e problemi ti saranno familiari. Tuttavia, affinché tutti abbiano una visione condivisa dei concetti, ecco alcune definizioni rapide che utilizziamo in Atlassian:

ITIL, acronimo di IT Infrastructure Library, è un insieme di best practice per ITSM (consideralo un playbook).

ITSM (IT Service Management) è un approccio comune alla creazione, al supporto e alla gestione dei servizi IT. Si basa sul concetto centrale che l'IT debba essere fornito come servizio. Inoltre, una delle pratiche fondamentali dell'ITSM è la gestione degli imprevisti.

Gli imprevisti sono eventi di qualsiasi tipo che interrompono un servizio o ne causano una riduzione della qualità e richiedono una risposta di emergenza. Un malfunzionamento in un'applicazione aziendale è un imprevisto. Anche un forte rallentamento di un server web può essere un imprevisto, perché interferisce con la produttività. Peggio ancora, comporta un rischio persino maggiore di fermo totale dell'attività.

Un problema è la causa principale non ancora nota dietro uno o più imprevisti. Negli esempi citati sopra, relativi al malfunzionamento della rete e di un'applicazione aziendale, un router configurato in modo errato potrebbe essere il problema alla base di entrambi gli imprevisti.

L'importanza della gestione degli imprevisti come pratica ITSM

Dunque, perché effettuare la gestione degli imprevisti? Perché fa persino parte dell'universo ITSM?

La risposta risiede nell'impatto. Secondo le ricerche, gli imprevisti gravi possono costare in media alle aziende da 100.000 a 300.000 dollari per ogni ora di inattività di un sistema.

Disporre di un processo di gestione degli imprevisti ben definito può contribuire a ridurre drasticamente tali costi. I vantaggi di un processo adeguatamente definito includono:

  • Risoluzione più rapida degli imprevisti
  • Riduzione dei costi o delle perdite di ricavi per l'organizzazione
  • Comunicazione migliore, sia interna che esterna, durante gli imprevisti
  • Apprendimento e miglioramento continui

Flusso di lavoro della gestione eventi imprevisti

Si avvale del framework ITIL per fornirti una panoramica generale della corretta gestione dei ticket, ma la maggior parte degli altri framework più diffusi utilizza concetti più o meno simili in un linguaggio leggermente diverso.

L'aspetto essenziale nella gestione degli imprevisti è stabilire un processo valido e seguirlo.

Anche questo può sembrare scoraggiante, lo so. Può sembrare un'impresa ardua, ma la buona notizia è che puoi imparare dalle migliaia di esperienze di altri team di assistenza IT.

Uno dei principali errori commessi dalle organizzazioni IT oberate di lavoro e in crescita è quello di reinventare la ruota creando processi da zero (senza avvalersi di best practice) o propri strumenti interni per la gestione dei ticket.

Identificazione e registrazione di un imprevisto

Un imprevisto può avere qualsiasi origine. Un dipendente può telefonarti per segnalarlo o caderti letteralmente addosso dal controsoffitto, nel caso di un hub di rete posizionato male e di un tetto rotto (non che mi sia capitato in realtà).

Quale che sia l'origine, i primi due passaggi sono semplici: qualcuno identifica un imprevisto, poi qualcun altro lo registra.

Se ricevi l'imprevisto già registrato tramite il service desk, questi primi due passaggi sono già stati effettuati e non devi fare nulla. Se ricevi una telefonata o l'imprevisto viene segnalato tramite e-mail, SMS o qualsiasi altro canale, è compito del team del service desk registrarlo correttamente nel service desk.

I registri degli imprevisti (ad esempio, i ticket) in genere includono quanto segue:

  • Il nome della persona che segnala l'imprevisto
  • La data e l'ora in cui è stato segnalato l'imprevisto
  • Una descrizione dell'imprevisto (che cosa non funziona o funziona male)
  • Un numero identificativo univoco assegnato all'imprevisto per il monitoraggio

Categorizza l'imprevisto

I due passaggi successivi, cioè la classificazione e l'assegnazione di priorità, sono fondamentali e generalmente trascurati. Separano anche i service desk più "assennati" con cui ho lavorato da quelli che, per così dire, lo sono meno.

Innanzitutto, devi assegnare una categoria logica e intuitiva (e una sottocategoria, se necessario) a ogni imprevisto. Diversamente, ti precludi la possibilità di analizzare i dati in un secondo momento e di cercare tendenze e modelli, il che rappresenta un aspetto fondamentale per una gestione dei problemi efficace e per la prevenzione degli imprevisti futuri.

Quindi, fondamentalmente, assicurati di scegliere una soluzione di service desk ITSM che ti consenta di personalizzare facilmente le categorie di imprevisti.

Definisci la priorità dell'imprevisto

In secondo luogo, a ogni imprevisto deve essere assegnata una priorità.

Per dare la priorità a un imprevisto, inizia valutandone l'impatto sull'azienda. Considera sia il numero di persone che ne risentiranno, sia le potenziali implicazioni finanziarie, di sicurezza e di conformità dell'imprevisto per stabilire l'entità del danno che sta causando e quanto sia urgente una soluzione per l'azienda.

La best practice prevede la definizione dei livelli di gravità e priorità prima che si verifichi un imprevisto, in modo che i gestori imprevisti possano valutare rapidamente la priorità.

E se hai dei dubbi sulla priorità? Scegli il livello di priorità più alto. È preferibile eccedere in cautela piuttosto che lasciarsi sfuggire un evento grave.

Dopo aver impostato le priorità, gestisci tutti gli imprevisti aperti in ordine di priorità. La maggior parte delle organizzazioni definisce accordi di servizio chiari su ogni livello di priorità, in modo che i clienti siano al corrente della tempistica della risposta e della risoluzione. Consiglio vivamente quella pratica.

Rispondi

La risposta agli imprevisti è un termine piuttosto ampio, quindi scomponiamolo nelle fasi che con maggiore probabilità eseguirai dopo aver identificato, classificato e definito la priorità di un imprevisto:

Diagnosi iniziale
È paragonabile al triage eseguito in ospedale sui nuovi pazienti. Il dipendente del service desk formula un'ipotesi rapida su quello che presumibilmente è il problema, in modo da decidere se correggerlo o seguire le procedure appropriate e indicare le risorse giuste per risolverlo.

Anche le knowledge base e i manuali diagnostici sono strumenti utili in questa fase.

Se l'agente del service desk di primo livello è in grado di risolvere l'imprevisto in base alle proprie diagnosi iniziali nonché agli strumenti e alle conoscenze disponibili, l'imprevisto viene risolto. Diversamente, si rende necessaria l'escalation.

Escalation degli imprevisti
Il termine "escalation" sembra una parolaccia, ma non lo è.

Il team di assistenza di prima linea dovrebbe essere in grado di risolvere molti degli imprevisti più frequenti senza ricorrere all'escalation. Se, tuttavia, questo non è possibile, l'obiettivo è raccogliere e registrare le informazioni giuste per aiutare il personale di assistenza di livello 2 e 3 (dotato di competenze più tecniche) a informarsi rapidamente, in modo da poter risolvere tempestivamente l'imprevisto.

Indagine e diagnosi
ITIL lo definisce come un unico passaggio. In realtà, si verificano durante tutto il ciclo di vita dell'imprevisto.

La persona dell'assistenza di prima linea sta già, in una certa misura, indagando quando raccoglie informazioni e può persino effettuare una diagnosi e risolvere con successo l'imprevisto senza alcuna escalation.

In tal caso, si saltano direttamente i passaggi successivi: risoluzione, ripristino e chiusura dell'imprevisto.

In caso contrario, l'indagine e la diagnosi avverranno in ogni fase del processo man mano che si procede nell'escalation all'assistenza di livello 2 e 3 o si introducono risorse esterne che forniscano consulenza e assistenza per la risoluzione.

Risoluzione e ripristino
Alla fine, arrivi a definire una diagnosi e a intraprendere i passaggi necessari per risolvere l'imprevisto, possibilmente nel rispetto degli accordi sui livelli di servizio (SLA) stabiliti. Il ripristino implica semplicemente il tempo necessario per il ripristino completo delle operazioni, poiché alcune correzioni (come l'applicazione di patch a bug ecc.) potrebbero richiedere attività di test e distribuzione anche dopo aver identificato la risoluzione appropriata.

Chiusura dell'imprevisto
Se è stato sottoposto ad escalation, l'imprevisto viene quindi inoltrato al service desk per essere chiuso. Per mantenere la qualità e garantire un processo senza intoppi, solo i dipendenti del service desk sono autorizzati a chiudere gli imprevisti e il responsabile dell'imprevisto deve chiedere conferma alla persona che lo ha segnalato per verificare che la risoluzione sia soddisfacente e che l'imprevisto possa, di fatto, essere chiuso.

Conclusione: non saltare i passaggi

Il processo può sembrare inutilmente formale, in particolare se hai solo pochi analisti del service desk. Indipendentemente dalla struttura del tuo team, tuttavia, il ciclo di vita degli imprevisti è sempre lo stesso.

Supponiamo che tu abbia un solo analista del service desk, quindi non è prevista l'assistenza di livello 3. Gli imprevisti che non sono risolvibili con le conoscenze dell'analista del service desk devono comunque essere inoltrati a qualcuno, che si tratti dell'ingegnere capo o di un consulente esterno o anche di te stesso.

E voilà! Come puoi vedere, la figura per l'assistenza di livello 2 o 3 esiste: è l'ingegnere o sei tu.

Il mio punto di vista? Anche se ITIL sembra ruotare attorno a questioni prettamente semantiche, non perderti troppo nei dettagli. Cerca modi semplici per adattare la tua gerarchia organizzativa e i flussi di lavoro dei processi a un framework di gestione dei servizi IT semplice come quello descritto sopra.

In questo modo, offrirai un servizio clienti di gran lunga migliore e un valore molto più elevato all'azienda (e avrai l'ulteriore vantaggio di non avere più i capelli dritti in testa).

Infine, alcuni promemoria:

  • Registra ogni imprevisto. Assegna un numero univoco a ogni imprevisto e acquisisci dettagli importanti (come data, ora e descrizione) in un sistema di help desk centrale.
  • Se hai un vasto pubblico interno o esterno a cui comunicare gli aggiornamenti degli imprevisti, prendi in considerazione una pagina di stato per la comunicazione degli imprevisti.
  • Assegna a una categoria a ogni imprevisto (e una sottocategoria, se necessario).
  • Assegna un livello di priorità a ogni imprevisto e uno SLA a ogni livello di priorità.
  • Definisci in modo chiaro i ruoli per gli addetti agli imprevisti, ad esempio responsabile degli imprevisti, gestore degli imprevisti gravi, coordinatore delle comunicazioni.
  • Quando possibile, proponi al tuo team di assistenza di prima linea articoli della knowledge base e script di diagnostica degli imprevisti per aiutarlo a risolvere gli imprevisti rapidamente.
  • Assicurati che il service desk abbia sempre il controllo sull'avanzamento, sull'indirizzamento e sullo stato degli imprevisti.
  • Inoltre, non limitarti ad acquisire i dati degli imprevisti. Analizzali! Cerca tendenze, modelli e potenziali problemi sottostanti in modo da ridurre il volume degli imprevisti e mitigare i rischi.
Informazioni sull'autore

Nick Wright
Service Operations Manager, Atlassian

Io e il mio team ci assicuriamo che le applicazioni Cloud e l'infrastruttura di Atlassian abbiano prestazioni di prim'ordine e sono entusiasta di parlare di come riusciamo nell'intento garantendo al contempo velocità e scalabilità. Sono neozelandese, ma nonostante questo handicap linguistico, riesco ancora a pronunciare "fish and chips". Quando non lavoro, vado in bicicletta, mi diverto con i videogiochi o esco con mia moglie e la mia adorabile bambina.

Prossimo contenuto
Major incident management