Close

Gestione degli imprevisti per i team high velocity

Il linguaggio della gestione degli imprevisti

Un glossario per i team di gestione degli imprevisti

Il linguaggio utilizzato nell'ecosistema della tecnologia è a dir poco dinamico. In nessun altro settore è possibile trovare un tale mix di gergo tecnico e riferimenti a fantascienza, mitologia, cultura pop, storia e letteratura. Ciò rende le conversazioni vivaci e coinvolgenti, ma spesso anche ambigue.

Quando non ci sono urgenze, questo approccio funziona, ma quando si verificano imprevisti e i livelli di gravità aumentano, è necessario che il linguaggio utilizzato sia tecnicamente preciso, fruibile e non lasci spazio a errori di interpretazione.

Questo significa che, in fatto di gestione degli imprevisti, abbiamo bisogno di una serie di definizioni che siano chiare e condivise da tutti.

Riconoscimento dell'imprevisto (ACK)

Dopo la generazione di un avviso relativo a un imprevisto, un utente può prenderne atto nella maggior parte degli strumenti di gestione degli avvisi su chiamata. Questo significa che l'utente si è assunto la responsabilità del ticket e sta lavorando per risolverlo.

Avviso interattivo

Un avviso utilizzabile è un avviso che descrive chiaramente un problema e il suo impatto, e viene indirizzato alle persone di competenza al momento giusto in modo che il team possa agire immediatamente.

Monitoraggio attivo

I sistemi dotati di monitoraggio attivo sono controllati regolarmente o monitorati automaticamente con il software alla ricerca di eventuali modifiche delle prestazioni che potrebbero causare imprevisti.

Analisi post-operativa (AAR)

Una revisione post-azione è un processo di revisione strutturato che si svolge dopo un evento. Il processo descrive in genere ciò che è successo in dettaglio, cerca di identificarne i motivi e individua le aree di miglioramento per impedire che eventi uguali o simili si ripetano in futuro. Le recensioni post-azione sono anche comunemente note come analisi retrospettive o revisioni post-imprevisto.

Orario di servizio concordato (AST)

Il tempo di servizio concordato è la quantità di tempo, generalmente misurata in ore all'anno, durante la quale un servizio dovrebbe essere disponibile. Questo accordo è generalmente illustrato in uno SLA (accordo sui livelli di servizio) tra fornitore e cliente. I servizi ad alta disponibilità in genere promettono un tempo di attività del 99,99%, il che permette meno di un'ora di tempo di inattività all'anno.

Avviso

Un allarme o un avviso generato quando gli strumenti di monitoraggio identificano modifiche, azioni ad alto rischio o errori nell'ambiente IT.

Rumore degli avvisi

Il rumore degli avvisi si verifica quando si crea un enorme numero di avvisi in breve tempo, che rende difficile per gli addetti agli imprevisti identificare con precisione quali servizi sono interessati e come definire le priorità del loro lavoro. Il rumore degli avvisi può essere un fattore che aumenta lo stress da avvisi.

Stress da avvisi

Lo stress da avvisi si verifica quando gli addetti agli imprevisti non riescono a far fronte all'enorme volume o frequenza degli avvisi. Lo stress da avvisi spesso determina risposte lente, o mancanza di risposta, poiché gli addetti agli imprevisti tendono a normalizzare gli avvisi costanti.

Servizi sempre attivi

Un servizio che dovrebbe funzionare senza interruzioni.

Asset/gestione degli asset

Gli asset sono i componenti di qualsiasi sistema o rete con un valore aziendale. La gestione degli asset indica l'attività svolta da un dipendente o da un team per fare il punto di tali componenti allo scopo di comprendere l'impatto di un aggiornamento o della rimozione di un sistema.

Audit

Un esame formale della disponibilità e dell'utilizzo di un sistema o di un processo, nonché la verifica della conformità a policy, linee guida e best practice.

Disponibilità

La condizione di un prodotto o un sistema che è disponibile e funziona come previsto. Nota anche come operatività del sistema.

Ripristino

La pratica di ripristinare un servizio a uno stato o a una baseline affidabile precedente. In genere si tratta di una correzione rapida applicata quando un aggiornamento o un rilascio interrompe un'attività essenziale in un sistema.

Backup

Una copia di dati archiviata o un sistema ridondante disponibile per l'utilizzo in caso di compromissione o perdita dei documenti originali.

Standard

Un punto di riferimento per il comportamento previsto. Le baseline aiutano i team a misurare le modifiche e i miglioramenti.

Benchmark

Un punto di riferimento che funziona come una baseline per misurare l'avanzamento o confrontare i risultati. Ad esempio, se lo standard nel nostro settore è un tempo di attività del 99,99%, questo potrebbe essere un benchmark che utilizziamo per misurarci rispetto alla concorrenza e alle aspettative dei clienti.

Bug

Un problema accidentale nel software, nel codice, nei programmi e in altri componenti in grado di causare errori o comportamenti anomali.

Analisi dell'impatto sul business (BIA)

Un'analisi dell'impatto sul business è la valutazione sistematica del potenziale impatto delle interruzioni del servizio e del tempo di inattività dovuti a un imprevisto grave. L'obiettivo della BIA è comprendere l'effetto che ogni servizio ha sul business e definire i requisiti per il ripristino in caso di imprevisto.

Capacità

La quantità massima di informazioni che possono essere trasferite tra reti o distribuite tramite un servizio. Il superamento della capacità è un indicatore comune di imprevisti.

Modifica

Qualsiasi modifica apportata a un servizio, a una configurazione, a una rete o a un processo IT. Spesso è monitorata attraverso una pratica nota come gestione delle modifiche.

Cronologia modifiche

Una registrazione completa delle modifiche apportate a un servizio, a una configurazione, a una rete o un processo IT dall'inizio del suo ciclo di vita allo stato corrente.

Gestione delle modifiche

Una pratica IT incentrata sulla riduzione al minimo delle interruzioni durante le modifiche/gli aggiornamenti di sistemi e servizi critici. Per alcuni team, questa pratica comprende tutti gli aspetti della modifica, dal lato tecnico a quello delle persone e dei processi. Per altri team, in base alle linee guida ITIL 4, la gestione delle modifiche è incentrata sulla gestione degli aspetti umani o culturali delle modifiche, mentre un'altra pratica definita controllo delle modifiche è focalizzata sulla valutazione del rischio, sulle programmazioni e sull'autorizzazione delle modifiche.

ChatOps

La pratica di utilizzare strumenti di chat e collaborazione per la gestione degli imprevisti. Come spiega Sean Regan di Atlassian:

"ChatOps è un modello di collaborazione che collega persone, strumenti, processi e automazione in un flusso di lavoro trasparente. Questo flusso centralizza il lavoro necessario, il lavoro in corso e il lavoro svolto in una posizione permanente con personale, bot e strumenti correlati".

Stato chiuso

Un imprevisto passa allo stato Chiuso quando sono state intraprese tutte le azioni necessarie e il ticket viene chiuso.

Standby a freddo (ripristino graduale)

Uno standby a freddo viene utilizzato quando un sistema funge da backup per un altro sistema. Se il sistema principale subisce un guasto, lo standby a freddo lo sostituisce durante la riparazione. Si tratta di una strategia particolarmente utile se il guasto del sistema principale richiede un ripristino graduale (cioè un ripristino che può richiedere settimane) nel caso in cui l'hardware informatico debba essere sostituito e configurato.

Avvio a freddo

Un avvio a freddo si verifica quando un'applicazione non in esecuzione impiega più tempo per avviarsi rispetto a un'applicazione "a caldo" o già in esecuzione.

Coordinatore delle comunicazioni

Il membro del team responsabile della comunicazione durante un imprevisto.

Conformità

Allineamento ai regolamenti. I sistemi di monitoraggio sono spesso programmati per monitorare i problemi di conformità e attivare avvisi in caso di mancata conformità di un sistema.

Analisi dell'impatto degli errori dei componenti (CFIA)

Il processo che consente di stabilire l'impatto su un servizio nel caso in cui un componente o un elemento di configurazione cessi di funzionare come previsto.

Concomitanza

Il numero di azioni uguali che avvengono contemporaneamente all'interno di un sistema, ad esempio il numero di utenti che accedono alla stessa operazione o eseguono la stessa transazione.

Controllo

Procedure e policy per gestire i rischi, assicurarsi che un prodotto o servizio funzioni come previsto e proteggere la conformità.

Servizio principale

Un servizio che svolge una funzione centrale per gli utenti/clienti.

Contromisura

Una specifica azione reattiva intrapresa allo scopo di proteggere un sistema o ripristinare operazioni.

Servizio rivolto ai clienti

Servizi che i clienti utilizzano e con cui interagiscono.

Framework Cynefin

Un costrutto decisionale adattato ai processi di gestione degli imprevisti per aiutare i responsabili a organizzare la risposta più efficace. Il framework divide le situazioni in cinque categorie in base alla complessità di un imprevisto e ogni categoria ha la propria (diversa) serie di passaggi successivi.

Dashboard

Una visualizzazione a riquadro singolo di sistemi, avvisi e imprevisti progettata per organizzare la presentazione di informazioni provenienti da una varietà di strumenti, con informazioni contestuali fornite in un formato chiaro e preciso.

Dipendenza

La relazione tra due servizi, processi o configurazioni che si basano l'uno sul funzionamento dell'altro.

Deprecazione

Una funzione o uno strumento che viene messo fuori servizio, non è più in uso o non viene più aggiornato.

Diagnosi

Il processo e il risultato della comprensione di un imprevisto e della sua causa principale.

Diagnostica

I sintomi o i segni che determinano una diagnosi di imprevisto.

Inattività/Interruzione

Lasso di tempo in cui un servizio non funziona o non è disponibile come previsto.

Modifica di emergenza

Una patch o un aggiornamento implementato rapidamente, in genere nell'ambito della risoluzione di un imprevisto. Per le modifiche di emergenza spesso i processi di approvazione delle modifiche saltano perché il rischio di attendere le approvazioni è maggiore del rischio di distribuire la modifica.

Servizio di abilitazione

Un servizio necessario per il funzionamento di un servizio di base, ma che non viene offerto ai clienti in quanto tale.

Ambiente di test*

L'infrastruttura in cui un servizio, una funzione, un processo, un elemento di configurazione o di altro tipo viene testato per una funzionalità prevista. L'ambiente è controllato attentamente per rispecchiare l'ambiente di produzione.

Ambiente di produzione

L'infrastruttura in cui un servizio viene fornito a un cliente. I risultati previsti in questo ambiente sono reali, pertanto viene a volte definito anche ambiente reale. .

Errore

Un errore che causa il mancato funzionamento di un elemento di configurazione o di un servizio. Può trattarsi un errore di progettazione, di elaborazione o di un errore umano.

Escalation

Il processo di trasferimento di un incarico di gestione degli imprevisti a un team o a una persona con competenze o esperienze più pertinenti. L'escalation funzionale si verifica quando un avviso o un imprevisto viene trasferito a un individuo o a un team con maggiori competenze. L'escalation gerarchica avviene quando tale avviso o imprevisto viene trasferito da una figura junior a una figura senior.

Evento

Una situazione di rilievo del sistema o del servizio. Gli eventi sono generalmente causati da un'azione dell'utente o da un imprevisto.

Report delle eccezioni

Un report generato quando gli indicatori di prestazioni chiave (KPI) superano le soglie stabilite o non soddisfano le aspettative.

Tolleranza di errore

La tolleranza agli errori descrive la capacità di un servizio di continuare a funzionare anche in caso di errore di un elemento della configurazione o di un singolo componente.

Analisi alberi di guasto

Una tecnica utilizzata per determinare gli eventi che hanno determinato un imprevisto e prevedere gli eventi che potrebbero causare imprevisti in futuro. Spesso è utilizzata per individuare la causa principale di un imprevisto grave.

Assistenza di prima linea

L'addetto che dovrebbe reagire per primo a un imprevisto. Di solito è la persona su chiamata.

Correzione

Un'azione o un metodo di riparazione.

Asset fisso

Un asset fisso è una risorsa fisica aziendale, di valore e a lungo termine, ad esempio un ufficio, un computer o una licenza.

Programmazione 24 ore su 24

Un metodo di assistenza clienti o di gestione degli imprevisti che prevede la rotazione del personale su chiamata tra i vari fusi orari per fornire una copertura 24 ore su 24, 7 giorni su 7 senza richiedere che i team siano reperibili nel cuore della notte.

Indagine forense

Un'indagine scientifica basata sull'evidenza che viene condotta su un sistema informatico allo scopo di identificare la causa di un imprevisto.

Funzionale

Un servizio è descritto come funzionante quando è in grado di offrire le prestazioni previste.

Ripristino graduale

Un ripristino graduale è un processo di ripristino che richiede più tempo del solito (settimane, non ore). Quando ciò accade, in genere viene utilizzato uno standby a freddo (sistema di backup) online in sostituzione del sistema interessato.

Standby a caldo

Lo standby a caldo è un'opzione di ripristino in cui le risorse ridondanti vengono eseguite contemporaneamente per supportare un servizio IT in caso di guasto. Se il sistema attivo subisce un guasto, lo standby a caldo è già in esecuzione e pronto a sostituirlo senza che il team debba intraprendere alcuna azione e senza tempo di inattività. Noto anche come ripristino immediato.

Hotfix

Un aggiornamento applicato a un software per risolvere un problema o correggere un bug. È spesso utilizzato per correggere un problema segnalato dai clienti.

Impatto

La misurazione del costo, in termini di denaro, tempo e reputazione, causato da un'interruzione del servizio, da un imprevisto o una modifica. Noto anche come costo del tempo di inattività.

Avviso non interattivo

Un avviso che non autorizza un addetto agli imprevisti ad agire. Questo significa spesso che l'avviso non contiene informazioni contestuali, è stato indirizzato alla persona sbagliata o presenta un ambito poco chiaro. Gli avvisi non utilizzabili possono contribuire a creare stress da avvisi.

Imprevisto

Un evento che causa un peggioramento o una diminuzione della qualità di un servizio tale da richiedere una risposta di emergenza. I team che seguono le pratiche ITIL o ITSM potrebbero invece usare il termine imprevisto grave per definire un evento di questo tipo.

Risposta agli imprevisti

Il modo in cui i team reagiscono a un imprevisto. Di solito, la risposta agli imprevisti è un processo pre-impostato con regole, ruoli e best practice definiti prima che si verifichi un imprevisto.

Gestione degli imprevisti

Il processo utilizzato dai team DevOps e delle operazioni IT per rispondere agli eventi non pianificati o alle interruzioni del servizio allo scopo di ripristinarne il funzionamento.

Responsabile della gestione dell'imprevisto

Il responsabile dell'imprevisto è un membro dei team IT o DevOps che ha il compito di gestire la risposta agli imprevisti. È a capo del team di gestione degli imprevisti e ha il massimo controllo e l'ultima parola su tutte le decisioni sugli imprevisti. Questo ruolo viene è spesso definito anche gestore imprevisti.

Ciclo di vita dell'imprevisto

La durata di un imprevisto, dalla creazione fino al rilevamento e alla risoluzione.

Metriche I/O

Una raccolta di metriche che misurano input e output. Le metriche comuni in questa categoria includono I/O Wait (il tempo in cui una CPU attende una richiesta I/O) e IOPS (il numero di richieste I/O al secondo).

Orchestrazione della risposta agli imprevisti

Una funzione di Opsgenie che consente ai team di identificare i problemi in modo rapido ed efficace, informare le persone di competenza, facilitare la comunicazione tra le business unit e collaborare tra i team per la gestione degli imprevisti.

Registrazione dell'imprevisto

Una registrazione dei dettagli e dei processi utilizzati durante un imprevisto specifico.

Addetto agli imprevisti

Persone e/o team responsabili delle indagini e della risoluzione di un imprevisto.

Stakeholder/osservatori dell'imprevisto

Persone che devono essere tenute informate su un imprevisto perché questo influisce sul loro lavoro o sulla capacità di svolgere il proprio lavoro. Queste persone possono avere un ruolo o meno nella risoluzione degli imprevisti, ma non hanno la responsabilità di fornire una risposta attiva.

Ripristino intermedio

Conosciuto anche come standby a caldo, questo tipo di ripristino richiede in genere 24-72 ore. Il ripristino dei dati e/o la configurazione hardware e software sono in genere la ragione di un tempo di ripristino relativamente lungo.

Information Technology Infrastructure Library (ITIL)

Una serie documentata di best practice ampiamente accettate per i servizi IT.

Gestione dei servizi IT (ITSM)

Tutti gli aspetti delle procedure e dei processi necessari per fornire un servizio IT ai clienti, inclusi tutti gli aspetti del ciclo di vita del servizio, dalla progettazione alla fornitura fino alla gestione degli imprevisti.

Metodo Kepner Tregoe (metodo KT)

Un'analisi delle cause principale e un metodo decisionale in cui i problemi vengono valutati separatamente rispetto alla decisione finale su un problema.

Indicatori di prestazioni chiave (KPI)

Misurazioni delle prestazioni relative a sistemi o prodotti. I KPI vengono decisi in anticipo, monitorati regolarmente e spesso generano avvisi se si discostano dalle soglie previste. Ad esempio, se il tempo medio tra i guasti (MTBF) inizia a ridursi sempre di più, è possibile che venga generato un avviso in modo che il tuo team possa identificare ed esaminare il problema.

Errore noto

Un problema pre-esistente per il quale è già presente una soluzione alternativa.

Latenza

Un ritardo che si è verificato durante il trasferimento di dati.

Log

Le registrazioni di tutti gli eventi correlati a un servizio o un'applicazione, inclusi dati trasferiti, orari e date, imprevisti, modifiche, errori e così via.

Gestibilità

Il grado di facilità con cui le modifiche possono essere applicate correttamente a un servizio o a una funzione.

Soluzione alternativa manuale

Una soluzione implementata manualmente (invece che automaticamente).

Tempo medio tra guasti

Il tempo medio tra i guasti o gli errori riparabili di un prodotto tecnologico. È noto anche come tempo medio tra imprevisti di servizio (MTBSI).

Tempo medio di riconoscimento (MTTA)

Il tempo medio che intercorre da quando si attiva un avviso a quando si inizia a lavorare sul problema.

Tempo medio al verificarsi di un guasto (MTTF)

Il tempo medio che intercorre tra i guasti o gli errori non riparabili di un prodotto tecnologico.

Tempo medio di riparazione (MTTR)

Il tempo medio necessario per riparare un sistema (di solito tecnico o meccanico). Include sia il tempo di riparazione che l'eventuale tempo dei test.

Tempo medio di ripristino (MTTR)

Il tempo medio necessario per il ripristino in seguito a un errore o guasto di un prodotto o sistema. Include tutto il tempo dell'interruzione, dal momento in cui si verifica il guasto o l'errore nel sistema o nel prodotto fino al momento in cui viene ripristinata l'operatività completa di tale sistema o prodotto.

Tempo medio di risoluzione (MTTR)

Il tempo medio necessario per risolvere completamente un guasto o un errore, incluso il tempo impiegato per garantire che non si ripeta.

Tempo medio di risposta (MTTR)

Il tempo medio necessario per il ripristino da un errore o guasto di un prodotto o di un sistema dal momento in cui si riceve il primo avviso riguardante tale errore. Non include l'eventuale ritardo del sistema di avviso utilizzato.

Modello/Modellazione

La rappresentazione di un sistema, un servizio, un'applicazione o un altro prodotto reale.

Monitoraggio

Il processo ripetuto di controllo di un servizio o di un processo per assicurarsi che funzioni come previsto.

Modifica normale

Le modifiche normali sono modifiche non urgenti per le quali non è previsto un processo definito e pre-approvato.

On-call Schedule

Una programmazione che garantisce che la persona giusta sia sempre disponibile, giorno e notte, per rispondere rapidamente a imprevisti e interruzioni. Le programmazioni su chiamata sono molto utilizzate sia nel settore medico che in quello tecnologico.

Bridge delle operazioni

Il luogo fisico in cui avviene il monitoraggio dei servizi IT.

Responsabile delle operazioni

La persona responsabile della supervisione delle operazioni quotidiane. In alcuni casi, può anche coincidere con il gestore imprevisti (o responsabile degli imprevisti), che ha la responsabilità delle attività di risoluzione degli imprevisti.

Risultato

Il risultato di una modifica, di un evento, di un processo correlato all'IT. I team spesso parlano sia di risultati attesi che di risultati effettivi.

Analisi del valore di criticità

Un'analisi utilizzata per identificare l'impatto aziendale di un imprevisto. Di solito tiene conto del costo del tempo di inattività, della durata di un imprevisto, dell'impatto sugli utenti e del numero di utenti interessati.

Monitoraggio passivo

Indica il monitoraggio automatico della funzionalità dei servizi (invece del monitoraggio manuale o attivo).

Tempo di pace

Il tempo durante il quale i servizi e le operazioni funzionano come previsto, senza alcuna interruzione.

Riduzione delle prestazioni

Una misura della riduzione delle prestazioni di un sistema causata da un evento o da un imprevisto.

Tempo di inattività pianificato

Un periodo di tempo in cui un servizio IT è intenzionalmente non disponibile a scopo di manutenzione o aggiornamenti.

Playbook

Una raccolta di strategie o azioni specifiche che un team può intraprendere per risolvere un determinato problema o imprevisto o per raggiungere un obiettivo specifico.

Analisi retrospettiva/analisi post-imprevisto/revisione post-imprevisto

Il processo di comprensione di un imprevisto successivamente alla sua risoluzione. L'obiettivo di un'analisi retrospettiva è migliorare i processi di risposta, prevenire gli imprevisti futuri e comprendere la causa dell'imprevisto più recente.

Priorità

L'ordine in cui gestire gli imprevisti. Gli elementi a priorità elevata richiedono una maggiore urgenza rispetto a quelli con priorità inferiore. La priorità è determinata dall'urgenza, dalla gravità e dal potenziale impatto sul business.

Record del problema

Un record del problema è un documento che tratta ogni aspetto di un problema, dall'individuazione alla risoluzione.

Interruzione del servizio prevista

Un documento che descrive il modo in cui la manutenzione o i test futuri influiranno sui normali livelli di servizio.

Controllo qualità

Il processo di test volto a garantire che gli standard siano soddisfatti per tutto ciò che riguarda l'IT, dalle nuove funzioni alle guide pratiche.

Sistema di gestione della qualità

La struttura o i sistemi utilizzati per fornire garanzia di qualità.

Monitoraggio reattivo

Il monitoraggio effettuato in risposta a un evento o imprevisto.

Ripristino

Il processo di ripristino di un servizio alla funzionalità e allo stato baseline.

Obiettivo punto di ripristino

La perdita di dati massima consentita durante il ripristino.

Obiettivo tempo di ripristino

La quantità di tempo massima tollerata per un'interruzione del servizio.

di Git

Una modifica distribuita agli utenti.

Gestione dei rilasci

Il processo di pianificazione, progettazione, test, programmazione, risoluzione dei problemi e distribuzione delle modifiche.

Resilienza

La capacità di un sistema di resistere ai guasti e di ripristinarsi rapidamente in caso di imprevisto.

Tempo di risposta

Il tempo necessario dal momento in cui viene generato un avviso a quando viene intrapresa un'azione iniziale da parte del team.

Valutazione dei rischi

Il processo di identificazione del rischio di un asset attraverso la valutazione del valore dell'asset, delle potenziali minacce e del potenziale impatto di tali minacce.

Gestione del rischio

Il processo di gestione delle minacce attraverso la loro identificazione il loro controllo.

Causa radice

La causa principale è in genere il motivo specifico di errore di un servizio o di un'applicazione. Tuttavia, spesso sono presenti molti fattori interconnessi che hanno un'influenza sugli errori, quindi i team stanno iniziando a discutere se questo termine sia utile nella gestione degli imprevisti e molti sono passati al plurale, parlando di "cause principali".

Runbook

I runbook forniscono procedure dettagliate per la gestione degli imprevisti. Sono in genere gestiti da un amministratore di sistema o da un team di controllo delle operazioni di rete (NOC). I runbook possono essere digitali o cartacei.

Ambito

L'entità di un problema, una soluzione, un progetto, una funzionalità e così via.

Assistenza di seconda linea

Persone che dispongono di ulteriori capacità (in termini di tempo, esperienza, conoscenza e risorse) per risolvere problemi che possono andare oltre le capacità dei primi addetti agli imprevisti.

Modifica del servizio

Aggiornamenti, correzioni, deprecazione o altre modifiche apportate a un servizio.

Service desk

Un team che acquisisce le richieste di assistenza clienti e funge da punto di contatto tra i clienti e l'IT.

Analisi del guasto del servizio

L'analisi degli errori del servizio è il processo di ispezione di un'interruzione del servizio allo scopo di identificarne la causa.

Accordo sui livelli di servizio (SLA)

Un accordo tra fornitore e cliente su metriche misurabili come tempo di attività, reattività e responsabilità.

Grafico di monitoraggio dell'accordo sui livelli di servizio (SLAM)

Un documento che attesta l'avanzamento e i dati riguardanti gli obiettivi dei livelli di servizio.

Obiettivi di livelli di servizio

Un accordo all'interno di uno SLA su una metrica specifica come il tempo di attività.

Livelli di gravità (SEV)

La misura in cui un servizio è interessato da un imprevisto. In genere, i team utilizzano una struttura con 5 livelli di gravità, di cui il livello 1 rappresenta la gravità più alta e i livelli da 3 a 5 indicano problemi di gravità inferiore che non richiedono la stessa urgenza.

Singolo punto di guasto

Un'unica variabile da cui dipende il funzionamento di un sistema, ad esempio: un elemento di configurazione essenziale.

Specifica

Un record formale dei requisiti per una configurazione correlata all'IT.

Site Reliability Engineer (SRE)

Un ingegnere software che ha il compito di occuparsi delle operazioni. Gli SRE sono in genere responsabili dell'automazione delle attività manuali, della gestione degli SLO e della gestione degli imprevisti.

Modifiche standard

Modifiche pre-approvate a basso rischio, ripetute di frequente, come l'aggiunta di memoria o spazio di archiviazione.

Standby

Risorse inattive disponibili per supportare la gestione degli imprevisti.

Stato

La condizione corrente di un servizio.

Pagina stato

Uno spazio dedicato per comunicare la condizione attuale di un servizio, con aggiornamenti regolari sullo stato degli imprevisti.

Esperto in materia (SME, Subject Matter Expert)

Una persona con conoscenze specifiche su un determinato problema, servizio e così via.

Stack tecnologico

I linguaggi di programmazione, il software e i componenti che costituiscono un'applicazione. Uno stack tecnologico è costituito da due parti: il front-end (rivolto al cliente) e il back-end (rivolto allo sviluppatore).

Metriche di tensione

Dati che, in caso di modifica di un set di dati o di un punto dati specifico, hanno un impatto negativo su altri punti dati.

Soglia

Un livello o un numero predefinito che, se superato, genera un avviso. Ad esempio, la soglia per il caricamento della pagina di accesso potrebbe essere di tre secondi. Se il tempo di caricamento della pagina inizia ad aumentare, verrà generato un avviso.

Timeline

Un elenco completo di eventi, modifiche, correzioni, esiti e date in cui ciascuno di questi elementi si è verificato durante un imprevisto.

Analisi delle tendenze

Un'indagine su modelli legati al tempo. L'analisi delle tendenze presuppone che i modelli passati possano consentire di effettuare previsioni sui modelli futuri dei dati. Ciò ne fa una pratica preziosa per la prevenzione degli imprevisti.

Soluzione alternativa

Un modo efficace per implementare una correzione rapida che ripristini le funzionalità del sistema anche se l'imprevisto sottostante non è stato ancora risolto.

Carico di lavoro

Le risorse (umane e informatiche) necessarie per fornire un servizio IT.

Prossimo contenuto
Get the handbook