Incidentmanagement voor razendsnelle teams
Het taalgebruik van incidentmanagement
Een woordenlijst voor incidentmanagementteams
De taal die gebruikt wordt in het hoogtechnologische ecosysteem is op zijn minst dynamisch te noemen. Nergens anders vind je een mengeling van technisch jargon, naadloos verwoven met verwijzingen naar science fiction, mythologie, popcultuur, literatuur en meer. Hoewel dit gesprekken kleurrijk en boeiend maakt, is het ook vaak moeilijk om ze doorgronden.
Als er niets dringends aan de hand is, werkt dit. Maar als er zich incidenten voordoen en de ernst stijgt, moeten we onze taal technisch nauwkeurig en uitvoerbaar maken en geen ruimte laten voor verkeerde interpretaties.
Dit betekent dat als het gaat om incidentmanagement, we duidelijke definities nodig hebben om mensen op één lijn te houden.
Erkenning van incidenten (ack)
Nadat een incidentwaarschuwing is gegenereerd, kan een gebruiker een waarschuwing herkennen of 'ack'(nowledge) in de meeste waarschuwingstools voor op afroep. Dit betekent dat de gebruiker de verantwoordelijkheid voor de issue heeft genomen en eraan werkt om deze op te lossen.
Concrete waarschuwing
Een actiegerichte waarschuwing is een waarschuwing die een issue en de impact ervan duidelijk beschrijft en die op het juiste moment naar de juiste mensen wordt gestuurd, zodat het team onmiddellijk in actie kan komen.
Actieve monitoring
Systemen die zijn uitgerust met actieve bewaking worden regelmatig gecontroleerd of automatisch met software gemonitord op eventuele veranderingen in de prestaties die tot incidenten kunnen leiden.
Beoordeling na actie (AAR, After Action Review)
Een beoordeling na actie is een gestructureerd beoordelingsproces dat plaatsvindt na een gebeurtenis. Het proces beschrijft doorgaans in detail wat er is gebeurd, probeert vast te stellen waarom het is gebeurd en geeft aan op welke punten verbeteringen nodig zijn om dezelfde of soortgelijke gebeurtenissen in de toekomst te voorkomen. Beoordelingen na actie zijn ook algemeen bekend als postmortem of beoordeling na incident.
Afgesproken serviceduur (AST, Agreed Service Time)
De overeengekomen servicetijd is de tijd, gewoonlijk uitgedrukt in uren per jaar, dat een service naar verwachting beschikbaar is. Deze overeenkomst wordt gewoonlijk beschreven in een SLA (service level agreement) tussen leverancier en klant. Services met hoge beschikbaarheid beloven doorgaans een uptime van 99,99%, wat gelijk staat aan minder dan een uur downtime per jaar.
Waarschuwing
Een alarm of waarschuwing die wordt gegenereerd wanneer bewakingsinstrumenten veranderingen, acties met een hoog risico of storingen in de IT-omgeving identificeren.
Waarschuwingsruis
Er wordt een waarschuwingsgeluid afgespeeld wanneer er in korte tijd een groot aantal meldingen worden gegenereerd, waardoor het voor respondenten moeilijk wordt om nauwkeurig vast te stellen welke diensten het betreft en hoe ze prioriteiten kunnen stellen aan hun werk. Waarschuwingsgeluid kan een bijdrage leveren aan waarschuwingsmoeheid.
Waarschuwingsmoeheid
Waarschuwingsmoeheid treedt op wanneer respondenten overweldigd raken door het aantal waarschuwingen of de frequentie ervan. Waarschuwingsmoeheid leidt vaak tot trage reacties (of geen reactie), omdat respondenten de neiging hebben om de constante waarschuwingen te normaliseren.
Always-on services
Een service waarvan verwacht wordt dat deze altijd actief is.
Assetbeheer
De onderdelen van een systeem of netwerk die van waarde zijn voor het bedrijf. Assetbeheer is wanneer een werknemer of team de balans opmaakt van die componenten om te begrijpen wat de impact is van een update of de verwijdering van een systeem.
Audit
Een formeel onderzoek naar de beschikbaarheid en het gebruik van een systeem of proces, evenals of een beleid, richtlijnen en best practices worden nageleefd.
Beschikbaarheid
Wanneer een product of systeem beschikbaar is en naar verwachting functioneert. Ook wel systeemuptime genoemd.
Back-out
De werkwijze om een service terug te zetten naar een eerdere betrouwbare toestand of basismeting. Dit is meestal een snelle oplossing die wordt toegepast wanneer een update of release iets dat essentieel is in een systeem kapot maakt.
Back-up
Een opgeslagen kopie van gegevens of een extra systeem dat beschikbaar is voor gebruik als het origineel aangetast of verloren is.
Basis
Een referentiepunt voor verwacht gedrag. Basismetingen helpen teams om veranderingen en verbeteringen op waarde te schatten.
Benchmark
Een referentiepunt dat fungeert als een basismeting om de voortgang te meten of resultaten te vergelijken. Als de standaard in onze branche bijvoorbeeld een uptime van 99,99% is, kan dat een benchmark zijn die we gebruiken om onszelf aan te meten en aan de verwachtingen van concurrentie en klanten te voldoen.
Insect
Een onbedoeld probleem in software, code, programma's, etc. dat een storing of vreemd gedrag kan veroorzaken.
Bedrijfsimpactanalyse (BIA)
Een analyse van de impact op het bedrijf is de systematische evaluatie van de mogelijke impact van verstoringen van de service en downtime als gevolg van een ernstig incident. Het doel van de BIA is inzicht te krijgen in het effect van elke service op het bedrijf en om de vereisten voor herstel in geval van een incident vast te stellen.
Capaciteit
De maximale hoeveelheid informatie die kan worden overgedragen tussen netwerken of via een service kan worden geleverd. Capaciteitsoverschrijding is een veelvoorkomende indicator voor incidenten.
Wijziging
Elke wijziging die wordt aangebracht aan een IT-service, -configuratie, -netwerk of -proces. Wordt vaak gevolgd in een werkwijze die bekend staat als verandermanagement.
Wijzigingsgeschiedenis
Een uitgebreid overzicht van wijzigingen die zijn aangebracht aan een IT-service, -configuratie, -netwerk of -proces, vanaf het begin van de levenscyclus tot de huidige status.
Verandermanagement
Een IT-werkwijze gericht op het minimaliseren van verstoringen tijdens veranderingen/updates van kritieke systemen en services. Voor sommige teams omvat deze praktijk alle aspecten van verandering, van de technische tot de mensenelijke en de proceskant. Op basis van de ITIL 4-richtlijnen betekent verandermanagement voor andere teams het beheersen van de menselijke of culturele aspecten van verandering, terwijl een andere werkwijze, genaamd wijzigingsbeheer, gericht is op risicobeoordeling, planning en autorisatie van wijzigingen.
ChatOps
De werkwijze van het gebruik van chat- en samenwerkingstools voor incidentmanagement. Zoals Sean Regan van Atlassian het vertelt:
"ChatOps is een samenwerkingsmodel dat mensen, tools, processen en automatisering verbindt in een transparante workflow. Deze stroom verbindt het werk dat nodig is, het werk dat plaatsvindt en het werk dat wordt gedaan op een permanente locatie, die wordt bemand door mensen, bots en aanverwante tools."
Gesloten-status
Een incident bevindt zich in een gesloten-status wanneer alle nodige maatregelen zijn genomen en een issue is opgelost.
Koude stand-by (geleidelijke recovery)
Een koude stand-by wordt gebruikt als een back-upsysteem voor een ander systeem. Als het primaire systeem uitvalt, vervangt de koude stand-by het primaire systeem terwijl het wordt gerepareerd. Dit is een bijzonder nuttige strategie als de primaire systeemstoring een geleidelijke recovery vereist (een herstel dat weken kan duren) in het geval dat computerhardware moet worden vervangen en ingesteld.
Koude start
Er is sprake van een koude start wanneer het opstarten van een toepassing die niet werkt langer duurt dan een applicatie die 'warm' is of al actief is.
Communicatie lead
Het teamlid dat verantwoordelijk is voor communicatie tijdens een incident.
Naleving
Afstemming op de regelgeving. Controlesystemen worden vaak geprogrammeerd om te controleren op nalevingsproblemen en om waarschuwingen te triggeren als een systeem niet aan de regels voldoet.
Impactanalyste voor componentfouten (CFIA)
Het proces om te bepalen wat de impact op een service is als een onderdeel of een configuratie niet meer werkt zoals verwacht.
Gelijktijdigheid
De maatstaf voor hoeveel van dezelfde acties tegelijkertijd plaatsvinden binnen een systeem. Bijvoorbeeld: hoeveel gebruikers dezelfde functie gebruiken of dezelfde transactie uitvoeren.
Beheersing
Procedures en beleidsregels die risico beheren, zorgen dat een product of service werkt zoals verwacht en compliant blijft.
Kernservice
Een service die voorziet in een centrale functie voor gebruikers/klanten.
Tegenmaatregel
Een specifieke reactieve actie die ondernomen wordt om een systeem te beschermen of werking te herstellen.
Klantgerichte service
Services die klanten gebruiken en waarmee ze communiceren.
Cynefin-kader
Een constructie voor het nemen van beslissingen, aangepast voor incidentmanagementprocessen, om managers te helpen de meest effectieve reactie te organiseren. Het framework verdeelt situaties in vijf categorieën op basis van de complexiteit van een incident. Elke categorie heeft zijn eigen (verschillende) reeks vervolgstappen.
Dashboard
Een visualisatie van systemen, waarschuwingen en incidenten op één scherm. Ontworpen om gepresenteerde informatie uit verschillende tools te organiseren, met contextinformatie in een heldere, duidelijke indeling.
Afhankelijkheid
De relatie tussen twee services, processen of configuraties die samenhangen om te functioneren.
Afwaardering
Een functie of tool die niet meer gebruikt wordt, uit een service gehaald wordt of niet meer geüpdatet wordt.
Diagnose
Het proces en resultaat van het uitzoeken wat een incident inhoudt en wat de hoofdoorzaak ervan is.
Diagnostiek
De symptomen of tekenen die tot een diagnose van een incident hebben geleid.
Downtime/uitvaltijd
De periode waarin een service niet werkt of niet beschikbaar is zoals verwacht.
Noodwijziging
Een update of patch die snel geïmplementeerd wordt, meestal als onderdeel van incidentoplossing. Bij noodveranderingen wordt de goedkeuringsprocedure voor wijzigingen vaak overgeslagen omdat het risico om te wachten op een goedkeuring groter is dan het risico dat hoort bij de wijziging doorvoeren.
Onderliggende service
Een service die nodig is voor de werking en beschikbaarheid van een kernservice voor klanten, maar de niet rechtstreeks beschikbaar is voor klanten.
Testomgeving*
De infrastructuur waarin een service, functie, proces, configuratie-item, etc. getest wordt op verwachte functionaliteit. Deze omgeving wordt beheerd om de daadwerkelijke productieomgeving nauwkeuriger na te bootsen.
Productieomgeving
De infrastructuur waarin een service aan een klant geleverd wordt. De te leveren onderdelen in deze omgeving zijn live, en dit wordt ook wel de live-omgeving genoemd.
Fout
Iets dat verkeerd gaat, wat een storing veroorzaakt in een configuratie-item of service. Dit kan in het design of bij de verwerking ontstaan, maar kan ook een menselijke fout zijn.
Escalatie
Het proces waarbij een incidentmanagementtaak wordt overgedragen aan een team of persoon met meer relevante vaardigheden en ervaring. Functionele escalatie is wanneer een waarschuwing of incident wordt overgedragen aan een persoon of team met meer expertise. Hiërarchische escalatie is wanneer de waarschuwing of het incident wordt overgedragen van een persoon met een lagere functie naar persoon met een hogere functie.
Event
Een opmerkelijke situatie in het systeem of de service. Gebeurtenissen worden meestal veroorzaakt door acties van de gebruiker of door een incident.
Uitzonderingsrapport
Een rapport dat wordt gegenereerd wanneer de belangrijkste prestatie-indicatoren (KPI's) hun drempelwaarden overschrijden of niet aan de verwachtingen voldoen.
Fouttolerantie
Fouttolerantie beschrijft de mogelijkheid van een service om te blijven werken, zelfs als een configuratie-item of afzonderlijk onderdeel defect raakt.
Foutenboomanalyse
Een techniek die wordt gebruikt om te bepalen welke gebeurtenissen tot een incident hebben geleid en om te voorspellen welke gebeurtenissen in de toekomst tot incidenten kunnen leiden. Vaak wordt deze gebruikt om de hoofdoorzaak van een ernstig incident te vinden.
Eerstelijns ondersteuning
De respondent die als eerste op een incident dient te reageren. Dit is meestal de oproepbare persoon.
Fix
Een actie of methode voor reparatie.
Vast asset
Een vaste asset is een fysiek, gewaardeerd, langdurig onderdeel van het bedrijf, zoals een kantoor, computer of licentie.
Volgens het schema van de zon
Een methode van klantenservice of incidentmanagement waarbij roulaties voor de personen op afroep gebruik maken van tijdzones om 24/7 hulp te kunnen bieden zonder een team nodig te hebben dat midden in de nacht beschikbaar moet zijn.
Forensisch onderzoek
Een wetenschappelijk, op bewijzen gebaseerd onderzoek naar een computersysteem om de oorzaak van een incident vast te stellen.
Functioneel
Een service wordt omschreven als functioneel wanneer ze in staat is om te functioneren zoals verwacht.
Stapsgewijs herstel
Een geleidelijke recovery is een herstelproces dat langer duurt dan normaal (weken in plaats van uren). Wanneer dit gebeurt, wordt doorgaans een koude stand-by (back-upsysteem) online gezet het systeem in kwestie te vervangen.
Warme stand-by
Een warme standby is een hersteloptie waarbij redundante middelen tegelijkertijd worden gebruikt om een IT-service te ondersteunen in geval van een storing. Als het actieve systeem uitvalt, is de warme stand-by al actief en klaar voor gebruik zonder dat het team actie hoeft te ondernemen en zonder downtime. Ook wel bekend als onmiddellijk herstel.
Hotfix
Een update die toegepast wordt op software om een probleem of bug op te lossen. Dit wordt vaak gebruikt om een door klanten gemeld probleem op te lossen.
Impact
Het meten van de kosten, van geld, tijd en reputatie, die door een storing, incident of wijziging aan de service worden veroorzaakt. Ook bekend als de downtimekosten.
Niet-concrete waarschuwing
Een waarschuwing die een respondent niet in staat stelt om actie te ondernemen. Dit betekent vaak dat de waarschuwing geen contextuele informatie bevat, naar de verkeerde persoon is doorgestuurd of een onduidelijk scope heeft. Waarschuwingen waarop geen actie kan worden ondernomen kunnen bijdragen aan waarschuwingsmoeheid.
Incident
Een gebeurtenis die leidt tot een verstoring of vermindering van de kwaliteit van een dienst, en die een noodrespons vereist. Teams die ITIL- of ITSM-werkwijzen volgen, gebruiken mogelijk de term ernstig incident.
Incident response
Hoe teams reageren op incidenten. Normaal gesproken is de incidentrespons een vooraf ingesteld proces met regels, rollen en best practices die voorafgaan aan een incident zijn gedefinieerd.
Incidentmanagement
Het proces wordt gebruikt door DevOps- en IT Operations-teams en bestaat uit het reageren op een ongeplande gebeurtenis of serviceonderbreking en het herstellen van de service naar de operationele status.
Incidentcommandant
De incidentcommandant is lid van het IT- of DevOps-team en is verantwoordelijk voor het beheer van de incidentrespons. De commandant staat aan het hoofd van het team incidentmanagement en heeft de uiteindelijke controle en het laatste woord over alle beslissingen over incidenten. Deze rol wordt ook vaak incidentmanager genoemd.
Levenscyclus van een incident
De levensduur van een incident, van het ontstaan en de detectie tot aan de oplossing.
I/O-metingen
Een verzameling statistieken die input en output meten. Veelgebruikte statistieken in deze categorie zijn onder meer IO-wait (de tijd dat een CPU wacht op een IO-aanvraag) en IOPS (het aantal IO-verzoeken per seconde).
Organisatie van incidentrespons
Een Opsgenie-functie waarmee teams snel en effectief problemen kunnen identificeren, de juiste mensen op de hoogte kunnen brengen, de communicatie tussen bedrijfseenheden kunnen vergemakkelijken en tussen teams kunnen samenwerken voor incidentmanagement.
Incidentrapportage
Een overzicht van de gegevens en processen die tijdens een specifiek incident zijn gebruikt.
Incidentresponder
Personen en/of teams die verantwoordelijk zijn voor het onderzoeken en oplossen van een incident.
Belanghebbenden en volgers van een incident
Personen die op de hoogte moeten worden gehouden van een incident omdat het invloed heeft op hun baan/vermogen om hun werk te doen. Deze personen kunnen al dan niet invloed hebben op de oplossing van incident, maar ze zijn geen actieve respondenten.
Tussentijds herstel
Ook bekend als warme stand-by. Dit soort herstel duurt doorgaans 24 tot 72 uur. Gegevensherstel en/of hardware- en softwareconfiguratie zijn meestal de reden voor de relatief lange hersteltijd.
Information Technology Infrastructure Library (ITIL, bibliotheek voor informatietechnologieinfrastructuur)
Een gedocumenteerde reeks algemeen aanvaarde best practices voor IT-services.
Information Technology Service Management (ITSM)
Alle aspecten van de processen en procedures die uitgevoerd moeten worden om een IT-service aan klanten te leveren. Dit omvat alle aspecten van de levenscyclus van de service, van design tot oplevering tot incidentmanagement.
Kepner Tregoe-methode (KT-methode)
Een methode voor de analyse van de hoofdoorzaak en besluitvorming waarbij problemen apart worden beoordeeld van de uiteindelijke beslissing over een issue.
Key performance indicators (KPI's)
Succesmetingen voor systemen en producten. KPI's worden vooraf bepaald, regelmatig bijgehouden en genereren vaak waarschuwingen als ze afwijken van de verwachte drempelwaarden. Als je gemiddelde tijd tussen storingen (MTBF) bijvoorbeeld steeds korter wordt, kan er een waarschuwing worden gegenereerd zodat je team het probleem kan identificeren en onderzoeken.
Bekende fout
Een al bestaand issue waarvoor al een tijdelijke oplossing is.
Latency
Een vertraging tijdens de overdracht van gegevens.
Logboeken
Registratie van alle gebeurtenissen die bij een service of applicatie horen. Hier vallen overgedragen gegevens, datums en tijden, incidenten, wijzigingen, fouten, enz. onder.
Onderhoudbaarheid
De maatstaf voor hoe eenvoudig veranderingen succesvol kunnen worden toegepast op een service of functie.
Handmatige workaround
Een oplossing die handmatig (in plaats van automatisch) wordt geïmplementeerd.
Gemiddelde tijd tussen storingen (MTBF, Mean Time Between Failures)
De gemiddelde tijd tussen herstelbare storingen van een technologieproduct. Dit wordt ook wel Mean Time Between Service Incidents genoemd (MTBSI).
Gemiddelde tijd om te erkennen (MTTA, Mean Time to Acknowledge)
De gemiddelde tijd die nodig is vanaf het moment dat een waarschuwing wordt getriggered tot het moment waarop het werk aan de issue begint.
Gemiddelde tijd tot mislukking (MTTF, Mean Time to Failure)
De gemiddelde tijd tussen niet-herstelbare storingen van een technologieproduct.
Gemiddelde tijd voor reparatie (MTTR, Mean Time to Repair)
De gemiddelde tijd die nodig is om een systeem te repareren (meestal technisch of mechanisch). Dit omvat zowel de reparatietijd als de eventuele testtijd.
Gemiddelde tijd tot herstel (MTTR, Mean Time to Recovery)
De gemiddelde tijd die nodig is om te herstellen na een product- of systeemstoring. Dit omvat de volledige duur van de storing, vanaf het moment dat het systeem of product uitvalt tot het moment dat het weer volledig operationeel is.
Gemiddelde tijd om op te lossen (MTTR, Mean Time to Resolve)
De gemiddelde tijd die nodig is om een storing volledig oplossen, met inbegrip van de tijd die nodig is om te voorkomen dat de storing zich opnieuw voordoet.
Gemiddelde tijd voor respons (MTTR, Mean Time to Respond)
De gemiddelde tijd die nodig is om te herstellen na een product- of systeemstoring, vanaf het moment dat de fout voor het eerst gemeld wordt. Hierbij wordt de eventuele vertraging in je waarschuwingssysteem niet meegerekend.
Model / modellering
Een weergave van een daadwerkelijk systeem of een daadwerkelijke service, toepassing, etc.
Controle
Het herhaaldelijke proces waarin een service of proces gecontroleerd wordt om er zeker van te zijn dat het functioneert zoals verwacht.
Normale wijziging
Normale veranderingen zijn niet-urgente veranderingen zonder vaststaand en vooraf goedgekeurd proces.
Op afroeprooster
Een rooster dat ervoor zorgt dat de juiste persoon altijd, dag en nacht, beschikbaar is om snel op incidenten en storingen te reageren. Opafroeproosters komen vaak voor zowel in de gezondheidszorg als in de tech-wereld.
Operationsbrug
De fysieke locatie waar het controleren van IT-services plaatsvindt.
Operations lead
De persoon die verantwoordelijk is voor het toezicht op de dagelijkse activiteiten. In sommige gevallen kan deze persoon ook de incidentmanager (of incidentcommandant) zijn, die verantwoordelijk is voor de oplossing van incidenten.
Resultaat
De uitkomst van een IT-gerelateerde gebeurtenis, proces of wijziging. Teams bespreken vaak de verwachte en daadwerkelijke resultaten.
Pijn-waardeanalyse
Een analyse die wordt gebruikt om de zakelijke impact van een incident vast te stellen. Deze houdt meestal rekening met de downtimekosten, de duur van een incident, de gevolgen voor gebruikers en het aantal getroffen gebruikers.
Passieve controle
Wanneer de servicefunctionaliteit automatisch wordt gecontroleerd (in plaats van actief of handmatig).
Peacetime
Tijd waarin service en functies werken zoals verwacht, zonder storingen.
Prestatiedegradatie
De meting van in hoeverre de prestatie van een systeem is afgenomen wegens een gebeurtenis of incident.
Geplande uitvaltijd
Een tijdsperiode waarin een IT-service bewust niet beschikbaar is voor onderhoudswerkzaamheden of updates.
Playbook
Een verzameling 'spellen' of specifieke acties die een team kan nemen om een bepaald probleem, incident of doel aan te pakken.
Postmortem/analyse na een incident/beoordeling na het incident
Het proces van het uitzoeken wat een incident inhoudt nadat het is afgesloten. Het doel van een postmortem is om de responsprocessen te verbeteren, toekomstige incidenten te voorkomen en de oorzaak van het recentste incident te begrijpen.
Prioriteit
De volgorde waarin incidenten aangepakt moeten worden. Items met een hoge prioriteit zijn urgenter dan items met een lagere prioriteit. De prioriteit wordt bepaald door de urgentie, ernst en mogelijke impact op het bedrijf.
Probleemregistratie
Een probleemregistratie is een document waarin elk aspect van een issue is behandeld, van detectie tot oplossing.
Verwachte serviceonderbreking
Een document waarin is beschreven hoe toekomstige onderhoudswerkzaamheden of tests van invloed zullen zijn op het normale serviceniveau.
Quality Assurance
Het proces waarin getest wordt of er wordt voldaan aan standaarden voor alles dat met IT te maken heeft, van nieuwe functies tot instructiehandleidingen.
Quality Management-systeem
Het framework of de systemen die aanwezig zijn voor quality assurance.
Reactieve monitoring
Controle die wordt uitgevoerd als respons op een gebeurtenis of incident.
Herstel
Het proces om een service terug te zetten naar de basisfunctionaliteiten en -werking.
Recovery Point Objective
Het maximaal toegestane gegevensverlies tijdens herstel.
Recovery Time Objective
Maximale tijdsduur die acceptabel is voor een service-onderbreking.
Release
Een verandering die wordt geïmplementeerd voor gebruikers.
Releasebeheer
Veranderingen plannen, ontwerpen, testen, troubleshooten en implementeren.
Veerkracht
De mate waarin een systeem storingbestendig is en de snelheid waarmee het weer hersteld na een gebeurtenis of incident.
Responstijd
De hoeveelheid tijd die nodig is vanaf het moment dat een waarschuwing wordt getriggered tot het moment waarop het team een eerste actie onderneemt.
Risicobeoordeling
Het proces waarbij het risico van een asset wordt geïdentificeerd door de waarde, mogelijke bedreigingen en de mogelijke impact van die bedreigingen te beoordelen.
Risicomanagement
Het proces waarin dreigingen afgehandeld worden door ze te identificeren en daarna te beheren.
Hoofdoorzaak
De hoofdoorzaak wordt doorgaans gezien als de enige reden waarom een service of applicatie uitvalt. Er zijn echter vaak veel onderling verbonden factoren die bijdragen aan storingen. Daarom vragen teams zich steeds vaker af of deze term wel nuttig is voor het incidentmanagement. Inmiddels zijn velen overgestapt op de meervoudige vorm: hoofdoorzaken.
Runbooks
Runbooks bevatten gedetailleerde procedures voor incidentmanagement. Deze worden doorgaans onderhouden door een systeembeheerder of een NOC (Network Operations Control)-team. Runbooks kunnen digitaal of fysiek zijn.
Scope
Het bereik van een probleem, oplossing, project, capaciteit, etc.
Tweedelijns ondersteuning
Mensen met aanvullende capaciteiten, zoals tijd, ervaring, kennis en middelen, om problemen op te lossen die eerste respondenten misschien niet hebben.
Servicewijziging
Updates, correcties, afwijzingen of andere wijzigingen die aan een service zijn aangebracht.
Servicedesk
Een team dat aanvragen van de klantenservice aanneemt en dient als contactpersoon tussen de klant en IT.
Analyse servicestoring
De servicestoringanalyse is het proces waarbij een storing wordt geïnspecteerd om de oorzaak ervan vast te stellen.
Service Level Agreements (SLA's)
Een overeenkomst tussen de provider en de klant over meetbare statistieken zoals uptime, respons en verantwoordelijkheden.
Service Level Agreement Monitoring (SLAM)-grafiek
Een document waarin de voortgang en gegevens van Service Level Objectives wordt bijgehouden.
Service Level Objectives (SLO)
Een overeenkomst binnen een SLA over een specifieke meetwaarde, zoals uptime.
Ernstniveaus (Ernst)
De mate waarin een service wordt beïnvloed door een incident. Meestal gebruiken teams een structuur van ernstniveaus met 3 tot 5 niveaus, waarbij 1 het ernstigst is en 3 tot 5 duiden op problemen met een lagere ernst die niet zo urgent zijn.
Enkelvoudig foutpunt
Eén variabele waarvan een systeem afhankelijk is om te kunnen functioneren. Bijvoorbeeld: een essentieel configuratie-item.
Specificatie
Een formele registratie van eisen voor een IT-gerelateerde configuratie.
Engineer voor betrouwbaarheid van de site (SRE, Site Reliability Engineer)
Een software-engineer met operationele taken. SRE's zijn doorgaans verantwoordelijk voor het automatiseren van handmatige taken, het beheren van SLO's en het beheren van incidenten.
Standaardveranderingen
Veranderingen met een laag risico, die vaak herhaald worden en vooraf goedgekeurde zijn, zoals geheugen of opslag toevoegen.
Stand-by
Inactieve bronnen beschikbaar ter ondersteuning van incidentmanagement.
Status
De huidige staat van een service
Statuspagina
Een speciale plek om de huidige toestand van een service te communiceren, met regelmatige statusupdates over incidenten.
Subject Matter Expert (SME)
Een persoon met specifieke kennis over een issue, service, enz.
Technische stack
De programmeertalen, software en onderdelen waar een applicatie uit bestaan. Een tech stack heeft twee kanten: front-end (wat de klant ziet) en back-end (wat de ontwikkelaar ziet).
Spanningsmetingen
Gegevens die, wanneer één punt of instelling verandert, ander gegevenspunten negatief beïnvloedt.
Grens
Een vooraf bepaald niveau of getal dat bij overschrijding een waarschuwing genereert. De drempelwaarde voor het laden van de aanmeldingspagina kan bijvoorbeeld drie seconden zijn. Als het laden van de pagina langer duurt, wordt er een waarschuwing gegenereerd.
Tijdlijn
Een volledige lijst van gebeurtenissen die voorkomen, veranderingen, oplossingen en resultaten, en wanneer ze tijdens een incident zijn voorgekomen.
Trendanalyse
Een onderzoek naar tijdgerelateerde patronen. Bij trendanalyse wordt ervan uitgegaan dat patronen uit het verleden toekomstige patronen in kunnen voorspellen. Dit maakt het een waardevolle werkwijze om incidenten mee te voorkomen.
Workaround
Een succesvolle manier om een snelle fix te implementeren waarmee de meeste functionaliteiten weer beschikbaar zijn, maar waarmee het onderliggende incident nog niet is opgelost.
Workload
De bronnen, zowel menselijke als machinaal, die nodig zijn om een IT-service te leveren.
Een op afroep-rooster opstellen met Opsgenie
In deze tutorial leer je hoe je een op afroep-rooster instelt, overschrijfregels toepast, op afroep-meldingen configureert en meer, allemaal binnen Opsgenie.
Lees deze tutorialDe voor- en nadelen van verschillende benaderingen van op afroep-beheer
Op afroep-teams evolueren snel. Ontdek de voor- en nadelen van verschillende benaderingen van op afroep-beheer.
Lees dit artikel