Incidentmanagement voor razendsnelle teams
Betere tijdlijnen voor incidenten maken (en waarom ze belangrijk zijn)
Naarmate technologie complexer wordt, neemt het incidentmanagement toe. En naarmate incidentmanagement complexer wordt, nemen ook documentatie en communicatie toe.
Daarom omarmen steeds meer bedrijven incidenttijdlijnen: een gecentraliseerde feed voor incidentactiviteiten die is ontworpen om te zorgen dat alle neuzen tijdens een incident in dezelfde richting blijven staan en teams een overzicht hebben dat ze na het incident kunnen gebruiken om hoofdoorzaken te identificeren en de prestaties in de toekomst te verbeteren.
Wat is een incidenttijdlijn?
Een incidenttijdlijn is een volledig realtime record van een incident. Deze omvat vaak handmatige invoeren (chatgesprekken), geconsolideerde records van pagina's, waarschuwingen en bevestigingen, en automatische systeemupdates (bijvoorbeeld een melding dat iemand de ernst van een incident heeft gewijzigd of een incident heeft afgesloten). De tijdlijn wordt ook vaak gesynchroniseerd met chat of een Slack-kanaal.
De tijdlijn is er om te zorgen dat alle neuzen in dezelfde richting blijven staan, om nieuwe teamleden snel op de hoogte te brengen en het proces van incidentpostmortems te vereenvoudigen. De incidentmanagementoplossing van Atlassian, Jira Service Management, zorgt voor een robuuste tijdlijn met een aanpasbaar platform voor het volgen van werk, aangezien incidenttijdlijnen de hele scope van de incidentoplossing en de volledige context moeten omvatten. Met functies als gecentraliseerde waarschuwingen, flexibele automatiseringen, geïntegreerde chattools en samenwerkingsgerichte werkspaces, wordt een incidenttijdlijn automatisch geregistreerd terwijl teams samenwerken om incidenten op te lossen.
"Geef me een lijst met alle wijzigingen die in de afgelopen drie dagen zijn aangebracht. Zonder een nauwkeurige tijdlijn kunnen we oorzaak en gevolg niet vaststellen en zullen we waarschijnlijk nog een uitval veroorzaken."
— Van "The Phoenix Project,"
Gene Kim, Kevin Behr, George Spafford
De waarde van een incidenttijdlijn
Eén enkele realtime weergave
Een gebrek aan communicatie tussen teams of belanghebbenden is een van de snelste manieren voor een incident om uit de hand te laten lopen. Een incidenttijdlijn beperkt dit risico door iedereen in realtime dezelfde informatie te laten zien op één scherm. Dit betekent dat iedereen, van de ontwikkelaars die aan het incident werken en het communicatieteam dat verantwoordelijk is voor het bijpraten van gebruikers tot belanghebbenden uit de C-suite, op de hoogte kan blijven zonder ingewikkelde telefoontjes of tal van onsamenhangende e-mailgesprekken, telefoontjes en chats.
De eenduidige realtime weergave maakt het voor belanghebbenden ook eenvoudiger om niet alleen het kernprobleem van het incident vast te stellen, maar ook de risico's en potentiële problemen in onderling verbonden systemen. Door meerdere teams toegang te geven tot een tijdlijn, wordt het eenvoudiger om potentiële problemen, oorzaken of risico's in onderling verbonden systemen in kaart te brengen.
Robuustere incidentpostmortems
Bij Atlassian zijn incidentpostmortems een essentieel onderdeel van onze processen voor incidentmanagement en probleembeheer. Ze brengen mensen samen om erachter te komen wat er is gebeurd, waarom het is gebeurd, en wat we kunnen doen om te voorkomen dat hetzelfde in de toekomst gebeurt. Om deze vragen tot op de bodem uit te zoeken, helpt het om een gedetailleerd overzicht te hebben van alles wat er tijdens een incident is gebeurd, van waarschuwingen tot updates van belanghebbenden tot de definitieve oplossing.
Voor veel bedrijven fungeert de incidenttijdlijn als dat gedetailleerde record. Het record is niet alleen een hulpmiddel voor realtime samenwerking bij incidenten. Het biedt ook één overzicht van wat er wanneer (en soms ook waarom) is gebeurd: informatie die teams een enorme tijdwinst kan opleveren tijdens de postmortemevaluatie.
Uitgebreider kijken naar KPI's
Een incidenttijdlijn helpt teams vaak om een enkel incident tot op de bodem uit te zoeken, maar daar houdt het nut niet op. Deze kan ook naast tijdlijnen voor soortgelijke incidenten worden gebruikt, zodat teams patronen kunnen herkennen en grotere problemen kunnen diagnosticeren met behulp van belangrijke KPI's.
Stel dat het oplossen van een incident langer duurde dan gemiddeld: waar ging het mis? Hoe verhoudt dat zich tot andere, soortgelijke incidenten? Welke onderdelen van het proces moeten nader worden bekeken? Is er een patroon dat ons naar een groter probleem in een proces, technologie of teamopstelling kan leiden? Worden er waarschuwingen verzonden als dat nodig is of moeten we onze alarmdrempels opnieuw evalueren? Biedt het opafroeprooster voldoende dekking voor incidenten? Zijn onze teams op de juiste manier gestructureerd?
Een tijdlijn kan fungeren als één enkel gegevenspunt voor beoordeling of juist vele gegevenspunten beslaan in een onderzoek naar SLA- en SLO-problemen.
Incidenttijdlijnen vs. ChatOps
Tijdlijnen voor incidenten worden doorgaans geleverd door en gebruikt binnen incidentmanagementsystemen zoals Jira Service Management om alle incidentinformatie te centraliseren.
ChatOps voor incidentmanagement heeft hetzelfde doel. Het enige verschil is dat ChatOps niet is ondergebracht in een incidentmanagementsysteem, maar doorgaans de tijdlijn centraliseert in een chatprogramma (bijvoorbeeld Slack), dat synchroniseert met en informatie binnenhaalt van incidentmanagementplatforms zoals Opsgenie en andere relevante bronnen.
De voordelen van Chatops (toegang tot dezelfde informatie tussen teams, realtime gesprekken en updates, minder contextwisseling, geen verwarrende telefoontjes meer en een ingebouwd record voor postmortems) zijn dezelfde als die van een incidenttijdlijn. De belangrijkste verschillen zijn simpelweg de locatie en de hoeveelheid informatie. De ChatOps-feed veroorzaakt doorgaans veel ruis rond de belangrijke informatie voor incidentteams. Het is handig om de uitgebreide details in je incidenttijdlijn op te nemen en het chatlogboek te bewaren voor eventueel toekomstig gebruik.
Klik op de knop hieronder voor meer informatie over hoe teams kunnen profiteren van ChatOps voor incidentoplossing en de mogelijkheden voor incidentmanagement van Jira Service Management.
Ontdek incidentcommunicatie met Statuspage
In deze tutorial laten we je zien hoe je incidentsjablonen kunt gebruiken om effectief te communiceren tijdens storingen. Aanpasbaar voor de vele soorten serviceonderbrekingen.
Lees deze tutorialHet belang van een postmortemproces bij incidenten
Een postmortemincident, ook wel bekend als een beoordeling na een incident, is de beste manier om door te werken wat er tijdens een incident is gebeurd en geleerde lessen vast te leggen.
Lees dit artikel