Incidentmanagement voor razendsnelle teams
Wat is een waarschuwing voor IT-incidenten?
Incidentwaarschuwingen zijn wanneer monitoringtools waarschuwingen genereren om je team op de hoogte te stellen van wijzigingen, acties met een hoog risico of storingen in de IT-omgeving.
Een systeem dat is gebouwd om artsen in staat te stellen medicijnen voor te schrijven, kan bijvoorbeeld een waarschuwing genereren als de dosis die een arts aanvraagt ongewoon hoog is, niet overeenkomt met het lichaamsgewicht dat in een patiëntendossier wordt vermeld, of een risico op geneesmiddelinteractie vormt met andere veelvoorkomende medicijnen.
Evenzo kan een systeem dat is gebouwd om een technisch product te bewaken een waarschuwing genereren als een systeem offline gaat, het verwerken van webverzoeken langer duurt dan normaal of de latentie van de database vertraagt boven een bepaalde drempel.
Het doel van IT-waarschuwingen is om snel problemen te identificeren en op te lossen die van invloed zijn op de uptime, snelheid en functionaliteit van het product, 24 uur per dag en zonder handmatige controle.
Waarom zijn IT-waarschuwingen belangrijk?
Aangezien het belang van 'always-on'-systemen blijft stijgen, nemen ook de kosten van downtime toe, waarbij experts een gemiddelde kostprijs schatten tussen de $ 5.600 en $ 9.000 per minuut. Aangezien elke minuut aan systeemstoring zo duur is, heeft het identificeren van problemen voordat ze uit de hand lopen een grote impact op de bedrijfsomzet (om nog maar te zwijgen van de roosters en stressniveaus van IT-teams).
IT-waarschuwingen vormen de eerste verdedigingslinie tegen systeemstoringen of wijzigingen die kunnen resulteren in grote incidenten. Door systemen automatisch te monitoren en waarschuwingen te genereren voor storingen en risicovolle wijzigingen, kunnen IT-teams de downtime en de hoge kosten die daarmee gepaard gaan, tot een minimum beperken.
Best practices voor waarschuwingen
IT-waarschuwingen zijn onmiskenbaar een belangrijk onderdeel van incidentmanagement, maar de waarheid is dat ze niet zomaar een eenvoudige oplossing zijn die je kunt instellen en vergeten. Als je de waarschuwingsdrempels te laag instelt, kan dit leiden tot overvolle inboxen, ontevreden op afroep-teams en waarschuwingsmoeheid. Als je te hoge drempels instelt, kun je kritieke problemen missen en het bedrijf miljoenen kosten.
Daarom zijn de meest effectieve IT-waarschuwingssystemen opgezet met deze best practices in het achterhoofd.
Automatiseer je monitoring
De beste manier om problemen snel en effectief te identificeren, is door monitoring te automatiseren.
Reageert een database trager dan normaal? Hebben gebruikers een langzamere laadtijd dan gemiddeld in je app? Is er een vitaal systeem uitgevallen? Heeft een van je technici een verzoek gedaan dat een slecht teken lijkt? Je systeem moet automatisch op dit soort problemen letten en je laten weten wanneer ze zich voordoen.
Drempels voor slimme waarschuwingen instellen
Heeft elke waarschuwing onmiddellijke aandacht nodig? Voor de meeste bedrijven is het antwoord nee. Daarom moet je verstandige waarschuwingsdrempels instellen.
De kennis of iets de moeite waard is om de ontwikkelaar wakker te maken midden in de nacht, of dat het misschien kan wachten tot de ochtend, kan het verschil betekenen tussen tevreden ontwikkelaars met snelle responstijden en teams met waarschuwingsmoeheid die tijdens het weekend naar een nieuwe baan zoeken.
Dedupliceren van je waarschuwingen
Uit een onderzoek naar waarschuwingsmoeheid bleek dat voor clinici in een ziekenhuisomgeving de waarschuwingsaandacht met 30% daalde elke keer dat er een dubbele waarschuwing binnenkwam. En de onderzoeksresultaten zouden waarschijnlijk hetzelfde zijn voor ontwikkelaars. Hoe vaker we dezelfde waarschuwing zien, hoe minder we er aandacht aan besteden. Daarom is het hier de best practice om je waarschuwingen te dedupliceren en herinneringen te minimaliseren.
Prioriteit en ernstniveaus instellen
Het is duidelijk dat sommige waarschuwingen belangrijker zijn dan andere. Een uitval van een website zal waarschijnlijk voorrang hebben op een korte vertraging van een niet vaak gebruikte functie. Kwaadwillige hackingpogingen hebben waarschijnlijk een hogere prioriteit dan een afbeelding die niet correct wordt weergegeven in je app.
Je systeem moet niet alleen de prioriteit en ernst van waarschuwingen herkennen, maar het moet die prioriteit ook duidelijk communiceren aan de mensen die verantwoordelijk zijn voor het oplossen van incidenten. De best practice hier is om visuele, hoorbare en sensorische signalen te gebruiken om snel en duidelijk aan te geven waar teams zich vervolgens op moeten concentreren.
Waarschuwingen uitvoerbaar maken
Het is goed als je weet wat er mis is. Het is nog beter als je weet wat de volgende stappen zijn. Dat is de reden waarom waarschuwingen uitvoerbaar moeten zijn, als ze dat nog niet zijn.
Dit is een plek waar DevOps-teams kunnen leren van de luchtvaartindustrie. Wanneer tijdens een vlucht een waarschuwing op het dashboard van de piloot verschijnt, wordt deze geleverd met een bruikbare checklist. Door dit soort details in je waarschuwingssysteem op te nemen, wordt de diagnostische tijd verkort en kunnen ontwikkelaars je proces snel doorlopen.
Dit is vooral handig als een ontwikkelaar midden in de nacht wakker is, wazige ogen heeft en niet op z'n best is.
De juiste waarschuwingstechnologie kiezen
Het ontwikkelen van een IT-waarschuwingssysteem dat deze best practices volgt, betekent dat je vooraf strategisch moet zijn met betrekking tot waarschuwingen. Het betekent ook dat je de juiste technologie moet kiezen om dit te doen. Bij het kiezen van een leverancier raden we aan om te zoeken naar:
Meerdere waarschuwingskanalen
E-mail is vaak het voorkeurskanaal als het gaat om waarschuwingen. Maar de waarheid is dat e-mail niet altijd voldoende is. Voor dringende waarschuwingen wil of heb je misschien sms-berichten, mobiele pushmeldingen of zelfs spraakoproepen nodig. Zoek naar een systeem waarmee je op verschillende manieren kunt waarschuwen.
Verrijking van waarschuwingen
Uitvoerbare waarschuwingen zijn gedetailleerde waarschuwingen. Dat betekent dat een kort tekstbericht niet altijd voldoende is. Pas op voor strikte tekenlimieten en zoek naar technologie waarmee je grafieken, logboeken, runbooks en checklists kunt toevoegen om extra context voor een waarschuwing te bieden en de ontwikkelaar te laten weten wat hij vervolgens moet doen.
Acties voor aangepaste waarschuwingen
Met de meeste waarschuwingstechnologie kun je een notitie aan je waarschuwing toevoegen of deze sluiten. Maar soms zijn er stappen tussenin. Zoals het escaleren van de waarschuwing voor verder onderzoek, het aanmaken van een serviceticket of het opnieuw opstarten van een server. Zoek naar technische oplossingen waarmee je meer kunt doen dan alleen openen en sluiten.
Geautomatiseerde acties
Voor sommige waarschuwingen is wat je vervolgens moet doen ingewikkeld en vereist het inzicht van een ervaren ontwikkelaar. Voor anderen is de weg voorwaarts duidelijk.
Voor waarschuwingen met duidelijke vervolgstappen — diagnostische tests, corrigerende maatregelen — wil je een systeem dat deze reacties automatisch activeert als reactie op een waarschuwing die aan je vooraf gedefinieerde criteria voldoet.
Als een database bijvoorbeeld vertraagt, stel je misschien je waarschuwingssysteem in om automatisch over te schakelen naar een back-updatabase. Als de eerste stap bij het oplossen van probleem A altijd het opnieuw opstarten van een server is, heb je misschien je waarschuwingssysteem ingesteld om de server opnieuw op te starten en het resultaat te controleren voordat je midden in de nacht een waarschuwing verzendt.
Waarschuwingen aanpassen en classificeren
Als er waarschuwingen binnenkomen, moet je team deze kunnen organiseren, taggen met aanvullende informatie en filteren.
De levenscyclus van waarschuwingen traceren
In de postmortem van je incident wil je weten wanneer de waarschuwing binnenkwam, wie het heeft ontvangen, wanneer deze het heeft gezien en welke actie is ondernomen. Zorg ervoor dat elke technologie die je kiest deze gegevens automatisch bijhoudt. Het maakt het eenvoudiger om te begrijpen wat wel en niet werkt, je KPI's te verbeteren en incidenten uit het verleden te documenteren, zodat op afroep-teams hiervan kunnen leren en kunnen verwijzen naar die lessen voor toekomstige incidenten.
Beleidsregels voor waarschuwingen en meldingen
Als het hier de best practice is om intelligente drempels in te stellen voor je waarschuwingen en ervoor te zorgen dat kleine problemen je ontwikkelaars niet midden in hun REM-slaap wakker maken, heb je technologie nodig waarmee je waarschuwingen kunt onderdrukken, uitstellen en versnellen op basis van hun inhoud en timing.
Realtime monitoring voor je monitoring
Hoe weet je, op welk moment dan ook, dat je waarschuwingssystemen operationeel zijn?
Het antwoord — met de juiste technologie — zou moeten zijn dat de technologie zijn eigen monitoringsysteem heeft. Met OpsGenie doen we dit met een tool genaamd Heartbeats, die continu controleert of monitoringtools actief en verbonden zijn en aangepaste taken op schema worden voltooid. Als het signaal uitvalt, waarschuwt het systeem je onmiddellijk.
Een op afroep-rooster opstellen met Opsgenie
In deze tutorial leer je hoe je een op afroep-rooster instelt, overschrijfregels toepast, op afroep-meldingen configureert en meer, allemaal binnen Opsgenie.
Lees deze tutorialEen betere aanpak van op afroep-roosters
Een effectief op afroep-rooster is de sleutel tot het behoud van een gezonde op afroep-cultuur. Leer veelgemaakte fouten, soorten roulatieroosters en hoe je dit goed kunt doen.
Lees dit artikel