Artikelen
Tutorials
Interactieve handleidingen
Zo maakt YBIYRI services mogelijk die altijd beschikbaar zijn
Hoe organisaties een DevOps-cultuur kunnen bouwen die always-on services ondersteunt
Krishna Sai
Hoofd Engineering, IT-oplossingen
De aard van always-on services vereist continue respons van agile- en DevOps-teams. Deze teams moeten verder denken dan reageren op één incident en de teamstructuur, waarden en tools op elkaar afstemmen om ervoor te zorgen dat operationele uitmuntendheid een kerncompetentie wordt.
Uitdagingen van always-on services
Sinds het 14 jaar geleden voor het eerst werd besproken, daagt YBIYRI moderne development teams nog steeds uit hun belofte waar te maken om de time-to-resolution te versnellen en operationele best practices op te schalen. Helaas richten veel teams hun vaardigheden, schema's en processen nog steeds in als reactie op een incident, in plaats van als een basis voor succes op de lange termijn.
Teams stappen vaak onvoldoende voorbereid over op een YBIYRI-cultuur en het eerste grote incident is dan vaak een wake-up call. De reactie wordt echter vaak veroorzaakt door het gevoel, “we kunnen incidenten niet nog een keer laten gebeuren”. In een poging dit te bereiken, worden beveiligingspoorten, controlepunten en andere procedurele overhead geïntroduceerd. Ook worden change review boards en wekelijkse release-reviews onderdeel van de vaste teamrituelen. Elke verandering wordt zorgvuldig onder de loep genomen in een poging om uitval te voorkomen. Hoewel dit vaak resulteert in minder incidenten, kan het de ontwikkelingssnelheid en het momentum van het product vertragen. Dit kan een competitieve zwakte worden, omdat flexibelere concurrenten veel sneller kunnen schakelen.
Best practices voor teams voor always-on services
gerelateerd materiaal
Gratis aan de slag
oplossing bekijken
Stroomlijn incidentmanagement en -respons
Operationele gereedheid
Eén van de meest cruciale veranderingen voor YBIYRI-teams is operationele gereedheid toevoegen als onderdeel van de sprintplanning- en uitvoeringscycli. Operationele gereedheid kan bestaan uit:
- Tijdens de ontwikkeling geschikte, hoogwaardige waarschuwingen in de code inbouwen die de mean time to detect (MTTD) en de mean time to isolate (MTTI) minimaliseren
- Monitoring inbouwen -- inclusief, indien van toepassing, synthetische monitoring -- om ervoor te zorgen dat afhankelijke services zoals verwacht werken
- Tijd reserveren om vereiste dashboards te bouwen en alle teamleden te trainen om ze te gebruiken
- Ervoor zorgen dat teamleden op afroep tijdens een sprint geen andere ontwikkelingsverplichtingen hebben
- 'War games' plannen voor de service om ervoor te zorgen dat rollbacks zoals verwacht werken
- Bandbreedte plannen in sprints om acties van eerdere incidentbeoordelingen te sluiten
- Beveiliging (upgrades/patches/lopende aanmeldgegevens) en operationele problemen behandelen als onderdeel van sprintcycli
Dit vereist allemaal dat producteigenaren de service level objectives (SLO) begrijpen en deze op de juiste manier prioriteren, samen met zakelijke verplichtingen met betrekking tot de ontwikkeling en functionaliteit van functies.
Omarm incidentwaarden
Het omarmen van incidentwaarden op teamniveau kan een sterke basis vormen voor het YBIYRI-traject van een team. De waarden van incidenten begeleiden je team bij incidentrespons. Deze waarden zorgen ervoor dat er een sterke basis is voor een duurzame cultuur rond het bouwen en beheren van een always-on service. Incidentwaarden zijn bedoeld om:
- Autonome besluitvorming door mensen en teams te bereiken tijdens incidenten en postmortems
- Een consistente teamcultuur op te bouwen waarin je incidenten kunt identificeren, beheren en ervan kunt leren
- Teams af te stemmen in welke houding ze aan moeten nemen voor ieder gedeelte van het identificeren, oplossen en terugkijken op incidenten
Een draaiboek voor incidentwaarden is een uitstekend hulpmiddel om teamwaarden te identificeren tijdens incidentrespons en een plan op te stellen om die waarden consequent na te leven. Het kan helpen als je team moeite heeft met klantgerichtheid, teamcohesie, gezamenlijk begrip, serviceniveaus of service-opdrachten op je Health Monitor.
Bij Atlassian omarmen we de volgende incidentwaarden op teamniveau:
Bouw met je hart en in balans
Detecteren
Atlassian is eerder op de hoogte dan klanten
Een uitgebalanceerde service bevat effectieve monitoring en waarschuwingen om incidenten te detecteren voordat onze klanten dit doen. De beste monitoring waarschuwt ons voor problemen voordat dit incidenten worden.
Speel als een team
Reageren
Escaleren, escaleren, escaleren
We vinden het niet erg op een incident gewezen te worden, ook al zijn we niet nodig. Maar we vinden het wel erg als we er niet op worden gewezen als dat wel had gemoeten. We hebben misschien niet altijd een antwoord, dus 'aarzel niet om te escaleren'.
Houd de klant niet voor de gek
Herstellen
Als er problemen optreden, los je ze snel op
Het maakt onze klanten niet uit waarom een service niet kan worden geleverd, ze willen gewoon dat we de service zo snel mogelijk herstellen. Herstel een incident altijd snel, zodat we de impact voor onze klanten kunnen beperken.
Open bedrijf, geen flauwekul
Leren
Altijd zonder een schuldige aan te wijzen
Incidenten zijn onderdeel van always-on services. We verbeteren services door teams ter verantwoording te roepen, niet door schuldigen aan te wijzen.
Wees de verandering waar je naar op zoek bent
Verbeteren
Een incident mag nooit opnieuw voorkomen
Achterhaal de oorzaak, zodat we kunnen voorkomen dat het incident zich opnieuw voordoet. Doe je best om specifieke wijzigingen op specifieke datums te leveren.
Tools voor een always-on onderneming
Naast de juiste procedures en cultuur hebben bedrijven met always-on services de juiste tools nodig. Teams met volwassen DevOps-werkwijzen gebruiken tools voor flexibele projectplanning en sprints, CI/CD, automatisering en geavanceerde monitorings- en waarschuwingsmogelijkheden.
Een moderne tool voor incidentmanagement, zoals Opsgenie, zorgt ervoor dat je belangrijke waarschuwingen ontvangt op je meldingskanaal/kanalen naar keuze met de minste vertraging. Bovendien kunnen waarschuwingen worden gegroepeerd om verschillende waarschuwingen te filteren, vooral wanneer meerdere waarschuwingen worden gegenereerd door één fout of storing. Een tool voor waarschuwingsbeheer moet naadloos aansluiten op de tools van je team (zoals logbeheer, crashrapporten), zodat deze op een natuurlijke manier in het ritme voor development en operations van je team past.
Elk team verschilt op het vlak van workflows, beleid en stakeholders. De tool voor waarschuwingsbeheer moet schema's en routeringsregels op afroep aan kunnen passen om waarschuwingen te verwerken op basis van hun bron en payload. Vaak kunnen de waarschuwingen een escalatie van een incident garanderen. De tool moet een incident zonder afleidingen beheren door automatisch een incidentmanager aan te maken. Hierdoor kun je het incident beheren als een commandocentrum met alle informatie tot je beschikking, met integratie van communicatie- en samenwerkingstools. Tot slot moet de tool geavanceerde rapporten en analyses bieden om inzicht te krijgen in dingen die goed gaan en verbeterpunten. De tool toont de waarschuwingsbronnen, de responsprestaties van het team en hoe workloads op afroep worden verspreid.
Conclusie...
Het verlangen van de moderne consument naar always-on services is minder een wens en meer een behoefte geworden. Veel bedrijven hanteren een YBIYRI-cultuur om de flexibiliteit te ontwikkelen die nodig is om aan deze eisen te voldoen. De uitdaging is dat veel bedrijven niet zijn uitgerust met de juiste tools en noodzakelijke teamstructuren/procedures om deze snelheid te behouden.
Als je van plan bent om over te stappen naar een YBIYRI DevOps-cultuur voor je team, volgen hier een paar stappen die je moet volgen:
- Bereid je team voor op alle fasen voor development en operations van de toepassing of service
- Zorg voor afstemming met producteigenaren, zodat SLO's prioriteit krijgen bij het plannen van sprints
- Omarm een aantal incidentwaarden die het gedrag van je team bepalen als reactie op een incident
- Bied je team de mogelijkheden met een moderne tool voor waarschuwings- en incidentmanagement, zoals Opsgenie, die betrouwbaar, snel en flexibel is
Download ons gratis handboek incidentmanagement en ga gratis aan de slag met Opsgenie.
Deel dit artikel
Volgend onderwerp
Aanbevolen artikelen
Bookmark deze resources voor meer informatie over soorten DevOps-teams of voor voortdurende updates over DevOps bij Atlassian.