Hoe Atlassian veerkrachtig aanpakt
Het is voor ons net zo belangrijk als voor jou om je cloudproducten en de onderliggende systemen en services waar deze gebruik van maken beschikbaar te houden en te zorgen dat deze bestand zijn tegen de gevolgen van negatieve of ongeplande gebeurtenissen. Om ervoor te zorgen dat je producten er zijn wanneer je ze nodig hebt, hebben we technologie, mensen en programma's geïmplementeerd om bedrijven veerkrachtig te maken.
Veerkrachtige producten bouwen
Atlassian beheert onze cloudproducten volgens een model voor gedeelde verantwoordelijkheid, wat betekent dat betrouwbaarheid een partnerschap is tussen jou en Atlassian. Volgens dit model zijn wij verantwoordelijk voor de hoge beschikbaarheid, betrouwbaarheid en herstelbaarheid van onze infrastructuur, producten en services. Het is jouw verantwoordelijkheid om een disaster recovery-programma en een bedrijfscontinuïteitsplan te implementeren die ervoor zorgen dat je in staat bent je bedrijf draaiende te houden in geval van een ongeplande gebeurtenis.
HOGE BESCHIKBAARHEID
We gebruiken Amazon Web Services (AWS) als cloudserviceprovider en de zeer beschikbare datacenterfaciliteiten in meerdere regio's wereldwijd. Elke AWS-regio is een afzonderlijke geografische locatie met meerdere, geïsoleerde en fysiek gescheiden groepen datacenters die bekend staan als Availability Zones (AZ's).
Elke 'availability zone' is ontworpen om geïsoleerd te zijn van storingen in andere AZ's en om goedkope netwerkconnectiviteit met lage latentie te bieden aan andere AZ's in dezelfde regio. Deze hoge beschikbaarheid in meerdere zones is de eerste verdedigingslinie tegen geografische en milieurisico's en houdt in dat services die draaien in implementaties met meerdere AZ's, bestand zijn tegen storingen in een AZ.
Lees de pagina over architectuur en operationele werkwijzen voor meer informatie.
Betrouwbaarheid
Atlassian werkt hard om ervoor te zorgen dat al onze teams betrouwbare services en producten leveren. Om dit effectief te doen, is ons disaster recovery-programma (DR) gericht op de implementatie van processen, beleid en technologieën die ervoor zorgen dat kritieke IT-systemen en -services beschikbaar en betrouwbaar zijn en snel kunnen worden hersteld in geval van een uitval.
Naast de hierboven genoemde mogelijkheden hebben we monitoring en waarschuwingen geïmplementeerd en disaster recovery-tests uitgevoerd.
Monitoren en waarschuwen
We bewaken continu een breed scala aan statistieken om potentiële problemen vroegtijdig op te sporen. Op basis van die statistieken worden waarschuwingen geconfigureerd om Site Reliability Engineers (SRE's) of de relevante teams van producttechnici op de hoogte te brengen wanneer de drempelwaarden worden overschreden zodat er snel actie ondernomen kan worden via ons proces voor incidentrespons.
SRE's spelen ook een belangrijke rol in het DR-programma door ervoor te zorgen dat ons risico- en nalevingsteam op één lijn zitten met de nalevingsframeworks. In elk van onze teams zit ook een DR-champion om de aspecten van disaster recovery voor dat team te overzien en te helpen bij het beheren ervan.
DR-tests (disaster recovery)
Onze DR-tests hebben betrekking op proces- en technologische aspecten, waaronder relevante procesdocumentatie en failovertests op onze systemen. Deze tests variëren van standaard tabletop-simulatieoefeningen tot full-scope failovertests van beschikbaarheidszones of -regio's. We zijn ijverig in het vastleggen en documenteren van de testresultaten, onafhankelijk van de complexiteit van de tests, om mogelijke verbeteringen vast te stellen en te analyseren, om ze vervolgens af te handelen met behulp van Jira-tickets om doorlopende verbetering van het algemene proces te garanderen.
Zorgen voor betrouwbare services
We bewijzen onze toewijding aan betrouwbaarheid door middel van onze Service Level Agreements (SLA's), die bepalen hoeveel uptime we elke maand aan onze klanten moeten garanderen.
Daarnaast gebruiken we ook andere metingen, zoals hersteltijddoelstellingen (RTO's) en herstelpuntdoelstellingen (RPO's). In het geval van een ongeplande gebeurtenis die gevolgen heeft voor de betrouwbaarheid van de cloudproducten van Atlassian, streeft Atlassian ernaar de normale werking van zijn cloudproducten te herstellen in overeenstemming met de volgende RPO en RTO:
RPO | 1 uur |
---|---|
RTO | 6 uur |
Ga naar onze Statuspage om de beschikbaarheid van onze producten en services te bekijken.
Herstelbaarheid
Met onze architectuur met hoge beschikbaarheid kunnen we de service herstellen in het geval van de meeste verstoringen die van invloed kunnen zijn op de beschikbaarheid van onze cloudproducten. Er zijn echter enkele scenario's waarbij we meer traditionele mechanismen voor back-up en herstel van gegevens moeten gebruiken, zoals beschadiging of verwijdering van gegevens binnen onze infrastructuur.
Bij Atlassian hebben we een uitgebreid back-upprogramma om deze scenario's aan te pakken. Dit programma omvat onze interne systemen en onze cloudproducten. Onze back-upmaatregelen zijn ontworpen in overeenstemming met de vereisten voor systeemherstel. We beschikken over processen en tools waarmee back-ups voortdurend kunnen worden getest.
We gebruiken deze back-ups echter niet om door klanten geïnitieerde vernietigende veranderingen, zoals velden die zijn overschreven met scripts of verwijderde issues, projecten of sites, ongedaan te maken. We raden aan om regelmatig back-ups te maken, zodat gegevensverlies kan worden voorkomen. Meer informatie over het maken van back-ups vind je in onze documentatie.
De impact van ongeplande gebeurtenissen tot een minimum beperken
Het Business Resilience-team van Atlassian zorgt ervoor dat onze eigen essentiële functies operationeel blijven tijdens en na een bedrijfsonderbreking door middel van goede praktijken op het gebied van bedrijfscontinuïteit (BC).
Het BC-programma is ontworpen om te integreren met ons DR-programma en onze activiteiten zijn gebaseerd op een jaarlijkse levenscyclus die is afgestemd op de industriestandaarden. Als onderdeel van onze aanpak voeren we minstens jaarlijks ons BIA-proces (bedrijfsimpactanalyse) uit, dat de basis vormt voor de ontwikkeling van effectieve continuïteitsstrategieën die nodig zijn om onze mensen, processen en technologieën te beschermen. De resultaten van deze BIA's helpen ons rechtstreeks de strategie voor DR- en BC-inspanningen te bepalen. Als gevolg hiervan kunnen onze kritieke bedrijfsdiensten op holistische wijze effectieve DR- en BC-plannen ontwikkelen die zowel helpen bij het herstel van onze essentiële technologie als bij de mensen en processen die erachter zitten.
Onze aanpak omtrent bedrijfscontinuïteit
We streven er voortdurend naar om mogelijkheden en garanties te creëren voor onze zakelijke veerkracht- en herstelstrategieën door middel van drie complementaire benaderingen:
- Oefeningen: probeer bestaande plannen te herzien, of het nu via fysieke, functionele of volledige oefeningen zijn, en geef iedereen die een rol speelt in het plan de kans om zijn verantwoordelijkheden uit te oefenen in geval van een bedrijfsonderbreking. Dit stelt belanghebbenden in staat om relevante continuïteitsplannen in detail te bekijken en de procedures te volgen zoals ze dat zouden doen in een echte crisis.
- Oorlogsspelletjes: voer een stresstest uit om onze reactie op een bestaande of mogelijke dreiging te testen. Hoewel we bij de planning een benadering hanteren waarbij we rekening houden met alle risico's, kunnen we met oorlogsspelletjes onze aanpak testen op specifieke zeer waarschijnlijke of impactvolle scenario's om er zeker van te zijn dat onze respons- en herstelstrategieën robuust zijn.
- Tests: kunnen ofwel slagen of mislukken en stellen ons in staat objectief te meten of onze plannen effectief zijn. Dit is onze voornaamste aanpak wanneer we onze disaster recovery-strategieën willen testen, zodat onze effectiviteit kan worden gemeten en beheerd.