Podejście Atlassian do odporności
Dbanie o to, aby produkty chmurowe oraz wykorzystywane przez nie systemy i usługi były dostępne i odporne na wpływ negatywnych lub nieplanowanych zdarzeń, jest dla nas równie ważne, jak dla Ciebie. Aby mieć pewność, że Twoje produkty będą dostępne wtedy, gdy ich potrzebujesz, wdrożyliśmy technologię, ludzi i programy w celu zapewnienia odporności biznesowej.
Tworzenie odpornych produktów
Atlassian obsługuje produkty chmurowe w ramach modelu wspólnej odpowiedzialności, co oznacza, że osiągnięcie niezawodności opiera się na partnerstwie między Tobą a Atlassian. Według tego modelu jesteśmy odpowiedzialni za zapewnienie wysokiej dostępności, niezawodności i możliwości odzyskania naszej infrastruktury, produktów oraz usług. Twoim obowiązkiem jest wdrożenie programu odzyskiwania po awarii i planu zapewniania ciągłości działalności biznesowej, który umożliwi Ci prowadzenie działalności nawet w przypadku nieplanowanego zdarzenia.
WYSOKA DOSTĘPNOŚĆ
Korzystamy z Amazon Web Services (AWS) jako dostawcy usług w chmurze i ich centrów danych o wysokiej dostępności zlokalizowanych w wielu regionach na całym świecie. Każdy region AWS jest odrębną lokalizacją geograficzną z wieloma odizolowanymi i fizycznie oddzielonymi od siebie obszarami zwanymi strefami dostępności (Availability Zone, AZ).
Każda strefa dostępności jest zaprojektowana tak, aby była odizolowana od awarii w innych strefach, a jednocześnie zapewniała niedrogą łączność sieciową o małych opóźnieniach z innymi strefami AZ należącymi do tego samego regionu. Wysoka dostępność wynikająca z zastosowania wielu stref stanowi pierwszą linię obrony przed zagrożeniami geograficznymi oraz środowiskowymi i oznacza, że usługi działające w oparciu o wdrożenia w wielu strefach AZ powinny być odporne na awarię w pojedynczej strefie AZ.
Więcej informacji zawiera strona Praktyki operacyjne i architektura.
Niezawodność
Atlassian dokłada wszelkich starań, aby wszystkie nasze zespoły dostarczały niezawodne usługi i produkty. Aby osiągnąć ten cel, nasz program odzyskiwania danych po awarii (DR) koncentruje się na wdrażaniu procesów, zasad i technologii, które zapewniają dostępność, niezawodność i możliwość szybkiego przywrócenia krytycznych systemów i usług IT w przypadku awarii.
Oprócz możliwości wymienionych powyżej wdrożyliśmy monitorowanie i powiadamianie oraz przeprowadzamy testy odzyskiwania awaryjnego.
Monitorowanie i alerty
Nieustannie monitorujemy wiele różnych wskaźników, aby wykrywać potencjalne problemy już na wczesnym etapie. Na podstawie tych wskaźników konfigurowane są alerty używane do powiadamiania inżynierów ds. niezawodności lokalizacji (SRE) lub odpowiednich zespołów inżynierów produktów o naruszeniu wartości progowych, aby mogli podjąć natychmiastowe działania zgodnie z naszym procesem reagowania na incydenty.
Inżynierowie SRE odgrywają również kluczową rolę w programie odzyskiwania awaryjnego, współpracując z naszym zespołem ds. ryzyka i zgodności w celu zachowania zgodności z obowiązującymi przepisami. W każdym z naszych zespołów znajduje się również specjalista ds. odzyskiwania awaryjnego, który nadzoruje i pomaga zarządzać aspektami odzyskiwania awaryjnego właściwymi dla danego zespołu.
Testowanie odzyskiwania awaryjnego
Nasze testy odzyskiwania awaryjnego obejmują aspekty proceduralne i technologiczne, w tym odpowiednie udokumentowanie procesu i testy przełączania awaryjnego w naszych systemach. Rodzaje testów są różne — od standardowych teoretycznych ćwiczeń symulacyjnych po pełniejsze testy pracy w trybie awaryjnym na poziomie stref dostępności lub regionalnym. Niezależnie od stopnia złożoności testu uważnie rejestrujemy i dokumentujemy jego wyniki, analizujemy i wskazujemy możliwe obszary wymagające poprawy, a następnie doprowadzamy do ich zamknięcia, wykorzystując zgłoszenia Jira. W ten sposób zapewniamy ciągłe doskonalenie całego procesu.
Zapewnianie niezawodnych usług
Dowodem naszego zaangażowania w niezawodność są nasze umowy o gwarantowanym poziomie świadczenia usług (SLA) określające ilość czasu dostępności, którą musimy każdego miesiąca zagwarantować naszym klientom.
Ponadto stosujemy również inne wskaźniki, takie jak docelowy czas odzyskiwania (RTO) i docelowy punkt odzyskiwania (RPO). W przypadku nieplanowanego zdarzenia mającego wpływ na niezawodność produktów chmurowych Atlassian będziemy dążyć do przywrócenia ich normalnej pracy zgodnie z następującymi wartościami RPO i RTO:
RPO | 1 godzina |
---|---|
RTO | 6 godzin |
Aby zobaczyć dostępność naszych produktów i usług, odwiedź naszą stronę Statuspage.
Możliwość odzyskania
Nasza wysoko dostępna architektura (HA) umożliwia nam przywrócenie działania usług w przypadku większości zakłóceń, które mogą wpłynąć na dostępność naszych produktów chmurowych. Istnieją jednak pewne scenariusze — takie jak uszkodzenie danych lub usunięcie danych w obrębie naszej infrastruktury — które wymagają od nas korzystania z bardziej tradycyjnych mechanizmów odzyskiwania i tworzenia kopii zapasowych danych.
Aby sprostać tym scenariuszom, w Atlassian realizujemy kompleksowy program tworzenia kopii zapasowych. Program ten obejmuje nasze systemy wewnętrzne i produkty chmurowe, w których mechanizmy tworzenia kopii zapasowych zaprojektowano zgodnie z wymaganiami odzyskiwania systemu. Wdrożyliśmy procesy i narzędzia umożliwiające ciągłe testowanie kopii zapasowych.
Te kopie zapasowe nie są jednak używane do przywracania destrukcyjnych zmian zainicjowanych przez klienta, takich jak pola nadpisane za pomocą skryptów albo usunięte zgłoszenia, projekty lub witryny. W celu uniknięcia utraty danych zalecamy regularne wykonywanie kopii zapasowych. Więcej informacji o tworzeniu kopii zapasowych można znaleźć w naszej dokumentacji.
Minimalizowanie wpływu nieplanowanych zdarzeń
Zespół ds. odporności biznesowej Atlassian dba o to, aby nasze podstawowe funkcje pozostały sprawne w trakcie i po zakłóceniach w działalności, stosując niezawodne praktyki zapewniające ciągłość biznesową (Business Continuity, BC).
Program BC został zaprojektowany tak, aby współdziałać z programem DR, a nasze działania opierają się na rocznym cyklu życia dostosowanym do standardów branżowych. W ramach naszego podejścia przynajmniej raz w roku przeprowadzamy analizy wpływu na działalność (BIA), co stanowi podstawę budowania skutecznych strategii ciągłości niezbędnych do ochrony naszych pracowników, procesów i technologii. Wyniki ocen BIA są bezpośrednio wykorzystywane w opracowywaniu strategii odzyskiwania awaryjnego i zapewniania ciągłości działalności biznesowej. Dzięki temu nasze kluczowe usługi biznesowe mają opracowane kompleksowe i skuteczne plany DR i BC, które pomagają w odzyskiwaniu naszej kluczowej technologii oraz wspomagają stojących za nią ludzi oraz procesy.
Nasze podejście do zapewniania ciągłości działalności biznesowej
Stale dążymy do budowania zdolności i zapewnienia odporności naszej działalności biznesowej i strategii odzyskiwania poprzez trzy uzupełniające się podejścia:
- Ćwiczenia: Mają na celu weryfikowanie istniejących planów. Mogą to być ćwiczenia symulacyjne, funkcjonalne lub pełnowymiarowe, dające każdemu, kto odgrywa rolę w planie, możliwość przećwiczenia swoich obowiązków w przypadku zakłócenia działalności. Pozwalają one interesariuszom na szczegółowy przegląd odpowiednich planów zapewnienia ciągłości i postępowanie zgodnie z procedurami tak jak w przypadku prawdziwej sytuacji kryzysowej.
- Gry wojenne: Pozwalają nam testować naszą reakcję na istniejące lub potencjalne zagrożenie. Choć stosujemy podejście do planowania uwzględniające wszystkie zagrożenia, gry wojenne pozwalają nam przetestować nasze podejście do konkretnych, wysoce prawdopodobnych lub mających znaczący wpływ scenariuszy i upewnić się, że nasze strategie reagowania i odzyskiwania są skuteczne.
- Testy: mogą mieć pozytywny lub negatywny wynik i pozwalają nam obiektywnie zmierzyć, czy nasze plany są skuteczne. To podejście stosujemy najczęściej, gdy chcemy przetestować nasze strategie odzyskiwania danych po awarii, aby można było zmierzyć naszą skuteczność i nią zarządzać.