Wypróbuj Compass bezpłatnie
Ulepsz środowisko programistyczne, skataloguj wszystkie usługi i popraw kondycję oprogramowania.
Artykuły
Samouczki
Interaktywne przewodniki
Jak Atlassian zapewnia gotowość operacyjną
Poznaj najlepsze praktyki w zakresie zapewniania gotowości operacyjnej, które zwiększają niezawodność, bezpieczeństwo i zgodność z przepisami
.png?cdnVersion=2667)
Warren Marusiak
Starszy propagator techniczny
Nawet w przypadku nowoczesnych modeli projektowych, takich jak DevOps, wielu projektom brakuje podstawowej procedury planowania krytycznego — zautomatyzowanego procesu oceny gotowości. Bez gotowości operacyjnej zespoły programistyczne nie wiedzą, czy środowisko jest gotowe na nowy system lub produkt. Jednak zapewnienie gotowości operacyjnej to nie coś, co robi się tuż przed wdrożeniem projektu. Ważne, aby włączyć związane z nią kwestie już na etapie opracowywania wymagań i specyfikacji projektu.
Czym jest gotowość operacyjna?

Gotowość operacyjna to zestaw wymagań, które zespoły programistyczne muszą spełnić, zanim ich usługa będzie gotowa do wdrożenia w środowisku produkcyjnym. Wymagania są ustalane przez zespół przed przystąpieniem do prac programistycznych i muszą zostać uwzględnione, zanim usługa będzie gotowa do wdrożenia produkcyjnego. Wymagania dotyczące gotowości operacyjnej wymuszają na zespołach myślenie o niezawodności, bezpieczeństwie i zgodności z przepisami od samego początku. Koncentrując się na tych wymaganiach z wyprzedzeniem, zespoły zapobiegają pojawianiu się problemów po stronie klientów, gdy usługa zostanie uruchomiona.
Zespoły muszą zdefiniować trzy elementy gotowości operacyjnej. Po pierwsze, muszą zdefiniować zbiór poziomów usługi. Po drugie, zbiór umów o gwarantowanym poziomie świadczenia usługi. Wreszcie muszą również zdefiniować zbiór wymagań związanych z gotowością operacyjną. Do każdego poziomu usługi przyporządkowana jest umowa o gwarantowanym poziomie świadczenia usługi i co najmniej jeden wymóg związany z gotowością operacyjną. Po utworzeniu nowej usługi przypisuje się do niej poziom usługi. Umowa o gwarantowanym poziomie świadczenia usługi powiązana z danym poziomem usługi wyznacza wymagania dotyczące dostępności, niezawodności, utraty danych i przywracania usługi. Usługa musi spełniać wszystkie wymagania dotyczące gotowości operacyjnej, zanim będzie mogła zostać uruchomiona w środowisku produkcyjnym.

materiały pokrewne
DevOps — o co chodzi?

materiały pokrewne
Jak stosować DevOps
Poniżej znajduje się opis procesu zapewniania gotowości operacyjnej stosowanego przez Atlassian, który ułatwi zespołom opracowanie własnych procesów tego rodzaju. Jednak każda organizacja będzie musiała dostosować własne procedury zapewniania gotowości operacyjnej do rodzaju wykonywanych prac oraz środowiska.
Definiowanie poziomów usług
Poziomy usług są sposobem grupowania usług w łatwe do interpretowania zbiory. Do każdego poziomu usług są przypisane umowy o gwarantowanym poziomie usług i zbiór wymagań związanych z gotowością operacyjną. Umowa SLA oraz wymagania związane z gotowością operacyjną bazują na rodzajach scenariuszy użycia właściwych dla usług na danym poziomie. Poziomy usług można potraktować jako zbiory cechujące się określonym stopniem ważności. Wszystkie usługi należące do danego zbioru są równie ważne i powinny być traktowane tak samo. Wymagania dotyczące zbioru usług o znaczeniu krytycznym zorientowanych na klienta będą prawdopodobnie bardziej rygorystyczne niż w przypadku zbioru usług trzeciorzędnych, które dotyczą jedynie pracowników.
Następujące przykładowe poziomy usług są oparte na poziomach usług stosowanych w Atlassian:
- Poziom 0: komponenty krytyczne, na których wszystko się opiera
- Poziom 1: produkty i usługi zorientowane na klienta
- Poziom 2: systemy biznesowe
- Poziom 3: narzędzia wewnętrzne
Poziom 0: krytyczna infrastruktura podstawowa
Usługa poziomu 0 zapewnia infrastrukturę pomocniczą i komponenty usług współdzielonych, na których opiera się działanie usług poziomu 1. Komponenty uznaje się za krytyczne, jeśli spełniają jeden z następujących warunków:
- Są wymagane, aby usługa poziomu 1 działała lub była dostępna dla użytkowników.
- Są wymagane, aby klient mógł zarejestrować się w celu skorzystania z usługi poziomu 1.
- Są wymagane, aby personel mógł obsługiwać usługę poziomu 1 lub realizować w niej kluczowe funkcje operacyjne, takie jak:
- uruchamianie, zatrzymywanie lub ponowne uruchamianie usługi;
- wdrażanie, uaktualnianie, wycofywanie lub wprowadzanie poprawek;
- ustalanie aktualnego stanu (działa, nie działa, działa w ograniczonym stopniu).
Poziom 1: usługi podstawowe
Usługa poziomu 1 zapewnia funkcję istotną dla firmy, klienta lub produktu. Są to usługi zorientowane na klienta lub wewnętrzne usługi o znaczeniu krytycznym dla działalności. Gdy usługa nie działa poprawnie lub jest niedostępna, firma traci pieniądze, nie jest w stanie realizować krytycznych funkcji biznesowych i/lub klient traci dostęp do podstawowej funkcjonalności. Usługi poziomu 1 wymagają zespołu wsparcia 24/7, mają wysokie wartości kluczowych wskaźników w umowach SLA i obowiązuje w stosunku do nich zbiór rygorystycznych wymagań związanych z wdrożeniem w środowisku produkcyjnym.
Poziom 2: usługi inne niż podstawowe
Usługa poziomu 2 jest usługą zorientowaną na klienta, która nie jest częścią podstawowej funkcjonalności. Usługi poziomu 2 zapewniają wartość dodaną lub dodatkowe środowisko użytkownika, które można uznać za opcjonalne lub „mile widziane”.
Usługami poziomu 2 są usługi publiczne głównie z domeny marketingowej, takie jak publiczne witryny internetowe firm. Nie oferują one klientom usług bezpośrednich klasy biznesowej ani usług wewnętrznych wykorzystywanych przez zespoły do realizacji obowiązków wynikających z ich ról. Są to np. narzędzia do współpracy czy monitorowania zgłoszeń.
Zespół wsparcia 24/7 w przypadku usług poziomu 2 jest opcjonalny, ich wskaźniki SLA są niższe, a liczba wymagań związanych z wdrożeniem produkcyjnym mniejsza.
Poziom 3: funkcje tylko wewnętrzne lub niekrytyczne
Usługa poziomu 3 jest związana z obsługą funkcjonalności wewnętrznych firmy lub jest eksperymentalną usługą w wersji beta. Do tej klasy usług należą również usługi wdrożone w danej chwili jako eksperymentalnie u użytkowników korzystających z wczesnego dostępu, którzy zostali poinformowani o możliwych problemach wynikających z korzystania z usługi na etapie wersji beta. Usługi tego poziomu mają niskie wskaźniki SLA, a wsparcie tych usług odbywa się wyłącznie „w miarę możliwości”.
Definiowanie umów SLA dla poziomów usług

Umowy o gwarantowanym poziomie świadczenia usług (SLA) określają docelowe wskaźniki dostępności i niezawodności, a także czasy reakcji na zdarzenia zakłócające działanie usług. Do każdego poziomu usług przypisana jest taka umowa. Poniższa tabela zawiera przykładowe umowy o gwarantowanym poziomie świadczenia usług dla każdego z czterech poziomów usług zdefiniowanych w tym artykule.
Umowy SLA według poziomu świadczenia usługi | Poziom 0 | Poziom 1 | Poziom 2 | Poziom 3 |
---|---|---|---|---|
Nazwa metryki | Poziom 0 Poziomy świadczenia usługi | |||
Poziom 0 Poziom 0 | Poziom 1 Poziom 1 | Poziom 2 Poziom 2 | Poziom 3 Poziom 3 | |
Dostępność | Poziom 0 99,99 | Poziom 1 99,95 | Poziom 2 99,90 | Poziom 3 99,00 |
Niezawodność | Poziom 0 99,99 | Poziom 1 99,95 | Poziom 2 99,90 | Poziom 3 99,00 |
Utrata danych (RPO) | Poziom 0 <1 godzina | Poziom 1 <1 godzina | Poziom 2 <8 godzin | Poziom 3 <24 godziny |
Przywrócenie usługi (RTO) | Poziom 0 <4 godziny | Poziom 1 <6 godzin | Poziom 2 <24 godziny | Poziom 3 <72 godziny |
Dostępność | | | |
---|---|---|---|
Poziom 0 | Poziom 1 | Poziom 2 | Poziom 3 |
Maksymalnie 1 minuta przestoju tygodniowo. Maksymalnie 4 minuty przestoju miesięcznie. | Maksymalnie 5 minut przestoju tygodniowo. Maksymalnie 20 minut przestoju miesięcznie. | Maksymalnie 10 minut przestoju tygodniowo. Maksymalnie 40 minut przestoju miesięcznie. | Maksymalnie 1 godzina i 40 minut przestoju tygodniowo. Maksymalnie 6 godzin i 40 minut przestoju miesięcznie. |
Niezawodność | | | |
---|---|---|---|
Poziom 0 | Poziom 1 | Poziom 2 | Poziom 3 |
Maksymalnie 1 nieudanie żądanie na 10 000 | Maksymalnie 1 nieudanie żądanie na 2000 | Maksymalnie 1 nieudanie żądanie na 1000 | Maksymalnie 1 nieudanie żądanie na 100 |
Utrata danych (RPO)
Ta liczba określa maksymalną ilość danych, która zostanie utracona w usłudze w przypadku jej awarii. W przypadku awarii usługi poziomu 0 utrata będzie obejmować dane z niespełna jednej godziny.
Przywrócenie usługi (RTO)
Ta wartość określa maksymalny czas do przywrócenia prawidłowego działania usługi. Usługa poziomu 0 zostanie w pełni przywrócona w mniej niż cztery godziny.
Definiowanie kontroli gotowości operacyjnej
Kontrola gotowości operacyjnej jest testem jakości usługi w konkretnym zakresie, który może dać wynik pozytywny lub negatywny. Jest ona związana raczej z dostępnością, niezawodnością i odpornością usługi, a nie jej funkcjonalnością. Zespoły muszą zdefiniować zbiór kontroli gotowości operacyjnej stosowanych do oceny gotowości usługi do wdrożenia w środowisku produkcyjnym. Te kontrole nie są uniwersalne. Niektóre kontrole będą odpowiednie wyłącznie w przypadku określonych poziomów usług. Wymagania w stosunku do usługi poziomu 0 będą bardziej rygorystyczne niż wymagania przewidziane dla usługi poziomu 3. Poniżej przedstawiono przykładowe kontrole gotowości operacyjnej, które można wykorzystać jako punkt wyjścia.

Kopie zapasowe
W przypadku awarii usługi konieczne może być skorzystanie z kopii zapasowych w celu przywrócenia danych do konkretnego punktu w czasie. Ważne jest regularne wykonywanie kopii zapasowych danych, wdrożenie procesu przywracania i rutynowe testowanie zarówno tych kopii, jak i procesu. Kopie zapasowe oraz proces ich przywracania powinny być niezawodne i skuteczne. Dokumentacja i testy mają tutaj kluczowe znaczenie.
Definicja ukończenia
- Wdrożenie procesu tworzenia i przywracania kopii zapasowych
- Udokumentowanie i przetestowanie procesu tworzenia i przywracania kopii zapasowych
- Regularne testowanie procesu tworzenia i przywracania kopii zapasowych
Zarządzanie potencjałem wykonawczym
Należy jasno określić, możliwości, jakie usługa zapewnia klientom. W szczególności należy zidentyfikować wszelkie ograniczenia, jakie usługa nakłada na klientów. Należy także wdrożyć testy wydajności, aby się upewnić, że parametry działania usługi mieszczą się w oczekiwanych limitach.
Poniżej znajduje się kilka przykładów danych, które można uwzględnić w testach i udostępnić klientom.
- Usługa jest ograniczona do X wymagań na sekundę
- Usługa gwarantuje czas reakcji wynoszący X
- Funkcja X usługi jest lub nie jest replikowana między regionami
- Klient nie powinien podejmować działań X
- przeciążać usługi
- przekazywać plików większych niż X
Definicja ukończenia
- Zidentyfikowane i udokumentowane limitów usługi
- Przeprowadzanie testów wydajności w celu sprawdzenia, czy limity są przestrzegane
Świadomość klienta
Możliwość zapewnienia wsparcia jest ważnym aspektem jakości usługi, tuż obok jej niezawodności i użyteczności. Zespoły muszą opracować procesy wsparcia dla usługi lub nowej funkcji usługi jeszcze przed jej wdrożeniem produkcyjnym. Możliwość zapewnienia wsparcia może obejmować proces obsługi klienta, proces kontroli zmian, wykazy procedur wsparcia oraz inne elementy ukierunkowane na wsparcie.
Proces obsługi klienta
Programiści muszą zrozumieć, co dzieje się, gdy klienci kontaktują się z zespołem wsparcia w celu uzyskania pomocy, a także znać swoje obowiązki wynikające z procesu zapewniania wsparcia. Może to uwzględniać uczestniczenie w rotacji dyżurów domowych lub otrzymywanie próśb o zajęcie się konkretnymi problemami w środowisku produkcyjnym, jeśli się pojawią.
Proces kontroli zmian
Nie wszystkie zmiany wpływają na klientów w ten sam sposób. Niektóre zmiany są niezauważalne dla klientów. Przykładowo poprawka drobnego błędu. Z kolei przystosowanie się do innych zmian, takich jak całkowite przepisanie interfejsu API, wymaga od klienta dużego wysiłku. Kontrola zmian pomaga ocenić, jak duży wpływ na klienta będą mieć zmiany.
Wykazy procedur wsparcia
Wykazy procedur zawierają ogólny przegląd sposobu działania usługi, a także szczegółowe objaśnienia problemów, które mogą wystąpić, z uwzględnieniem sposobów ich rozwiązania. Ważne jest regularne aktualizowanie wykazów procedur i weryfikowanie, czy udokumentowane procedury wsparcia są dokładne, gdy usługa będzie zmieniać się z czasem.
Definicja ukończenia
- Dokumentacja zawierająca odpowiedzi na większość pytań, które zespół wsparcia może zadać podczas analizowania zgłoszenia
- Działający proces kontroli zmian
Odzyskiwanie awaryjne
W przypadku poważnej awarii dochodzi do utraty strefy dostępności. Usługi muszą być na tyle odporne, aby umożliwić normalną pracę w razie awarii strefy dostępności. Odzyskiwanie awaryjne składa się z dwóch elementów: po pierwsze opracowania i udokumentowania procesu odzyskiwania awaryjnego, a po drugie — przeprowadzania ciągłych testów udokumentowanego procesu. Odzyskiwanie awaryjne wymaga regularnych testów. Należy testować możliwość poradzenia sobie z awarią strefy dostępności przy użyciu udokumentowanego planu odzyskiwania awaryjnego.
Definicja ukończenia
- Udokumentowany plan odzyskiwania awaryjnego
- Przetestowany plan odzyskiwania awaryjnego
- Zaplanowane cykliczne testy planu odzyskiwania awaryjnego
Dzienniki
Dzienniki są przydatne z wielu powodów. Pozwalają na przykład wykrywać anomalie, przeprowadzać analizy w trakcie lub po zakończeniu awarii usług, a także śledzić złośliwe działania przez połączenie powiązanych zdarzeń w różnych usługach w oparciu o unikatowe identyfikatory. Dostępnych jest wiele rodzajów dzienników. Oto kilka przykładów niezwykle przydatnych dzienników, które powinny być rejestrowane w przypadku większości usług:
- Dzienniki dostępu
- Dzienniki błędów
Definicja ukończenia
- Generowanie odpowiednich dzienników
- Przechowywanie dzienników w miejscu, gdzie można je łatwo znaleźć i przeszukać
Kontrole dostępu logicznego
Kontrole dostępu logicznego koncentrują się na sposobie zarządzania dostępem użytkowników wewnętrznych i zewnętrznych, dostępem międzyusługowym oraz szyfrowaniem danych. Jak usługa będzie zapobiegać nieuprawnionemu dostępowi do funkcjonalności oraz danych? Jak są definiowane, weryfikowane, aktualizowane i wycofywane uprawnienia użytkowników? Czy zastosowane środki kontroli zapewniają wystarczającą ochronę danych wrażliwych?
Użytkownicy wewnętrzni
Oto kilka ważnych pytań, na które trzeba odpowiedzieć: Jak są uwierzytelniani użytkownicy wewnętrzni? Jak przyznaje się dostęp / przeprowadza aprowizację? Jak cofa się dostęp? Jak działa eskalacja uprawnień? Jaki proces regularnych przeglądów i audytów dostępu jest stosowany?
Użytkownicy zewnętrzni
Jak jest obsługiwane uwierzytelnianie klientów? Jak przyznaje się dostęp / przeprowadza aprowizację? Jak cofa się dostęp? Jak działa eskalacja uprawnień? Jaki proces regularnych przeglądów i audytów dostępu jest stosowany?
Dostęp międzyusługowy
Zasada jest podobna, jak w przypadku użytkowników wewnętrznych i zewnętrznych. Zespoły muszą określić, jak będzie się odbywać uwierzytelnianie między usługami. Mogą na przykład skonfigurować uwierzytelnianie OAuth 2.0.
Szyfrowanie
Najprawdopodobniej zespoły będą chciały szyfrować swoje magazynowane i przesyłane dane. Wyjaśnij, jak usługa zarządza szyfrowaniem danych. Jak zespół zarządza kluczami? Jakie są zasady dotyczące rotacji kluczy?
Definicja ukończenia
- Udokumentowane, wdrożone i przetestowane kontrole dostępu logicznego w przypadku użytkowników wewnętrznych i zewnętrznych, a także dostępu międzyusługowego
- Szyfrowanie danych magazynowanych
- Szyfrowanie danych przesyłanych
- Wdrożone i przetestowane szyfrowanie
Wersje
Wdrożenie nowej wersji usługi nie może zakłócać ruchu klientów w stopniu wykraczającym poza zakresy przewidziane w umowach SLA usług. Wszystkie zmiany muszą być sprawdzane przez innych członków zespołu, testowane i wdrażane za pośrednictwem pipeline'ów CI/CD. Po każdym wdrożeniu należy zweryfikować jego poprawność i sprawdzić, czy nie doprowadziło do uszkodzenia jakiejś funkcjonalności. Preferowana jest automatyczna weryfikacja powdrożeniowa. Należy wprowadzić wiele środowisk, na przykład testowe, przejściowe, przedprodukcyjne i produkcyjne, aby umożliwić testowanie wdrożeń.
Definicja ukończenia
- Usługa jest wdrażana bez przestojów
- Istnieją środowiska, w których usługa musi zostać wdrożona i przetestowana przed uruchomieniem w środowisku produkcyjnym
Lista kontrolna dotycząca bezpieczeństwa
Lista kontrolna dotycząca bezpieczeństwa jest zbiorem praktyk i standardów dotyczących tworzenia i utrzymywania bezpiecznej infrastruktury oraz bezpiecznego oprogramowania. Te standardy ograniczają prawdopodobieństwo naruszenia prywatności i bezpieczeństwa danych, co z kolei przekłada się na zwiększenie zaufania klientów. Zespoły muszą opracować listę kontrolną dotyczącą bezpieczeństwa, która będzie uwzględniać charakter tworzonej usługi. Oto kilka przykładowych wymagań:
Definicja ukończenia
- Dowody na brak otwartych krytycznych lub poważnych luk w zabezpieczeniach usługi
- Zastosowanie szyfrowania podczas magazynowania danych we wszystkich magazynach danych
- Potwierdzenie, że usługa nie zezwala na niezabezpieczone połączenia HTTP
Wskaźniki usługi
Wskaźniki usługi dostarczają podstawowych informacji o kondycji usługi oraz danych diagnostycznych na jej temat, dając zespołom możliwość monitorowania usługi i reagowania na incydenty. Zacznij od zdefiniowania zbioru wskaźników monitorowanych w przypadku każdej usługi. Następnie utwórz pulpit zawierający te wskaźniki w narzędziu, takim jak Datadog lub New Relic. Zgłaszaj alarmy, gdy wskaźnik przekroczy zadane limity, i twórz zgłoszenia o problemach w razie wystąpienia alarmu.
Definicja ukończenia
Oto kilka przykładów elementów do pomiaru:
- Opóźnienie: czas potrzebny na obsługę żądania
- Ruch: obciążenie usługi przez użytkowników zewnętrznych
- Błędy: liczba błędów lub awarii dotykających użytkowników
- Nasycenie: w jakim stopniu usługa jest zajęta i jakie obciążenie może jeszcze wytrzymać
- Użycie zasobów bazowych: procesor, pamięć, dysk
- Wewnętrzne elementy aplikacji, takie jak kolejki, cykle czasowe i przepływ
- Wykorzystanie i podstawowa funkcjonalność usługi: aktywni użytkownicy, liczba działań na minutę
Odporność usługi
Wymagania dotyczące odporności usługi określają, czy dana usługa jest w stanie uporać się ze zmianami obciążenia i/lub awariami różnych komponentów. Odporna usługa najprawdopodobniej będzie podlegać automatycznemu skalowaniu i będzie odporna na awarię pojedynczego węzła.
Automatyczne skalowanie
Jeśli usługa ma możliwość automatycznego skalowania, upewnij się, że jest ono poprawnie skonfigurowane i przetestowane. Określ wskaźnik, który będzie wyzwalał automatyczne skalowanie, i przetestuj, czy działa ono prawidłowo. Jeśli na przykład usługa wymaga przechowywania danych na dysku, można monitorować procent wolnego miejsca na dyskach i aktywować automatyczne skalowanie przez dodanie pamięci masowej, gdy procent wolnego miejsca spadnie poniżej wartości progowej.
Testowanie pod kątem awarii pojedynczego węzła
Najlepiej, jeśli usługi są w stanie poradzić sobie z awariami pojedynczego węzła. Jeśli jeden węzeł przestanie działań, usługa powinna nadal funkcjonować, choćby z obniżoną wydajnością. Należy przetestować taką możliwość, wyłączając co najmniej jeden węzeł i obserwując działanie systemu. Oczekuje się, że usługa będzie działać pomimo awarii jednego węzła. Środowisko, w którym będzie przeprowadzana symulacja awarii jednego węzła musi być monitorowane.
Definicja ukończenia
- Potwierdzenie wdrożenia i przetestowania automatycznego skalowania
- Potwierdzenie działania środowiska produkcyjnego i/lub przejściowego na wielu węzłach
- Potwierdzenie odporności usługi na awarię jednego węzła
Wsparcie
Wsparcie jest procesem obsługi usługi po jej wydaniu. Zespoły muszą przygotować wykazy procedur, narzędzia operacyjne oraz rotacje dyżurów domowych przed wdrożeniem produkcyjnym, aby w razie problemów z usługami dostępny był proces umożliwiający ich naprawę.
Wykazy procedur
Wykazy procedur dostarczają osobom reagującym pełniącym dyżury domowe kontekst oraz instrukcje potrzebne do szybkiego zareagowania na incydent i podjęcia działań zaradczych.
Narzędzia operacyjne
Dostarczanie usługi na odpowiednim poziomie oznacza, że istnieje zespół pełniący dyżury domowe i wdrożono narzędzia operacyjne, takie jak Opsgenie, aby powiadamiać osoby pełniące dyżury domowe o problemach z usługą.
Dyżury domowe
W przypadku usług poziomów 2 i 3 — wymagany jest zespół pełniący dyżury domowe.
W przypadku usług poziomów 1 i 0 — wymagany jest zespół pełniący dyżury domowe 24/7.
Definicja ukończenia
- Wykazy procedur sporządzone i łatwe do wyszukania przez członków zespołu wsparcia
- Narzędzie operacyjne skonfigurowane i przetestowane
- Wprowadzone rotacje dyżurów domowych i skonfigurowane powiadamianie na wypadek problemów
Definiowanie kontroli gotowości operacyjnej dla poziomów usług
Gdy zespół zdefiniuje zbiór wymagań dotyczących gotowości operacyjnej, musi określić, które wymagania dotyczące gotowości operacyjnej będą właściwe dla poszczególnych poziomów usług. Niektóre wymagania dotyczące gotowości operacyjnej dotyczą wszystkich poziomów usług, podczas gdy inne mogą obowiązywać tylko w przypadku usług poziomu 0. Zacznij od najniższego poziomu usług i stopniowo dodawaj wymagania do wyższych poziomów. W przypadku usług poziomu 3 może obowiązywać jedynie kilka podstawowych wymagań dotyczących gotowości operacyjnej, podczas gdy w przypadku usług poziomu 0 obowiązywać będą wszystkie tego rodzaju wymagania.
Kontrole gotowości operacyjnej zalecane w przypadku poziomu 3
- Kopie zapasowe
- Dzienniki
- Wersje
- Lista kontrolna dotycząca bezpieczeństwa
- Wskaźniki usługi
- Wsparcie
W odniesieniu do usług poziomu 3 przyjmuje się najbardziej podstawowe wymagania dotyczące gotowości operacyjnej.
Kontrole gotowości operacyjnej zalecane w przypadku poziomów 2 i 1
- Kopie zapasowe
- Odzyskiwanie awaryjne
- Dzienniki
- Wersje
- Lista kontrolna dotycząca bezpieczeństwa
- Wskaźniki usługi
- Odporność usługi
- Wsparcie
Do usług poziomów 2 i 1 dodano wymagania dotyczące gotowości operacyjnej związane z odzyskiwaniem awaryjnym i odpornością usługi. Ważne, aby pamiętać, że wymagania dotyczące gotowości operacyjnej dla usług poziomów 2 i 1 mogą się różnić. Różnice w wymaganiach nie są jednak obowiązkowe. Jeśli w przypadku danego poziomu usług stwierdzi się potrzebę zastosowania dodatkowego wymogu dotyczącego gotowości operacyjnej, należy go dodać. Poziomy 2 i 1 można zróżnicować, w zależności od potrzeb zespołu.
Kontrole gotowości operacyjnej zalecane w przypadku poziomu 0
- Kopie zapasowe
- Zarządzanie potencjałem wykonawczym
- Świadomość klienta
- Odzyskiwanie awaryjne
- Dzienniki
- Kontrole dostępu logicznego
- Wersje
- Lista kontrolna dotycząca bezpieczeństwa
- Wskaźniki usługi
- Odporność usługi
- Wsparcie
Do usług poziomu 0 dodaj zarządzanie wydajnością, świadomość klienta oraz kontrole dostępu logicznego.
Jak wykorzystujemy gotowość operacyjną?
Po zdefiniowaniu poziomów usług, umów o gwarantowanym poziomie świadczenia usług i wymagań dotyczących gotowości operacyjnej każda nowa usługa jest przypisywana do poziomu usług, a zespoły muszą spełniać wymagania dotyczące gotowości operacyjnej w trakcie opracowywania usługi. Dzięki zastosowaniu takiego procesu wszystkie usługi należące do danego poziomu spełniają jednakowe standardy, zanim trafią do środowiska produkcyjnego.
Wymagania dotyczące gotowości operacyjnej nie są statyczne i można je regularnie aktualizować w miarę zmian wymagań zespołu. Dzięki elementom prac można zapewnić zgodność istniejących usług z nowymi wymaganiami. Można również powstrzymać się od aktualizacji dotychczasowych usług zgodnie z nowymi wymaganiami, w zależności od potrzeb biznesowych.
Wskaźnik gotowości produkcyjnej
Przydatnym rozwiązaniem jest automatyzacja weryfikacji wymagań dotyczących gotowości produkcyjnej. Zautomatyzowana weryfikacja upraszcza tworzenie listy kontrolnej dla każdej usługi zawierającej wymagania dotyczące gotowości produkcyjnej takiej usługi. Spełniane kolejno wymagania dotyczące gotowości produkcyjnej mogą być odnotowywane automatycznie. Gdy jakiś wymóg dotyczący gotowości produkcyjnej nie będzie spełniony, wskaźnik gotowości zmieni kolor na czerwony. Po spełnieniu wszystkich wymagań dotyczących gotowości produkcyjnej wskaźnik będzie miał kolor zielony.
Umieść wskaźnik gotowości produkcyjnej na głównej stronie docelowej konkretnej usługi oraz w innych przydatnych lokalizacjach. Przykładem dobrej lokalizacji do zamieszczenia wskaźnika gotowości produkcyjnej byłaby karta wyników aplikacji Compass. Dodanie wskaźnika gotowości produkcyjnej do karty wyników aplikacji Compass ułatwia wyszukanie tej informacji i zapewnia podstawę do egzekwowania najlepszych praktyk i identyfikacji obszarów wymagających poprawy.
Podsumowując…
Zespoły potrzebują czasu na opracowanie procesu zapewniania gotowości operacyjnej. Zaczynają od zdefiniowania poziomów usług i umów o gwarantowanym poziomie świadczenia usług. Następnie zespoły definiują zbiór wymagań dotyczących gotowości operacyjnej i określają, które wymagania mają zastosowanie do poszczególnych poziomów usług. Dzięki zastosowaniu podstawowych ram postępowania kwestię spełnienia wymagań dotyczących gotowości operacyjnej można uwzględnić w standardowym procesie opracowywania każdej nowej usługi, aby zespoły miały pewność, że ich usługa jest gotowa do wdrożenia w środowisku produkcyjnym, gdy wskaźnik gotowości produkcyjnej będzie miał zielony kolor.
Dodatkowe łącza
Poniżej zamieszczono łącza do artykułów zawierających dodatkowe informacje na tematy omówione w tym artykule.
Udostępnij ten artykuł
Następny temat
Zalecane lektury
Dodaj te zasoby do zakładek, aby dowiedzieć się więcej na temat rodzajów zespołów DevOps lub otrzymywać aktualności na temat metodyki DevOps w Atlassian.

Społeczność DevOps

Ścieżka szkoleniowa DevOps
