Artykuły
Samouczki
Interaktywne przewodniki
Jak YBIYRI zapewnia ciągłą dostępność usług
Jak organizacje mogą tworzyć kulturę DevOps, która wspiera ciągłą dostępność usług
Krishna Sai
Kierownik ds. inżynierii, IT Solutions
Charakter zawsze dostępnych usług wymaga ciągłej reakcji ze strony zespołów Agile i DevOps. Zespoły te nie mogą ograniczać się do reagowania na pojedynczy incydent, lecz powinny dostosować strukturę zespołu, wartości i narzędzia w taki sposób, aby doskonałość operacyjna stała się podstawową kompetencją.
Wyzwania związane z zawsze dostępnymi usługami
Od momentu pojawienia się 14 lat temu YBIYRI nadal stanowi wyzwanie dla współczesnych zespołów programistycznych w kontekście spełnienia obietnicy dotyczącej skrócenia czasu rozwiązania i skalowania najlepszych praktyk operacyjnych. Niestety, wiele zespołów nadal cyzeluje swoje umiejętności, harmonogramy i procesy z myślą o reagowaniu na incydenty zamiast skupić się na długofalowym sukcesie.
Zespoły często przechodzą na kulturę YBIYRI bez odpowiedniego przygotowania, a pierwszy poważny incydent często okazuje sygnałem alarmowym. Jednak reakcja często odbywa się zgodnie z przekonaniem: „nie możemy dopuścić, by incydenty się powtórzyły”. W tym celu wprowadza się bramki bezpieczeństwa, punkty kontrolne i inne nadmiarowe procedury. Ponadto częścią rytuałów zespołu są tablice zmian i cotygodniowe recenzje wydania. Każda zmiana jest dokładnie sprawdzana, aby zapobiec przestojom. Chociaż często powoduje to zmniejszenie liczby incydentów, może też spowolnić prędkość procesu programowania i zahamować tok tworzenia produktu. A to może oznaczać utratę przewagi nad konkurencją, gdyż bardziej elastyczni konkurenci mogą poruszać się znacznie szybciej.
Najlepsze praktyki w zakresie zawsze dostępnych usług
materiały pokrewne
Zacznij korzystać za darmo
poznaj rozwiązanie
Uproszczone zarządzanie incydentami i reagowanie
Gotowość operacyjna
Jedną z kluczowych zmian dla zespołów YBIYRI jest uwzględnienie gotowości operacyjnej w ramach cykli planowania i realizacji sprintów. Gotowość operacyjna może obejmować:
- Podczas programowania: tworzenie odpowiednich, wysokiej jakości alertów w kodzie, które minimalizują średni czas wykrycia (MTTD) i średni czas wyizolowania (MTTI)
- Tworzenie monitorów — w tym w stosownych przypadkach monitorów syntetycznych — w celu zadbania o to, aby powiązane usługi działały poprawnie
- Przeznaczenie czasu na stworzenie wymaganych pulpitów nawigacyjnych i przeszkolenie wszystkich członków zespołu w zakresie korzystania z nich
- Zadbanie o to, aby członkowie zespołu pełniący dyżury domowe nie mieli innych zadań podczas sprintu
- Zaplanowanie „gier wojennych” dla usługi w celu zadbania o to, aby wycofania działały poprawnie
- Zaplanowanie przepustowość w sprintach, aby zakończyć czynności z poprzednich przeglądów incydentów
- Zadbanie o rozwiązanie problemów z bezpieczeństwem (uaktualnienia/łatki/zmiany poświadczeń) i problemów operacyjnych w ramach cykli sprintu
Wszystkie te kwestie wymagają od właścicieli produktów zrozumienia celów poziomu usług (SLO) i odpowiedniej ich priorytetyzacji, wraz z zobowiązaniami biznesowymi związanymi z tworzeniem funkcji i funkcjonalnością.
Wykorzystanie wartości incydentów
Wykorzystanie wartości incydentów dla dobra zespołu może pozwolić stworzyć solidne podstawy do wdrożenia YBIYRI w zespole. Wartości incydentów pomagają zespołowi w reagowaniu na incydenty. Wartości te zapewniają solidne podstawy dla zrównoważonej kultury wokół prac programistycznych i obsługi zawsze dostępnych usług. Wartości incydentów mają następujące cele:
- Zapewnienie wskazówek ułatwiających podejmowanie autonomicznych decyzji przez osoby i zespoły podczas zdarzeń i analiz
- Tworzenie spójnej kultury zespołowej, która obejmuje sposób identyfikowania incydentów, zarządzania nimi i wyciągania z nich wniosków
- Ustalenie z zespołami, jakie nastawienie powinny prezentować na każdym etapie identyfikacji zdarzeń, ich usuwania i refleksji nad nimi
Porady strategiczne dotyczące wartości incydentów stanowią doskonały przewodnik pomagający zidentyfikować wartości zespołu podczas reagowania na incydenty i stworzyć plan pozwalający konsekwentnie realizować te wartości. Może on być pomocny, jeśli dany zespół zmaga się z problemami dotyczącymi skoncentrowania na klientach, spójności zespołu, wspólnego rozumienia, poziomów usług lub mandatów serwisowych w programie Health Monitor.
W Atlassian stosujemy następujące wartości incydentów na poziomie zespołu:
Tworzona z sercem i harmonią
Wykrywanie
Atlassian wie wcześniej niż nasi klienci
Zrównoważone usługi obejmują skuteczne monitorowanie i powiadamianie w celu wykrywania zdarzeń, zanim zrobią to klienci. Optymalne monitorowanie pozwala ostrzegać o problemach, zanim przekształcą się w zdarzenia.
Działajcie zespołowo
Reagowanie
Eskalacja, eskalacja, eskalacja
Nie mamy nic przeciwko pobudce z powodu zdarzenia, jeśli okaże się, że nie było to potrzebne. Jednak pojawią się pretensje, jeśli nie zostaniemy obudzeni z powodu zdarzenia w momencie, w którym było to konieczne. Być może nie zawsze będziemy umieli odpowiedzieć na wszystkie pytania, więc „nie wahaj się, tylko eskaluj”.
Nie gramy klientom na nerwach
Przywracanie
Wpadki się zdarzają, trzeba po nich szybko posprzątać
Nasi klienci nie dbają o to, dlaczego usługa nie działa. Chcą, aby jak najszybciej zaczęła poprawnie funkcjonować. Nigdy nie wahaj się szybko rozwiązywać zdarzenia. Dzięki temu będziemy mogli zminimalizować jego skutki wobec naszych klientów.
Otwarta firma, bez nonsensów
Wyciąganie wniosków
Zawsze bez dociekania winy
Incydenty są nieodłącznym elementem zawsze dostępnych usług. Ulepszamy usługi, czyniąc zespoły odpowiedzialnymi, a nie obarczając je winą.
Be the change you seek
Doskonalenie
Nie dopuszczaj do ponownego wystąpienia tego samego zdarzenia
Zidentyfikuj główną przyczynę, abyśmy mogli zapobiec ponownemu wystąpieniu incydentu. Zadeklaruj wprowadzenie konkretnych zmian w ustalonym terminie.
Narzędzia dla firmy zapewniające zawsze dostępne usługi
Oprócz skutecznych praktyk i kultury firmy zapewniające zawsze dostępne usługi potrzebują także odpowiednich narzędzi. Zespoły z dojrzałymi praktykami DevOps wykorzystują narzędzia ułatwiające planowanie projektów Agile i sprinty, CI/CD, automatyzację oraz zaawansowane funkcje monitorowania i alarmowania.
Nowoczesne narzędzie do zarządzania incydentami, takie jak Opsgenie, pozwala na otrzymywanie ważnych alertów dostarczanych do preferowanych kanałów powiadomień przy możliwie najmniejszych opóźnieniach. Daje ono także możliwość grupowania alertów w celu ich filtrowania, zwłaszcza gdy kilka alertów zostanie wygenerowanych z powodu pojedynczego błędu lub awarii. Narzędzie do zarządzania alertami musi bezproblemowo integrować się z narzędziami Twojego zespołu (np. zarządzanie dziennikami, raportowanie awarii), tak aby naturalnie wpasowało się rytm prac programistycznych i operacyjnych zespołu.
Każdy zespół jest inny, jeśli chodzi o przepływy pracy, zasady i interesariuszy. Narzędzie do zarządzania alertami musi oferować możliwość dostosowywania harmonogramów dyżurów domowych i reguł przekierowywania do obsługi alertów w oparciu o ich źródło i zawartość. Często alerty mogą wymagać eskalacji do incydentu. Narzędzie powinno zarządzać incydentem bez zakłóceń, automatycznie tworząc menedżera incydentów. Pozwala to zarządzać incydentem jak w pokoju narad, ze wszystkimi przydatnymi informacjami oraz integracją z narzędziami komunikacji i współpracy. Wreszcie, narzędzie musi umożliwiać zaawansowane raportowanie i analizy, aby uzyskać wgląd w obszary sukcesu i zidentyfikować możliwości poprawy. Powinno ujawniać źródła alertów, skuteczność zespołu pod względem reagowania oraz to, jak rozproszone są obciążenia dyżurów domowych.
Podsumowując…
Współczesny konsument już nie tylko oczekuje, ale wręcz potrzebuje zawsze dostępnych usług. Wiele firm przyjmuje kulturę YBIYRI, aby rozwinąć zwinność niezbędną do zaspokojenia tych wymagań. Problemem jest to, że wiele firm nie dysponuje odpowiednimi narzędziami i niezbędnymi strukturami/praktykami zespołowymi, aby dotrzymać kroku potrzebnym zmianom.
Jeśli planujesz przejść na kulturę YBIYRI DevOps w swoim zespole, proponujemy kilka kroków, które możesz wykonać:
- Przygotuj swój zespół do przejęcia kontroli nad wszystkimi fazami prac programistycznych i operacyjnych aplikacji lub usługi
- Ustal z właścicielami produktów priorytety dotyczące SLO w planowaniu sprintu
- Wykorzystaj zestaw wartości incydentów, które będą kierowały zachowaniem Twojego zespołu w reakcji na incydent
- Wzmocnij swój zespół dzięki nowoczesnemu narzędziu do zarządzania alertami i incydentami, takim jak Opsgenie, które jest niezawodne, szybkie i elastyczne
Pobierz nasz bezpłatny podręcznik dotyczący zarządzania incydentami i zacznij korzystać z Opsgenie za darmo.
Udostępnij ten artykuł
Następny temat
Zalecane lektury
Dodaj te zasoby do zakładek, aby dowiedzieć się więcej na temat rodzajów zespołów DevOps lub otrzymywać aktualności na temat metodyki DevOps w Atlassian.