Close

Zarządzanie incydentami dla dynamicznych zespołów

Znaczenie procesu analizy post-mortem incydentu

Incydenty się zdarzają.

Tak po prostu. W miarę zwiększania skali naszych systemów i stopnia ich złożoności usterki stają się nieuniknione.

Incydenty stwarzają również okazję do nauki.

Są szansą na odkrycie luk w zabezpieczeniach systemu. Dają możliwość eliminowania powtarzających się incydentów i skrócenia czasu rozwiązywania. Dzięki incydentom zespoły mogą się spotkać i zaplanować, jak mogą usprawnić swoje działania następnym razem.

Najlepszym sposobem na podsumowanie zdarzeń, które miały miejsce w trakcie incydentu, i wyciągnięcie wniosków jest przeprowadzenie analizy post-mortem incydentu nazywanej również przeglądem po incydencie.

Analiza post-mortem umożliwia pracownikom wspólne omówienie szczegółów incydentu: dlaczego do niego doszło, jaki był jego wpływ, jakie działania zostały podjęte, aby go rozwiązać i złagodzić jego skutki oraz co należy zrobić, aby zapobiec ponownemu wystąpieniu incydentu.

Dzięki takim narzędziom, jak kontrola wersji, flagi funkcji czy ciągłe dostarczanie, skutki wielu incydentów można błyskawicznie „cofnąć”. Wiele incydentów wynika z błędu w zmianie wypchniętej do środowiska produkcyjnego, a cofnięcie takiej zmiany może przywrócić poprawne działanie aplikacji. Takie rozwiązanie jest korzystne dla każdego, ponieważ w mgnieniu oka można przywrócić sprawność usługi. Często jednak takie podejście nie pozwala zrozumieć zakresu ani przyczyny awarii. Temu właśnie służą analizy post-mortem.

Analiza post-mortem incydentu stanowi podstawę do wyciągania wniosków z incydentów i pozwala przekształcać problemy w postępy. Buduje również zaufanie w relacji z klientami, współpracownikami i użytkownikami końcowymi (czyli zasadniczo osobami poszkodowanymi w incydencie). Uświadamia im także, że Twój zespół pracuje nad ograniczeniem liczby i skutków incydentów w przyszłości.

Ilustracja cyklu analizy post-mortem

Analiza post-mortem stanowi ważny krok w cyklu życia zawsze dostępnej usługi. Wnioski z analizy post-mortem powinny trafić z powrotem bezpośrednio do procesu planowania. Dzięki temu krytyczne działania zaradcze wskazane we wnioskach z analizy post-mortem zostaną uwzględnione w nadchodzących pracach i dostosowane do innych planowanych prac i priorytetów.

Zalety analizy post-mortem incydentu

Może pojawić się pokusa, aby pominąć formalne spotkanie post-mortem dotyczące incydentu i sporządzenie raportu, zwłaszcza jeśli masz pewność co do przyczyny incydentu i jego rozwiązania.

W Twoim przypadku faktycznie może tak być. Jednak w zespole mogą być osoby, które nie dowiedziały się, co doprowadziło do incydentu, a Twoje wyjaśnienie może być dla nich ważne, aby mogły lepiej pracować na rzecz zespołu oraz Twoich klientów.

Dzięki zaangażowaniu ludzi w ustrukturyzowany i ukierunkowany na współpracę proces każdy będzie mógł dołożyć własne wnioski, co pozwoli wzmocnić zaufanie i odporność w zespole. Z kolei udokumentowanie incydentu oraz sposobu jego rozwiązania przez zespół może ułatwić świadome postępowanie w przypadku innych incydentów w przyszłości.

Możesz również zdecydować się na publikację wniosków z analizy post-mortem incydentu wśród klientów lub innych członków organizacji. Może to znacznie ułatwić odzyskanie zaufania osób, które być może nie były bezpośrednio zaangażowane w działania w trakcie incydentu. Udostępnienie szczegółów dotyczących problemu oraz działań podjętych w celu jego rozwiązania może wyeliminować podważanie w przyszłości kompetencji Twojego zespołu przez inne zespoły w organizacji, a zwłaszcza przez kierownictwo.

Być może partnerzy, klienci i użytkownicy końcowi będą również chcieli dowiedzieć się, co się stało, oraz jakie kroki podjęto, aby poprawić ich doświadczenie. Udostępnienie analizy post-mortem incydentu w publicznej witrynie internetowej może się nie sprawdzić w każdym przypadku, jednak zespoły marketingowy lub PR mogą pomóc dopracować komunikat tak, aby informacja dotarła do odbiorców we właściwy sposób i budowała wśród nich zaufanie do Twoich usług.

Analiza post-mortem incydentu — najlepsze praktyki

Podejście do analizy post-mortem incydentu jest równie ważne, jak lista kontrolna podjętych kroków. Incydentom może towarzyszyć duże napięcie. Kluczem do zaangażowania ludzi w proces i przygotowania ich na uporanie się z trudnym problemem jest zapewnienie im poczucia bezpieczeństwa psychicznego.

Wprowadzenie kultury eliminującej szukanie winnych

Były dyrektor ds. technicznych Etsy, John Allspaw, napisał przełomowy artykuł o „analizach post-mortem bez wskazywania winnych”. Dzięki takiemu podejściu do badania incydentów osoby zaangażowane w incydent mogą wyjaśnić swoje działania, ich skutki, a także opowiedzieć, czego i kiedy się dowiedzieli, bez obaw o ukaranie lub działania odwetowe.

Takie podejście jest kluczem do zachęcenia zespołów do otwartego dzielenia się informacjami i dotarcia do głównej przyczyny incydentu. Jeśli ktoś obawia się nagany, może zachowywać informacje dla siebie lub spróbować obarczyć winą kogoś innego. W takiej sytuacji ludzie przestają sobie ufać. Z kolei organizacja traci możliwość budowania odporności w swoich zespołach i systemach. Wiele zespołów, w tym w Atlassian oraz Google, stosuje założenia analizy post-mortem bez wskazywania winnych, aby uniknąć tych pułapek.

Konstruktywna krytyka zamiast wskazywania winnych

W trakcie spotkania w celu przeprowadzenia analizy post-mortem oraz późniejszego spisywania wniosków unikaj wypowiadania się w sposób, który sugerowałby wskazywanie konkretnych osób jako osobiście odpowiedzialnych za incydent. Skoncentruj się natomiast na działaniach, wynikach oraz skutkach.

Choć prowadzenie rozmowy na bezpiecznym i obiektywnym poziomie jest ważne, dla rozwiązania incydentu krytyczne znaczenie ma dodarcie do jego głównej przyczyny. W trakcie spotkania możesz zastosować technikę „5 × dlaczego”. Zacznij od upewnienia się, że wszyscy zgadzają się co do istoty problemu. Następnie zapytaj, dlaczego do niego doszło, a potem zadaj pytanie „dlaczego” w odniesieniu do udzielonej odpowiedzi. Powtórz ten schemat co najmniej pięciokrotnie, aby ujawnić wszystkie tkwiące głęboko czynniki, które przyczyniły się do powstania problemu. Upewnij się, że sala nie próbuje omijać niewygodnej prawdy lub dążyć do łatwego osiągnięcia konsensusu. Więcej informacji na temat techniki „5 × dlaczego” zawiera gra na stronie Porady strategiczne.

Zapoznanie się z każdą analizą post-mortem i włączenie płynących z niej wniosków do procesu

Nieprzeczytany raport z analizy post-mortem incydentu równie dobrze mógłby nigdy nie powstać. Po sporządzeniu wersji roboczej raportu z analizy post-mortem incydentu ważne jest, aby zapoznać się z nim w celu zamknięcia wszelkich nierozwiązanych problemów, wychwycenia pomysłów wartych rozważenia w przyszłości i sfinalizowania raportu. Można nawet pokusić się o stwierdzenie, że incydent nie jest tak naprawdę rozwiązany, dopóki nie przeprowadzi się takiego przeglądu.

Jak się do tego zabrać? Zaplanuj cykliczne spotkanie z zespołem inżynierskim (oraz dowolnymi osobami, które wyrażą chęć udziału, np. menedżerami ds. obsługi klientów lub opiekunami klientów) co najmniej raz w miesiącu, aby przejrzeć raporty z analiz post-mortem incydentów. Można również przejrzeć najnowsze raporty, a nawet starsze, aby podzielić się wnioskami, które obecnie wciąż są aktualne.

Plan skutecznej analizy post-mortem incydentu

Aby analizy post-mortem były skuteczne i prowadziły do budowania kultury ciągłego doskonalenia, trzeba wdrożyć prosty, powtarzalny proces, w którym każdy będzie mógł wziąć udział. Sposób jego wdrażania będzie zależał od panującej kultury i samego zespołu. W Atlassian wypracowaliśmy sposób, który sprawdza się w naszym przypadku. Więcej na jego temat znajdziesz w naszym Podręczniku zarządzania incydentami.

Poniżej przedstawiamy kilka porad ułatwiających rozpoczęcie:

Porada 1: Wyznacz próg

Incydenty w Twojej organizacji powinny mieć przypisane precyzyjne i wymierne poziomy ważności. Te poziomy ważności można wykorzystać do wyzwalania procesu analizy post-mortem. Przykładowo każdy incydent o poziomie ważności 1 lub wyższym może aktywować proces analizy post-mortem, podczas gdy w przypadku incydentów o niższym poziomie ważności analiza ta może być opcjonalna. Warto rozważyć umożliwienie kierownikom zespołów lub kadrze zarządzającej zawnioskowanie o analizę post-mortem incydentu, który nie spełnia tej wartości progowej.

Porada 2: Nie zwlekaj

Ważne jest, aby po wystąpieniu incydentu zrobić sobie przerwę i odpocząć. Nie należy jednak zwlekać z napisaniem analizy post-mortem incydentu. Jeśli będzie czekać się zbyt długo, ważne szczegóły mogą zostać utracone lub zapomniane. Najlepiej sporządzić wersję roboczą bezpośrednio po spotkaniu w sprawie przeglądu po incydencie przeprowadzanym w ciągu 24–48 godzin od momentu rozwiązania incydentu, jednak nie później niż po upływie pięciu dni roboczych.

Porada 3: Przypisz role i właścicieli

Na spotkaniu w trakcie przeglądu po incydencie nakreślisz szczegóły, które zostaną uwzględnione w analizie post-mortem incydentu. Dobrze jest powierzyć sporządzenie wersji roboczej analizy post-mortem konkretnej osobie, najlepiej takiej, która jest zaznajomiona z incydentem i posiada wiedzę techniczno-organizacyjną na poziomie niezbędnym do zrozumienia przyczyn i działań zaradczych.

Porada 4: Skorzystaj z szablonu

Szablon pomaga uniknąć pominięcia kluczowych szczegółów. Stanowi również doskonały sposób na uspójnienie analiz post-mortem.

Porada 5: Uwzględnij oś czasu

Oś czasu jest niezwykle pomocnym elementem dokumentacji dotyczącej incydentu. Często stanowi ona pierwszy element, na który spoglądają czytelnicy, próbując szybko zorientować się, co się stało. Staraj się przedstawiać informacje w sposób jak najbardziej czytelny i konkretny. Napisz na przykład „o 11:14 czasu pacyficznego”, a nie „około 11”. Dokładne określenie znaczników czasu umożliwia odwzorowanie łańcucha zdarzeń z dużą wiernością, co ułatwia identyfikację obszarów wymagających poprawy. Można na przykład ustalić, że czas, jaki upłynął od pojawienia się skutków incydentu do powiadomienia klientów był zbyt długi.

Ważne momenty, które należy uwzględnić:

  • Pierwszy alert lub pierwsze zgłoszenie
  • Pierwszy komunikat informacyjny (wewnętrzny i/lub zewnętrzny)
  • Czas zamieszczenia aktualizacji na stronie z informacją o stanie
  • Czas podjęcia wszelkich prób naprawy (cofnięcia kodu itp.)
  • Czas rozwiązania

Porada 6: Szczegóły, szczegóły i jeszcze raz szczegóły

Pomijanie szczegółów to prosta droga do tworzenia mało przydatnych i nieprecyzyjnych analiz post-mortem. Dodaj możliwie jak najwięcej szczegółów na temat przebiegu incydentu i podejmowanych w jego trakcie czynności. Zamiast powiedzieć, że „wówczas udostępniono informacje publicznie”, napisz raczej, że „zamieściliśmy początkowe komunikaty dla opinii publicznej na temat incydentu na naszej stronie z informacją o stanie i na koncie na Twitterze”.

W miarę możliwości uwzględnij łącza oraz imiona i nazwiska, łącza do zgłoszeń i aktualizacji statusu, łącza do dokumentów informujących o stanie incydentu oraz wykresów monitorowania. Z powodzeniem możesz dodać również zrzuty ekranu istotnych grafik lub pulpitów. Wykres z systemu monitorowania wskazujący wyraźnie godzinę rozpoczęcia i zakończenia incydentu (np. spadek liczby wniosków po przywróceniu prawidłowego działania) jest niezwykle cenny, ponieważ jest jednoznaczny. Dodatkowego znaczenia nabiera także w połączeniu z wykresami ilustrującymi, co działo się w tym czasie po stronie zaplecza, na przykład połączenia z bazą danych, stan łącza sieciowego, zużycie procesora, pamięci, operacji we/wy czy przepustowości w tym samym przedziale czasu.

Porada 7: Zarejestruj wskaźniki dotyczące incydentu

Rejestrując wskaźniki w trakcie analizy post-mortem incydentu, dodajesz do zgłoszeń i oceny ich wpływu twarde dane. Dzięki tym punktom danych możesz ustalić, czy Twój zespół zmierza we właściwym kierunku, ograniczając liczbę i istotność incydentów oraz związane z nimi przestoje. Konsekwentne rejestrowanie wskaźników pozwala również cofnąć się o krok i przyjrzeć trendom dotyczącym incydentów w czasie.

Wskaźniki, które warto uwzględnić w analizie post-mortem incydentu:

  • Czas przestoju wyrażony w minutach, aby można było ustalić zmiany tej wartości.
  • Poziom istotności incydentu, aby można było ustalić względną niezawodność systemów.
  • Średni czas rozwiązywania (MTTR), czyli średni czas, jaki zajmuje rozwiązanie incydentu od momentu jego zgłoszenia.

Na koniec najważniejsza porada. Nie pomijaj żadnych kroków. Kluczem do przeprowadzania analiz post-mortem incydentów w sposób, który pozwoli udoskonalić działania zespołu i systemów, jest opracowanie procesu i stosowanie go.

Użycie szablonu analizy post-mortem w celu usprawnienia procesu

Aby Twój zespół faktycznie budował kulturę w oparciu o przeglądy analiz post-mortem incydentów, zadbaj o możliwość łatwego rejestrowania informacji, planowania spotkań i publikowania raportu końcowego. W tym celu można użyć list kontrolnych i szablonów, które nadają się do ponownego wykorzystania. Powtarzalny proces zapewnia spójność i sprawia, że ludzie wiedzą, czego się spodziewać, więc podchodzą do niego z produktywnym nastawieniem.

Typowe pozycje na liście kontrolnej procesu analizy post-mortem incydentu:

Spotkania, które należy zorganizować:

  • Spotkanie dotyczące gromadzenia informacji
  • Przegląd raportu
  • Prezentacja raportu

Informacje, które należy zgromadzić z wyprzedzeniem:

  • Standardowe plany każdego spotkania
  • Uczestnicy, interesariusze i recenzenci
  • Standaryzacja sporządzania raportu z analizy post-mortem incydentu dzięki szablonowi
Następny
Template