Zarządzanie incydentami dla dynamicznych zespołów
Publiczne i prywatne analizy post-mortem incydentów
Określanie właściwego momentu na udostępnienie publicznego wyjaśnienia po incydencie
Był czas, gdy niemal każdy incydent IT ograniczał się do czterech ścian organizacji, w której do niego doszło. Jednak obecnie, w dobie usług internetowych i infrastruktury chmurowej, rzadko tak się dzieje. Incydenty technologiczne stanowią autentyczny problem dotykający wielu użytkowników, co doprowadziło do poważnej zmiany w sposobie reagowania na incydenty, wyciągania z nich wniosków i komunikowania się w ich trakcie.
Weźmy na przykład analizę post-mortem incydentu (często nazywaną również „przeglądem po incydencie” lub z angielskiego „PIR”).
Analiza post-mortem umożliwia pracownikom wspólne omówienie szczegółów incydentu: dlaczego do niego doszło, jaki był jego wpływ, jakie działania zostały podjęte, aby go rozwiązać i złagodzić jego skutki oraz co należy zrobić, aby zapobiec ponownemu wystąpieniu incydentu.
Analizę post-mortem można podzielić na dwa odrębne artefakty: spotkanie, na którym omawiany jest incydent, oraz raport z analizy post-mortem powstały jako wynik tego spotkania.
Te dwa rodzaje aktywności, czyli spotkanie oraz raport, często są zamiennie określane mianem „analizy post-mortem”. Posługując się tym pojęciem, ludzie mogą mieć na myśli jeden z tych elementów lub obydwa.
Być może partnerzy, klienci i użytkownicy końcowi będą również chcieli dowiedzieć się, co się stało, oraz jakie kroki podjęto, aby poprawić ich doświadczenie. Udostępnienie analizy post-mortem incydentu w publicznej witrynie internetowej może się nie sprawdzić w każdym przypadku, jednak zespoły marketingowy lub PR mogą pomóc dopracować komunikat tak, aby informacja dotarła do odbiorców we właściwy sposób i budowała wśród nich zaufanie do Twoich usług.
Kiedy przeprowadzać analizę post-mortem incydentu?
W Atlassian zawsze przeprowadzamy wewnętrzne analizy post-mortem incydentów o poziomach ważności 1 i 2 („poważnych”). W przypadku mniej istotnych incydentów te analizy są opcjonalne. Zachęcamy ludzi do stosowania procesu analizy post-mortem w każdej sytuacji, w której może się on okazać przydatny.
Kto przeprowadza analizę?
Zazwyczaj za przeprowadzenie analizy post-mortem odpowiada zespół dostarczający usługę, która spowodowała incydent. Zespół wyznacza jedną osobę, która odpowiada za przeprowadzenie analizy post-mortem, i tej osobie przypisuje się odpowiednie zgłoszenie. Staje się ona „właścicielem analizy post-mortem” i zajmuje się nią od sporządzenia wersji roboczej i uzyskania zatwierdzenia po publikację. Incydenty na poziomie infrastruktury oraz platformy często wpływają na wiele obszarów działalności firmy, przez co ich analizy post-mortem są bardziej złożone i wymagają większego wysiłku. Dlatego czasami przypisujemy specjalnego menedżera programu jako właściciela analiz post-mortem dotyczących infrastruktury lub platformy, ponieważ taka osoba lepiej funkcjonuje na styku różnych grup i jest w stanie zapewnić wymagany wkład pracy.
Udostępnianie wewnętrznego raportu z analizy post-mortem
Po zatwierdzeniu analizy post-mortem dochodzimy do wniosku, że możemy zwiększyć jej wartość, udostępniając wyciągnięte wnioski całej firmie. W tym celu w Atlassian mamy zautomatyzowaną czynność, która tworzy wersję roboczą wpisu na blogu w Confluence po zatwierdzeniu zgłoszenia dotyczącego analizy post-mortem.
Utworzenie publicznego raportu z analizy post-mortem incydentu
Często dobrym rozwiązaniem jest opublikowanie powszechnie dostępnej wersji analizy post-mortem po incydencie, choć jest to rzadziej spotykane.
Zwykle ma to miejsce w przypadku usług udostępnianych klientom na dużą skalę, których awaria dotyka wielu użytkowników. Częściej te zespoły publikują okrojoną wersję raportu wewnętrznego, zamiast wersji pełnej. Ważne, aby pamiętać o usunięciu wszelkich danych wrażliwych lub osobowych.
Udostępnianie publicznego raportu z analizy post-mortem incydentu
Wskazanie właściwego kanału do opublikowania powszechnie dostępnej analizy post-mortem może być trudne. W przypadku niektórych zespołów dobrym miejscem będzie blog firmowy lub własna witryna internetowa. Inne zespoły mogą mieć odrębny blog techniczny, na którym analiza post-mortem będzie lepiej pasować.
W naszym produkcie, Statuspage, użytkownicy mogą opublikować powszechnie dostępną analizę post-mortem bezpośrednio na swojej stronie stanu po rozwiązaniu incydentu.
Poznaj proces informowania o incydentach za pomocą Statuspage
W tym samouczku pokażemy, jak wykorzystać szablony dotyczące incydentów do skutecznej komunikacji w trakcie awarii. Ich elastyczny charakter pozwala na dostosowanie ich do różnego rodzaju przerw w dostawie usług.
Przeczytaj ten samouczekZnaczenie procesu analizy post-mortem incydentu
Analiza post-mortem incydentu, nazywana również przeglądem po incydencie, jest najlepszym sposobem na podsumowanie tego, co zdarzyło się w trakcie incydentu, i wyciągnięcia wniosków.
Przeczytaj ten artykuł