Zarządzanie incydentami dla dynamicznych zespołów
Poznaj cykl reagowania na incydenty
Jeśli dostatecznie długo będziesz przebywać w środowisku profesjonalistów zajmujących się zarządzaniem incydentami i bezpieczeństwem, dostrzeżesz pewien wzorzec. Najlepsi w tych dziedzinach myślą cyklami, a nie liniowo.
Dlaczego tak się dzieje? Co to w ogóle oznacza? To znaczy, że żaden incydent ani żadna przerwa w dostawie usług nie są wyizolowanym zdarzeniem o wyraźnie określonym punkcie rozpoczęcia i zakończenia (choć mogą sprawiać takie wrażenie). Incydenty są okazją do nauki.
To, że usługa znów „działa”, nie oznacza, że praca Twojego zespołu dobiegła końca. Po zakończeniu incydentu należy podjąć szereg działań, takich jak opracowanie planów do przyszłych harmonogramów, zmiana sposobu przygotowania na incydenty w przyszłości czy rozpoznawanie nowych sposobów tworzenia produktów, które pozwolą uniknąć wystąpienia incydentów w przyszłości. To niekończący się cykl doskonalenia i w zależności od praktykowanej metody, do poszczególnych etapów można podejść na kilka różnych sposobów.
Czym jest cykl reagowania na incydenty?
Reakcja na incydent to procedura postępowania organizacji w obliczu zagrożeń IT, takich jak cyberatak, naruszenie bezpieczeństwa czy awaria serwera.
Cykl reagowania na incydenty to opracowane krok po kroku podstawy ramowe organizacji dotyczące identyfikowania przerw w dostawie usług lub zagrożeń dla bezpieczeństwa oraz reagowania na nie.
Cykl reagowania na incydenty w Atlassian
1. Wykrycie incydentu
Nasze wykrywanie incydentów zazwyczaj rozpoczyna się od narzędzi monitorowania i ostrzegania. Czasami jednak najpierw dowiadujemy się o incydencie od klientów lub członków zespołu.
Powiadomienia o alertach mogą pochodzić z różnych źródeł, dlatego posiadanie rozwiązania zdolnego do zintegrowania różnych narzędzi do powiadamiania i obsługi zgłoszeń może być czynnikiem decydującym o charakterze reakcji — uciążliwej i obejmującej wiele rozłącznych elementów lub spójnej i opartej na współpracy. Takie rozwiązanie, jak Jira Service Management umożliwia zespołom dostosowywanie i filtrowanie alertów pochodzących ze wszystkich narzędzi do monitorowania, rejestrowania oraz ciągłej integracji i ciągłego wdrażania, aby zespoły mogły błyskawicznie wychwytywać incydenty, unikając jednocześnie zmęczenia alertami.
2. Skonfigurowanie kanałów komunikacji zespołowej
Ważnym pierwszym krokiem jest skonfigurowanie kanałów komunikacji zespołu pracującego nad incydentem. Na tym etapie celem jest skoncentrowanie komunikacji zespołowej w dobrze znanych miejscach, takich jak wyznaczony kanał Slack czy kanał wideokonferencyjny.
W Jira Service Management koordynowanie reakcji na incydenty może przebiegać sprawnie. Rozwiązanie to nie tylko daje zespołom możliwość komunikowania się w dogodny dla nich sposób — na przykład za pośrednictwem platformy Slack i wideokonferencji — ale także ułatwia komunikację z klientami dzięki automatyzacji i możliwości dostosowywania. Komunikację zewnętrzną omówimy w kroku 4.
3. Ocena wpływu i ustalenie poziomu ważności
Teraz nadszedł czas na ocenę skutków incydentu, aby zespół mógł zdecydować, z kim jeszcze powinien się skontaktować oraz jakie informacje przekazać klientom oraz interesariuszom. Przypisanie poziomu ważności pozwala nie tylko określić wpływ incydentu, ale także daje podstawy do zaplanowania rozwiązania i komunikacji zewnętrznej. W systemie Jira Service Management eskalacja incydentu i przypisanie poziomu ważności powodują wyzwolenie zautomatyzowanych czynności oraz powiadomień dla osób reagujących, co pozwala na bieżąco śledzić postępy rozwiązania.
4. Komunikacja z klientami
Naszym celem jest jak najszybsze powiadomienie interesariuszy wewnętrznych i zewnętrznych. Szybkie i precyzyjne powiadamianie pomaga budować zaufanie wśród klientów i innych pracowników organizacji. Jak już wcześniej wspominaliśmy, możliwość dostosowania sposobu komunikacji umożliwia zespołowi pracę w pożądany przez siebie sposób, co sprzyja szybszemu rozwiązaniu. Możliwość dostosowywania komunikacji zapewnia zespołowi także kontrolę nad treścią przekazywanych komunikatów i momentem ich udostępnienia. Ponadto zespół może zaoszczędzić czas w trakcie prac nad incydentem, wykorzystując zautomatyzowane odpowiedzi dostępne z poziomu zgłoszenia i wysyłane bezpośrednio do klienta.
5. Eskalacja do właściwych osób reagujących
Osoby reagujące jako pierwsze często muszą angażować w incydent inne zespoły, wykorzystując w tym celu funkcje alertów w systemie Jira Service Management. Możesz skierować osoby reagujące bezpośrednio do zgłoszenia incydentu, grupując powiązane zgłoszenia i oznaczając odpowiednie osoby bezpośrednio w zgłoszeniu. Pozwala to koordynować powiadomienia i zapewnić każdemu pełny kontekst.
6. Delegowanie ról związanych z reagowaniem na incydenty
W miarę jak do reakcji dołączają dodatkowi członkowie zespołu, menedżer ds. incydentów przydziela im role. W tej sytuacji pomaga przygotowanie z wyprzedzeniem odpowiednich porad strategicznych dotyczących reagowania na incydenty, w których nakreślone zostaną wyraźne role i obowiązki. Członkowie zespołu reagowania na incydenty są zaznajomieni z każdą rolą i znają zakres swoich obowiązków w trakcie incydentu.
7. Rozwiązanie incydentu
Incydent uznaje się za rozwiązany, kiedy bieżący lub zbliżający się wpływ na działalność biznesową dobiegnie końca. W tym momencie proces reagowania w nagłych wypadkach kończy się, a zespół przechodzi do zadań związanych z czyszczeniem i analizą post-mortem.
Najlepiej, jeśli rozwiązanie do zarządzania incydentami oferuje funkcję tworzenia osi czasu incydentu, jak ma to miejsce w przypadku systemu Jira Service Management. Dzięki temu osoby reagujące mogą później uzyskać dostęp do kluczowych danych dotyczących incydentu i opracować raport, który pomoże zespołom uniknąć podobnych incydentów w przyszłości i określić główną przyczynę incydentu. Analizy post-mortem mogą również pełnić funkcję zasobu przydatnego w przypadku ponownego wystąpienia podobnego incydentu.
Cykl reagowania na incydenty w NIST
Innym standardowym cyklem reagowania na incydenty jest cykl stosowany przez Krajowy Instytut Standaryzacji i Technologii, nazywany w skrócie NIST (z ang. National Institute of Standards and Technology). NIST to amerykańska jednostka administracji publicznej odpowiedzialna za wyznaczanie norm i praktyk dotyczących takich zagadnień, jak reagowanie na incydenty oraz cyberbezpieczeństwo.
NIST to skrót oznaczający Krajowy Instytut Standaryzacji i Technologii. Jest on jednostką administracji publicznej w Stanach Zjednoczonych, która z dumą deklaruje, że jest „jednym z najstarszych krajowych laboratoriów fizycznych”. Instytut działa we wszystkich gałęziach technologii, w tym w dziedzinie cyberbezpieczeństwa, w której zyskał on miano jednego z dwóch źródeł standardów dotyczących reagowania na incydenty dzięki swoim procedurom z tym związanym.
Podobnie jak Atlassian, NIST uważa, że nie każdemu incydentowi da się zapobiec. Najlepiej więc być w gotowości:
„Działania zapobiegawcze oparte na wynikach ocen ryzyka mogą doprowadzić do zmniejszenia liczby incydentów, ale nie wszystkich incydentów da się uniknąć. Zdolność do reagowania na incydenty jest zatem niezbędna do szybkiego wykrywania, minimalizowania strat i uszkodzeń, eliminowania wykorzystywanych słabości i przywracania usług IT” — NIST.
NIST dzieli cykl reagowania na incydenty na cztery główne fazy: przygotowanie; wykrywanie i analizę; ograniczenie skutków, wyeliminowanie i przywrócenie; działania podejmowane po wystąpieniu zdarzenia.
Faza 1: Przygotowanie
Faza przygotowania obejmuje prace, jakie organizacja wykonuje w celu przygotowania swojej reakcji na incydent, na przykład wskazanie właściwych narzędzi oraz zasobów, a także przeszkolenie zespołu. Ta faza obejmuje działania na rzecz zapobiegania incydentom.
Faza 2: Wykrywanie i analiza
Według NIST dla wielu organizacji często najtrudniejszą częścią procesu reagowania na incydent jest precyzyjne wykrycie i przeprowadzenie oceny incydentów.
Faza 3: Ograniczenie skutków, wyeliminowanie i przywracanie
Celem tej fazy jest ograniczenie skutków incydentu do minimum oraz zmniejszenie zakłóceń w świadczeniu usług.
Faza 4: Działania podejmowane po wystąpieniu zdarzenia
Wyciąganie wniosków oraz doskonalenie po zakończeniu incydentu jest jedną z najważniejszych części procesu reagowania na incydenty, a jednocześnie częścią najbardziej ignorowaną. W tej fazie przeprowadza się analizy incydentu oraz reakcji na ten incydent. Celem jest ograniczenie prawdopodobieństwa ponownego wystąpienia incydentu i ustalenie sposobu ulepszenia działań podejmowanych w odpowiedzi na podobny incydent przyszłości.
Reagowanie na incydenty w nowoczesnych zespołach DevOps
W ciągu minionej dekady ruch DevOps pomógł zespołom zmienić sposób tworzenia, wdrażania i eksploatacji oprogramowania. Przemianom tym towarzyszą również innowacyjne sposoby, w jakie zespoły reagują na incydenty.
Podejście do zarządzania incydentami stosowane przez zespoły DevOps niewiele różni się od tradycyjnej procedury efektywnego zarządzania incydentami. W zarządzaniu incydentami w kulturze DevOps kładzie się nacisk na zaangażowanie zespołów programistycznych od samego początku — także w dyżury domowe — oraz na przypisywanie prac w oparciu o posiadaną wiedzę, a nie zajmowane stanowiska.
Reagowanie na incydenty i ciągłe doskonalenie
Na początku tego artykułu wspomnieliśmy o myśleniu cyklicznym i liniowym. Z pewnością zauważycie jedną cechę wspólną wszystkich tych podejść do zarządzania incydentami: nie są liniowe. Każde z nich obejmuje pewne elementy podstawowe: sposoby definiowania, wykrywania i identyfikowania incydentów; sposoby szybkiego reagowania na incydenty i podejmowania działań mających na celu ograniczenie ich skutków i sposoby analizowania incydentów w celu ulepszenia procedury ich wykrywania i reagowania na nie w przyszłości. Analizowanie incydentu, do którego już doszło, nie ma sensu z punktu widzenia tego konkretnego incydentu. Nie można cofnąć się w czasie i zmienić tego, co się stało. Wnioski z incydentu wyciąga się w celu doskonalenia sposobów wykrywania incydentów i reagowania na nie w przyszłości. Ciągłe, ustawiczne uczenie się i doskonalenie jest elementem domykającym cały cykl.
(Nieliniowy) proces reagowania na incydenty składa się z wielu ruchomych elementów. Monitorowanie poszczególnych kroków z wykorzystaniem zintegrowanych narzędzi do współpracy i komunikacji jest łatwe, jeśli korzysta się z takiego rozwiązania do zarządzania incydentami, jak Jira Service Management. Pozwala ono scentralizować alerty i zjednoczyć zespoły, dając im elastyczność niezbędną do szybkiego reagowania na incydenty i ich rozwiązywania.
Konfigurowanie harmonogramu dyżurów domowych za pomocą Opsgenie
W tym samouczku nauczysz się konfigurować harmonogram dyżurów domowych, stosować reguły zastępujące, ustawiać powiadomienia o dyżurach domowych oraz wykonywać inne czynności w Opsgenie.
Przeczytaj ten samouczekPlusy i minusy różnych podejść do zarządzania dyżur domowy
Zespoły na dyżurach domowych szybko się rozwijają. Poznaj zalety i wady różnych podejść do zarządzania dyżurami domowymi.
Przeczytaj ten artykuł