Zarządzanie incydentami dla dynamicznych zespołów
Czym jest zarządzanie incydentami?
Zarządzanie incydentami jest procesem stosowanym przez zespół programistyczny i zespół ds. eksploatacji IT w celu reagowania na nieplanowane zdarzenie lub przerwę w świadczeniu usługi i przywracania jej właściwego działania.
Zgodnie z definicją przyjętą w Atlassian zdarzenie to zajście powodujące zakłócenie działania lub obniżenie jakości usługi, wymagające natychmiastowej reakcji. Zespoły przestrzegające praktyk ITIL lub ITSM mogą również używać terminu poważne zdarzenie.
Pobierz nasz podręcznik zarządzania incydentami.
Pobierz plik PDF, aby poznać zasady i praktyki zarządzania incydentami oraz sposoby wprowadzania ich w życie za pomocą Jira Service Management.
Incydentami są dowolnego rodzaju zdarzenia, które zakłócają świadczenie usługi lub obniżają jej jakość (bądź stwarzają takie zagrożenie). Awaria aplikacji biznesowej jest incydentem. Może nim być również spowolnienie działania serwera internetowego, o ile nie dojdzie do jego całkowitego wyłączenia. Serwer pracuje powoli, a zatem wpływa niekorzystnie na produktywność. Co gorsza, stwarza jeszcze poważniejsze ryzyko całkowitej awarii. Incydenty mogą różnić się znacznie poziomem ważności — od całkowitych awarii globalnych usług sieciowych po błędy występujące sporadycznie wśród niewielkiej liczby użytkowników.
Incydent zostaje rozwiązany, gdy dotknięta nim usługa wznawia działanie w zamierzonym trybie. Dotyczy to wyłącznie zadań wymaganych do złagodzenia skutków i przywrócenia funkcjonalności.
Znaczenie zarządzania incydentami
Wartości wynikające z zarządzania incydentami w Atlassian
Zarządzanie incydentami jest jednym z najbardziej krytycznych procesów, jakich potrzebuje organizacja, aby móc działać właściwie. Przerwy w dostarczaniu usług mogą być dla firm kosztowne, a zespoły potrzebują efektywnego sposobu reagowania na te problemy i ich szybkiego rozwiązywania. Zespoły potrzebują niezawodnej metody ustalania priorytetów incydentów, szybszego uzyskiwania rozwiązania i zapewniania użytkownikom lepszej obsługi.
Stając w obliczu incydentu, zespoły potrzebują planu, który pomoże im:
- skutecznie zareagować, aby umożliwić szybkie przywrócenie usług,
- przekazywać czytelne informacje klientom, interesariuszom, właścicielom usług oraz innym członkom organizacji,
- skutecznie współpracować w zespole, aby szybciej rozwiązać problem i wyeliminować bariery, które utrudniają odnalezienie właściwego rozwiązania,
- stale wyciągać wnioski z zaistniałych przerw w dostawie usług i korzystać z nich w celu doskonalenia jakości usług oraz własnych procesów w przyszłości.
Chcesz zobaczyć, jak Atlassian radzi sobie z poważnymi incydentami? Opublikowaliśmy nasz wewnętrzny podręcznik zarządzania incydentami. Każdy może wykorzystać go jako źródło wiedzy, dostosować go do własnych potrzeb lub użyć w dowolny inny sposób.
Rodzaje procesów zarządzania incydentami
Różne rodzaje firm skłaniają się ku różnym typom procesów zarządzania incydentami. Nie ma jednego procesu, który sprawdziłby się idealnie we wszystkich firmach, dlatego prawdopodobnie w różnych firmach będziesz spotykać się z odmiennymi podejściami.
Wiele zespołów wykorzystuje bardziej tradycyjne procesy zarządzania incydentami w stylu IT, takie jak te, które opisano w certyfikacjach ITIL. Inne zespoły skłaniają się raczej do procedur zarządzania incydentami stosowanych przez serwisantów witryn internetowych lub zespoły DevOps.
Proces zarządzania incydentami IT
Proces zarządzania incydentami pomaga zespołom IT w analizowaniu, rejestrowaniu i rozwiązywaniu zakłóceń lub przerw w dostawie usług. Przepływ pracy związany z zarządzaniem incydentami w ITIL ma na celu ograniczenie przestojów i zminimalizowanie wpływu incydentów na produktywność pracowników. Korzystając z szablonów do zarządzania incydentami, można opracować powtarzalny przepływ pracy związany z zarządzaniem incydentami, który pozwoli zespołowi rejestrować, diagnozować i rozwiązywać incydenty, a jednocześnie prowadzić rejestr własnych działań.
Podejście ITIL stosowane jest głównie przez zespoły IT odpowiedzialne za świadczenie usług wewnątrzfirmowych. Zazwyczaj zespoły czerpią z zasad ITIL — które uwzględniają niemal każdy rodzaj incydentu, problemu i procesu, z jakim mogą mieć do czynienia zespoły IT — to, co jest im potrzebne, pozostawiając resztę. Podejście ITIL sprawdza się doskonale, gdy zespoły muszą skoncentrować się na kultywowaniu kultury aktywnego rozwiązywania problemów. Zalecane procesy ułatwiają zespołom spójne monitorowanie incydentów oraz działań, poprawiają jakość raportowania i analizy, a w konsekwencji pozwalają uzyskać lepiej działającą usługę i dają zespołowi możliwość skutecznej pracy.
Kroki w procesie zarządzania incydentami IT
Identyfikacja i rejestracja incydentu
Informacja o incydencie może pochodzić z różnych źródeł: od pracownika, klienta, dostawcy, z systemów monitorujących. Jednak niezależnie od źródła, dwa pierwsze etapy są proste: ktoś dostrzega incydent, a następnie ktoś go rejestruje. Te rejestry incydentów (tj. zgłoszenia) zawierają zazwyczaj następujące informacje:
- imię i nazwisko osoby zgłaszającej incydent;
- data i godzina zgłoszenia incydentu;
- opis incydentu (co nie działa lub działa niepoprawnie);
- unikatowy numer identyfikacyjny przypisany do incydentu na potrzeby śledzenia.
Kategoryzacja
Do każdego incydentu przypisz logiczną, intuicyjną kategorię (a w razie potrzeby także podkategorię). Pomoże to przeanalizować dane pod kątem trendów oraz wzorców, co stanowi krytyczny element skutecznego procesu zarządzania problemami i zapobiegania incydentom w przyszłości.
Ustawianie priorytetów
W przypadku każdego incydentu należy określić priorytet. Zacznij od oceny jego wpływu na działalność, określenia liczby osób, które odczują skutki incydentu, ustalenia właściwych umów SLA, a także jego potencjalnych konsekwencji dla finansów, bezpieczeństwa oraz zgodności z przepisami. Aby ustalić względny priorytet incydentu, porównaj go ze wszystkimi innymi otwartymi incydentami. Najlepszą praktyką będzie zdefiniowanie poziomów istotności i priorytetów zanim dojdzie do incydentu, aby ułatwić osobom zarządzającym incydentami szybkie ustalenie priorytetu.
Reagowanie
- Wstępna diagnoza: Najlepiej, jeśli zespół wsparcia w pierwszej linii może obsłużyć incydenty na wszystkich etapach — od zdiagnozowania po zamknięcie. Jeśli jednak jest to niemożliwe, kolejnym krokiem będzie zarejestrowanie wszystkich istotnych informacji i eskalowanie incydentu do zespołu kolejnego poziomu.
- Eskalacja: Kolejny zespół przejmuje zarejestrowane dane i przeprowadza dalszą diagnostykę, a jeśli ten kolejny zespół nie jest w stanie zdiagnozować incydentu, jest on eskalowany do zespołu kolejnego poziomu.
- Komunikacja: zespół regularnie przekazuje aktualne informacje wewnętrznym i zewnętrznym interesariuszom, których dotyczy incydent.
- Badanie i diagnostyka: trwa do czasu rozpoznania charakteru incydentu. Czasami zespoły angażują zasoby z zewnątrz lub członków innych działów w celu konsultacji i uzyskania pomocy przy rozwiązaniu.
- Rozwiązanie i przywrócenie: na tym etapie zespół opracowuje diagnozę i podejmuje działania konieczne do rozwiązania incydentu. Przywracanie odnosi się po prostu do czasu, jaki może zająć pełne przywrócenie sprawności, ponieważ niektóre poprawki (np. poprawki błędów) mogą wymagać przetestowania i wdrożenia już po ustaleniu właściwego rozwiązania.
- Zamknięcie: jeśli doszło do eskalacji incydentu, ostatecznie jest on przekazywany do działu obsługi celem zamknięcia. Aby zachować jakość i płynność procesów, incydenty mogą zamykać wyłącznie pracownicy centrum obsługi, a właściciel incydentu powinien skonsultować się z osobą zgłaszającą, w celu potwierdzenia, że jest ona zadowolona z rozwiązania, a sam incydent faktycznie można zamknąć.
Proces zarządzania incydentami DevOps i SRE
W zarządzaniu incydentami według podejścia DevOps lub SRE zespół, który tworzy usługę jednocześnie dba o jej poprawne działanie, a w razie usterki odpowiada za jej naprawę. Wraz z rozwojem dostępnych przez cały czas usług chmurowych, aplikacji sieciowych z dostępem globalnym, mikrousług i oprogramowania udostępnianego jako usługa podejście to zyskało na popularności.
Coraz częściej oprogramowanie, z którego korzystasz w domu i w pracy nie jest hostowane na serwerze w Twojej lokalizacji geograficznej. Najprawdopodobniej jest to aplikacja udostępniana za pośrednictwem przeglądarki, wdrożona w centrum danych i dostępna dla milionów użytkowników na całym świecie. Dla zespołów odpowiedzialnych za realizację tych usług elastyczność i szybkość mają niebagatelne znaczenie. Każda przerwa w świadczeniu usługi może dotknąć nie jednej, a tysięcy organizacji.
Zaletą podejścia opartego na zasadzie „odpowiadasz za to, co tworzysz” jest zapewnienie zespołom Agile tak potrzebnej im elastyczności, jednak może ono również wprowadzać niejasność co do przydziału obowiązków i terminów realizacji zadań. Zespoły DevOps mogą pracować bez presji i skutecznie, dzięki uproszczeniu procesów tworzenia oprogramowania. Najlepiej jednaj ujednolicić podstawowy zestaw procesów zarządzania incydentami, aby w zamieszaniu towarzyszącym wystąpieniu incydentu uniknąć wątpliwości co do sposobu reagowania oraz móc monitorować zgłoszenia i relacjonować, jak są rozpatrywane.
Trzy przekonania zespołów DevOps zarządzających incydentami
- Dyżury domowe należy pełnić na zmianę: zamiast wyznaczania konkretnych członków zespołu, którzy będą specjalizowali się w dyżurach domowych, członkowie zespołów DevOps zazwyczaj na zmianę biorą na siebie ryzyko nocnej pobudki związanej z koniecznością zareagowania na incydent.
- Inżynier, który opracował usługę, najlepiej potrafi ją naprawić: to centralna koncepcja, na której opiera się zasada „odpowiadasz za to, co tworzysz”, zakładająca, że osoby najlepiej zaznajomione z usługą (jej twórcy) dysponują najlepszym zapleczem do usuwania związanych z nią awarii.
- Usługi należy tworzyć szybko, zachowując przy tym odpowiedzialność: gdy inżynierowie wiedzą, że wraz z innymi członkami swoich zespołów będą uczestniczyć w usuwaniu awarii, dokładają wszelkich starań, aby wdrażać wysokiej jakości kod.
Takie podejście pozwala skrócić czasy reakcji i przyspieszyć przekazywanie informacji zwrotnych do zespołów, które muszą wiedzieć, jak opracować niezawodną usługę.
W podręczniku Atlassian dotyczącym incydentów nakreśliliśmy podejście do zarządzania incydentami bardzo przyjazne dla zespołów DevOps.
Narzędzia do zarządzania incydentami
Do zarządzania incydentami nie wystarczy po prostu narzędzie, konieczna jest odpowiednia mieszanka narzędzi, praktyk oraz ludzi. Poniżej przedstawiamy kilka najczęściej stosowanych kategorii narzędzi pozwalających skutecznie zarządzać incydentami:
- Monitorowanie incydentów: każdy incydent powinien być monitorowany i udokumentowany, aby można było rozpoznawać trendy i dokonywać porównań w czasie.
- Pokój na czacie: kanał służący do komunikacji tekstowej w czasie rzeczywistym jest niezbędny do diagnozowania i usuwania incydentów w ramach pracy zespołowej. Stanowi on bogaty zbiór danych do późniejszej analizy reakcji.
- Wideoczat: wideoczat stanowi uzupełnienie czatu tekstowego w przypadku wielu incydentów, ułatwiając zespołowi omówienie wniosków i odpowiednie nakreślenie strategii.
- System powiadamiania: narzędzie, np. Jira Service Management, zintegrowane z systemem monitorowania i służące do zarządzania rotacjami dyżurów domowych i eskalacjami.
- Narzędzie do tworzenia dokumentacji: za pomocą narzędzia takiego jak Confluence można rejestrować dokumenty dotyczące stanów incydentów oraz przeprowadzać analizy post-mortem.
- Strona z informacjami o statusie: do informowania interesariuszy w przedsiębiorstwie oraz klientów o statusie incydentu, aby wszyscy byli na bieżąco.
Tematy związane z zarządzaniem incydentami
Polecane samouczki
Chcesz dowiedzieć się, jak działa zarządzanie incydentami w Jira Service Management?
Konfigurowanie harmonogramu dyżurów domowych za pomocą Opsgenie
W tym samouczku nauczysz się konfigurować harmonogram dyżurów domowych, stosować reguły zastępujące, ustawiać powiadomienia o dyżurach domowych oraz wykonywać inne czynności w Opsgenie.
Przeczytaj ten samouczekPlusy i minusy różnych podejść do zarządzania dyżur domowy
Zespoły na dyżurach domowych szybko się rozwijają. Poznaj zalety i wady różnych podejść do zarządzania dyżurami domowymi.
Przeczytaj ten artykułZarejestruj się, aby zobaczyć więcej artykułów i samouczków
Thank you for subscribing