Zarządzanie incydentami w systemie Jira Service Management
Informacje ogólne
Zarządzanie incydentami polega na reagowaniu na nieplanowane zdarzenia lub przerwy w dostawie usług oraz przywracaniu ich właściwego działania.
- Incydent: nieplanowana przerwa w dostawie usług lub obniżenie ich jakości.
- Poważny incydent: incydent wpływający w dużym stopniu na działalność gospodarczą, wymagający natychmiastowego skoordynowanego rozwiązania.
Problem to nieznana jeszcze główna przyczyna co najmniej jednego incydentu.
Platforma Atlassian do zarządzania incydentami zawiera pełny kontekst i wszystkie dane potrzebne do szybkiego oraz skutecznego rozwiązania incydentu.
- W Jira Service Management agenci mogą łatwo zarządzać zgłoszeniami i incydentami zgłaszanymi przez użytkowników.
- Agenci mogą sprawnie eskalować poważne incydenty w formie alertów przesyłanych do członków zespołu pełniących dyżur domowy. Jira Service Management umożliwia zespołom IT i DevOps zachowanie kontroli w trakcie incydentu dzięki centralizacji alertów, powiadamianiu właściwych osób i umożliwieniu im współpracy oraz szybkiego podejmowania działań.
- Natywne funkcje zarządzania zasobami i konfiguracjami w systemie Jira Service Management (dostępne w planach Premium i Enterprise) ułatwiają agentom poznawanie zależności w obrębie ich infrastruktury IT, umożliwiając lokalizowanie potencjalnych przyczyn incydentów.
- Ponadto współdzielone przestrzenie robocze w Confluence pozwalają w jednym miejscu zgromadzić praktyki, procesy i procedury dotyczące incydentów — od wykazów procedur po bazy wiedzy i przeglądy po incydentach.
To bezproblemowe, kompleksowe rozwiązanie do zarządzania incydentami ułatwia zespołom eskalowanie, angażowanie właściwych osób reagujących, wspólną pracę, a w konsekwencji minimalizowanie przestojów.
Proces zarządzania incydentami
Kluczem do zarządzania incydentami jest opracowanie i przestrzeganie właściwego procesu. Reagowanie na incydenty jest pojęciem dosyć szerokim, dlatego podzielmy je na etapy, które prawdopodobnie trzeba będzie zrealizować po zidentyfikowaniu incydentu i przypisaniu mu kategorii oraz priorytetu:
- Wstępna diagnostyka: zespoły pracujące w nurcie DevOps zazwyczaj są właścicielami incydentów od ich zdiagnozowania po rozwiązanie, natomiast w przypadku wielopoziomowych działów obsługi zazwyczaj funkcjonuje zespół pierwszego stopnia o podobnych obowiązkach, który może jednak w razie potrzeby eskalować incydent do zespołów wsparcia drugiego i trzeciego poziomu.
- Eskalacja: w razie potrzeby kolejny zespół przejmuje zarejestrowane dane i przeprowadza dalszą diagnostykę, a jeśli ten kolejny zespół nie jest w stanie zdiagnozować incydentu, jest on eskalowany do zespołu kolejnego poziomu.
- Komunikacja: zespół regularnie przekazuje aktualne informacje wewnętrznym i zewnętrznym interesariuszom, których dotyczy incydent.
- Badanie i diagnostyka: trwa do czasu rozpoznania charakteru incydentu. Czasami zespoły angażują zasoby z zewnątrz lub członków innych działów w celu konsultacji i uzyskania pomocy przy rozwiązaniu.
- Rozwiązanie i przywrócenie: na tym etapie zespół opracowuje diagnozę i podejmuje działania konieczne do rozwiązania incydentu. Przywracanie odnosi się po prostu do czasu, jaki może zająć pełne przywrócenie sprawności usługi, ponieważ niektóre korekty (np. poprawki błędów) mogą wymagać przetestowania i wdrożenia już po ustaleniu właściwego rozwiązania.
- Zamknięcie: jeśli doszło do eskalacji incydentu, ostatecznie jest on przekazywany do pierwszej linii wsparcia celem zamknięcia. Aby zachować jakość i płynność procesów, incydenty mogą zamykać wyłącznie pracownicy działu obsługi, a właściciel incydentu powinien skonsultować się z osobą zgłaszającą, w celu potwierdzenia, że jest ona zadowolona z rozwiązania, a sam incydent faktycznie można zamknąć.
Więcej informacji można znaleźć na naszej stronie Zarządzanie incydentami.
Pierwsze kroki w zarządzaniu incydentami w systemie Jira Service Management
Jak zacząć zarządzać incydentami
W systemie Jira Service Management dostępny jest przepływ pracy dotyczący zarządzania incydentami zgodny z biblioteką infrastruktury informatycznej (ITIL) noszący nazwę: Przepływ pracy zarządzania incydentami dla Jira Service Management. Zalecamy rozpoczęcie od tego przepływu pracy i dostosowywanie go z czasem do konkretnych potrzeb firmy. Dowiedz się więcej na temat edytowania przepływów pracy.
Domyślnie w widoku incydentu dostępnym dla agenta zawarte są konkretne pola. W razie potrzeby można również dodać pola niestandardowe.
Tworzenie umów dotyczących poziomu usług (SLA) dla rekordów incydentów
System Jira Service Management posiada bogaty zakres wbudowanych umów SLA, dzięki którym zespoły mogą śledzić, na ile realizowany jest poziom usług, jakiego oczekują klienci. Administratorzy projektów mogą tworzyć cele SLA, wskazując rodzaje wniosków, które mają być monitorowane, oraz czas, jaki powinno zająć ich rozwiązywanie. Funkcja ta pozwala również zdefiniować warunki oraz kalendarze ulegające modyfikacji przy rozpoczęciu, wstrzymaniu lub zatrzymaniu odliczania w ramach umowy SLA.
Tworzenie nowej umowy SLA:
- Z poziomu projektu usługowego wybierz kolejno opcje Ustawienia projektu > Umowy SLA. Wyświetlone zostaną wszystkie istniejące umowy SLA.
- Wybierz opcję Add SLA (Dodaj umowę SLA).
- W polu obok ikony zegara wprowadź nową nazwę umowy SLA lub wybierz nazwę istniejącą.
- (Raz utworzonej nazwy umowy SLA nie można zmienić, dlatego warto wybrać nazwę, która będzie wyraźnie wskazywała na rodzaj mierzonej wartości).
- Ustal cele i warunki umowy SLA. Dowiedz się więcej na temat konfigurowania celów SLA i konfigurowania wskaźników czasu SLA.
- Kliknij przycisk Save (Zapisz).
Oznaczanie incydentów jako poważne w Jira Service Management
W przypadku awarii usług o znaczeniu krytycznym Jira Service Management Cloud zapewnia niezbędne narzędzia, które pomagają agentom szybko rozwiązywać incydenty. Oznaczenie incydentu jako poważnego zwiększy jego widoczność wśród innych incydentów. Ponadto te incydenty są grupowane w ramach własnej kolejki „Poważne incydenty” z obsługą języka JQL.
Aby oznaczyć incydent jako poważny:
- Przejdź do incydentu, który chcesz oznaczyć jako poważny.
- Aktywuj przełącznik Poważny incydent w sekcji szczegółów zgłoszenia.
Uwaga: jeśli pole Poważny incydent nie jest widoczne w przypadku Twoich incydentów, upewnij się, że zostało ono dodane w widoku zgłoszenia. Aby dodawać pola do typu zgłoszenia, należy być administratorem Jira.
Tworzenie kanału Slack i wysyłanie do niego aktualizacji bezpośrednio z poziomu incydentu
W Jira Service Management można podłączyć przestrzeń roboczą i utworzyć dedykowany kanał Slack dla każdego incydentu. Po podłączeniu przestrzeni roboczych Slack do projektu usługowego można tworzyć kanały Slack dla swoich incydentów, dodawać reagujących na incydenty do swoich kanałów Slack, aktualizować priorytety, podejmować działania związane z incydentami i ułatwić swojemu zespołowi szybsze reagowanie.
Aby utworzyć kanał Slack incydentu:
- Przejdź do incydentu, dla którego chcesz utworzyć kanał Slack.
- Wybierz opcję Utwórz kanał w sekcji szczegółów zgłoszenia.
Wysyłanie nowych informacji dotyczących incydentów do interesariuszy wewnętrznych
Interesariusze wewnętrzni to osoby, które nie biorą udziału w reagowaniu, ale muszą być na bieżąco informowane o przebiegu incydentu, aby podjąć środki ostrożności i działania. Jira Service Management zapewnia możliwość dodawania osób jako interesariuszy i informowanie ich poprzez wysyłanie wiadomości e-mail.
Aby dodać/ usunąć interesariuszy wewnętrznych:
- Przejdź do incydentu, w którym chcesz dodać interesariuszy wewnętrznych.
- Wybierz opcję Zarządzaj obok pola Interesariusze w obszarze szczegółów.
- Wyszukaj osoby, które chcesz dodać jako interesariuszy.
Aby wysłać aktualizację do interesariuszy wewnętrznych:
- W sekcji Aktywność widoku zgłoszenia wybierz opcję Przekaż aktualności interesariuszowi.
- Wprowadź podsumowanie i wiadomość.
- Wybierz opcję Wyślij.
Współpraca z zespołem nad rozwiązywaniem incydentów z wykorzystaniem połączeń konferencyjnych
Jira Service Management oferuje pokoje do konferencji wideo/ głosowych w celu koordynowania pracy nad incydentami i zarządzania nimi z centralnej lokalizacji.
Aby rozpocząć połączenie konferencyjne:
- Przejdź do incydentu, w którym chcesz rozpocząć połączenie konferencyjne.
- Wybierz opcję Rozpocznij rozmowę (lub Dołącz do rozmowy w przypadku istniejącego połączenia) obok pola Rozmowa konferencyjna w obszarze szczegółów.
Uzyskiwanie dostępu do przeglądów po incydentach i tworzenie ich
Przeglądy po incydentach dają szansę na odkrycie luk w zabezpieczeniach systemu, powstrzymanie powtarzających się incydentów i skrócenie czasu rozwiązywania incydentów w przyszłości, a także stanowią ważny etap cyklu życia usług o stałej dostępności. Wnioski z przeglądu powinny być wykorzystane w procesie planowania, aby zagwarantować, że krytyczne poprawki zostaną uwzględnione w nadchodzących pracach. Dokumentowanie incydentu i sposobu jego rozwiązania przez zespół może ułatwić postępowanie z incydentami w przyszłości. Zespoły mogą tworzyć długoterminowe rozwiązania dotyczące problemów prowadzących do incydentu i powiązać przegląd po incydencie z incydentem w Jira Service Management.
Aby włączyć funkcję przeglądu po incydencie:
- Wybierz kolejno opcje Ustawienia projektu > Funkcje.
- Włącz opcję Przeglądy po incydentach w obszarze Kategorie ITSM.
Włączenie tej kategorii umożliwia dostęp do nowych funkcji dotyczących Twoich wniosków. Aby rozpocząć, należy utworzyć nowe typy wniosków lub przypisać istniejące typy wniosków do kategorii przeglądów po incydentach.
Aby uzyskać dostęp do przeglądów po incydentach:
- Wybierz opcję Przegląd po incydencie w menu paska bocznego projektu.
- Wybierz odpowiednią kolejkę dla przeglądów po incydentach.
Aby utworzyć nowy przegląd po incydencie:
- Wybierz opcję Utwórz na górnym pasku menu.
- Wybierz utworzony typ wniosku przeglądu po incydencie z listy rozwijanej.
- Wypełnij wymagane informacje i powiąż odpowiedni incydent z przeglądem po incydencie w polu Powiązane zgłoszenia.
- Po zakończeniu wybierz opcję Utwórz.
Fachowa porada: przeglądy po incydentach można również tworzyć, korzystając z natywnego silnika automatyzacji Jira Service Management. Przykładowo można ustawić regułę automatyzacji, która powodowałaby utworzenie przeglądu po incydencie za każdym razem, gdy poważny lub krytyczny incydent zostanie rozwiązany przez zespół.
Wiązanie wielu incydentów z raportem o problemie
System Jira Service Management pozwala powiązać ze sobą wiele zgłoszeń. Można na przykład powiązać wiele rekordów incydentów z szerszym raportem o problemie.
Aby powiązać wiele incydentów z raportem o problemie:
- Wyświetl rekord incydentu.
- Wybierz opcję Link Issue (Powiąż zgłoszenie).
- W polu Linked issues (Powiązane zgłoszenia) wybierz opcję Is caused by (Przyczyna).
- W polu Issue (Zgłoszenie) wprowadź (lub wybierz z menu rozwijanego) zgłoszenie, z którym chcesz powiązać wybrane zgłoszenie.
- Wybierz opcję Połącz.
Najlepsze praktyki i wskazówki dotyczące zarządzania incydentami
Łatwe rejestrowanie incydentów zgłaszanych przez system i użytkowników
Jira Service Management jest źródłem rzetelnych informacji na temat drobnych i poważnych incydentów. W portalu klienta w sposób kompleksowy i spójny rejestrowane są incydenty zgłaszane przez użytkowników, z uwzględnieniem wszystkich informacji potrzebnych zespołowi wsparcia do oceny incydentu. Gdy pracownicy lub klienci zauważą incydent, mogą zgłosić go w Jira Service Management. Tam incydenty są kierowane do właściwych kolejek agentów.
W kwestii wczesnego wykrywania incydentów i przestojów efektywny system monitorowania pełni funkcję oczu i uszu członków zespołu operacyjnego IT. Aby umożliwić obsługę automatycznie wykrywanych incydentów, system Jira Service Management można z łatwością zintegrować z ponad 200 aplikacjami i usługami sieciowymi, takimi jak Slack, Datadog, Sumo Logic czy Nagios, umożliwiając synchronizację danych z alertów i usprawnienie przepływu pracy związanego z incydentami.
Mniejsze obciążenie alertami dzięki inteligentnemu planowaniu dyżurów domowych
Jeśli pracownicy pełniący dyżur domowy są zalewani nieistotnymi alertami, są przytłoczeni i mogą przeoczyć ważne powiadomienia. Dzięki funkcjom zarządzania incydentami wbudowanym w system Jira Service Management Twój zespół nigdy nie przegapi krytycznego alertu.
Sporządzenie harmonogramów i zdefiniowanie reguł eskalacji w obrębie jednego interfejsu sprawia, że zespół zawsze wie, kto pełni dyżur i ponosi odpowiedzialność w przypadku incydentów. System grupuje alerty, odfiltrowuje nieistotne informacje i powiadamia członków zespołu wieloma kanałami — za pomocą wiadomości SMS, połączenia telefonicznego, powiadomienia push na telefonie komórkowym lub wiadomości e-mail, udostępniając przy tym stosowny kontekst niezbędny do natychmiastowego przystąpienia do rozwiązania problemu.
Usprawnienie koordynacji zespołu za pomocą modelu ChatOps i wykazu procedur
System Jira Service Management stanowi dla zespołu scentralizowaną platformę, gdzie jego członkowie mogą współpracować, udostępniać informacje w czasie rzeczywistym i szybko rozwiązywać problemy w centrum zarządzania incydentami. Zamiast wymuszać informowanie każdego z osobna na pofragmentowanych czatach lub przedzieranie się przez długie historie rozmów, możesz utworzyć pokój do wideokonferencji, w którym zespoły będą mogły dynamicznie rozmawiać, przypisywać role, a nawet podejmować działania decyzyjne — bez opuszczania interfejsu. Dołączenie wykazu procedur do alertów pozwoli zespołom szybko wdrażać standardowe działania zaradcze, zarówno automatycznie, jak i na żądanie.
Wykazy procedur są również doskonałym narzędziem dokumentowania często stosowanych sposobów rozwiązywania problemów w odpowiedzi na alerty i przestoje. Dzięki wykazom procedur personel ma w zasięgu ręki wszystkie informacje potrzebne do szybkiego sklasyfikowania incydentu. W wielu przypadkach zespoły są w stanie skrócić czas rozwiązywania incydentów nawet o 40%.
Opracowanie porad strategicznych do proaktywnego zarządzania incydentami
Zaplanuj strategię reagowania na incydenty z wyprzedzeniem. Złagodzisz stres, ułatwisz zespołowi koncentrację w trakcie incydentu i skrócisz czas jego rozwiązania. Pamiętaj o uwzględnieniu zarówno operacyjnych, jak i zespołowych sposobów współpracy:
- Zidentyfikuj wartości najbardziej cenione przez zespół podczas reagowania na incydenty i opracuj plan pozwalający konsekwentnie wdrażać te wartości. Przykładowo wartościami mogą być współpraca, komunikacja i przeglądy po incydentach bez wskazywania winnych.
- Określ wyraźnie, jaki incydent kwalifikuje się jako poważny.
- Udokumentuj sposoby postępowania w przypadku poważnych incydentów.
- Opracuj komunikaty w odpowiedzi na incydenty, takie jak szablony reakcji i komunikaty dla interesariuszy (zarówno wewnętrznych, jak i zewnętrznych).
- Wyznacz głównych członków zespołu należących do podstawowego zespołu reagowania na incydenty.
- Opracuj sposoby przeprowadzania przeglądów po incydentach.
- W przypadku wszystkich poważnych incydentów przeprowadzaj przeglądy po incydentach bez wskazywania winnych.
- Publikuj i udostępniaj wnioski z przeglądów po incydentach.
- Przeprowadź symulacje poważnych incydentów.
Koncentracja na średnim czasie przywracania (MTTR)
Opracowanie solidnego procesu zarządzania incydentami ma kluczowe znaczenie dla ograniczania skutków incydentu i szybkiego przywrócenia usług. Kluczem do poprawy reakcji jest skrócenie średniego czasu przywracania (MTTR) oraz usprawnienie analizy głównej przyczyny w celu uniknięcia przestojów w przyszłości. Z badań przeprowadzonych przez agencję Forrester wynika, że 70% czasu reakcji na incydent zajmuje etap badania i diagnostyki.
Umacnianie zaufania poprzez scentralizowane komunikaty zewnętrzne
Wiele zespołów wykorzystuje scentralizowany pulpit, na przykład Statuspage, do informowania o statusie usług o znaczeniu krytycznym. Statuspage pełni funkcję pojedynczego kanału przejrzystej i proaktywnej komunikacji masowej z użytkownikami wewnętrznymi i zewnętrznymi, z uwzględnieniem zautomatyzowanych powiadomień i uaktualnień.
Statuspage informuje zespoły wewnętrzne o zaplanowanych i nieplanowanych przestojach. Klienci oraz pracownicy mogą subskrybować aktualności, co sprzyja ujednoliceniu komunikacji i ogranicza konieczność ręcznego przekazywania aktualnych informacji.
Więcej informacji można znaleźć na naszej stronie najlepszych praktyk w zakresie zarządzania incydentami.
Wprowadzenie
Zarządzanie żądaniami obsługi
Wprowadzenie
Zarządzanie problemami