Zarządzanie incydentami dla dynamicznych zespołów
Najlepsze praktyki w zakresie informowania o incydentach
Incydenty zawsze stanowiły element codzienności zespołów IT i zespołów ds. eksploatacji systemów informatycznych. Obecnie także zespoły DevOps i wsparcia dla klientów przechodzą przyspieszony kurs komunikacji na wypadek incydentów.
Informowanie o incydentach to proces powiadamiania użytkowników, że usługa doświadcza pewnego rodzaju przestoju lub obniżenia wydajności. Jest to szczególnie ważne w przypadku usług internetowych i programowych, od których oczekuje się całodobowej dostępności.
Informowanie o incydentach na skalę ogólnointernetową jest procesem złożonym i nie ogranicza się do zwykłego wysłania zbiorczej wiadomości e-mail. Należy wziąć pod uwagę różnych odbiorców. Różne progi oczekiwań dotyczących wiadomości i odpowiedzi.
Niektórych przestojów nie da się uniknąć, dlatego najlepiej z wyprzedzeniem zaplanować sposób postępowania i upewnić się, że zespół będzie gotowy.
Poniżej przedstawiamy nasz przewodnik dotyczący najlepszych praktyk w zakresie powiadamiania o incydentach. Zostaną w nim omówione następujące zagadnienia:
- Dlaczego powiadamianie o incydentach jest ważne?
- Jak przygotować się do powiadamiania o incydencie?
- Jak specjaliści w dziedzinie powiadamiania o incydentach radzą sobie z tym zadaniem?
- Dlaczego komunikacja w sprawie incydentu nie kończy się wraz z wdrożeniem jego rozwiązania?
Powiadamianie o incydentach: kogo to obchodzi?
Obchodzi Twoich klientów. Obchodzi Twoich współpracowników. Ciebie również powinno obchodzić. Źle organizowane przestoje mogą stwarzać dla klientów oraz zespołu wiele trudności, co może przełożyć się na Twoje wyniki finansowe. Niektórzy spośród Twoich klientów mogą dojść do wniosku, że możesz im zafundować więcej takich niekorzystnych przygód, i w efekcie przejść do konkurencji. Utracisz przyszłych klientów ze względu na brak zaufania. Może dojść do obniżenia morale zespołu, a w konsekwencji także jego produktywności. No i możesz pożegnać się z tymi tak cennymi poleceniami przekazywanymi z ust do ust.
Na szczęście nieplanowane przestoje nie muszą przeradzać się w koszmar dla obsługi klienta. Okazuje się, że jeśli będziesz na bieżąco informować swoich klientów o tym, co się dzieje i jakie rozwiązania podejmujesz w celu usunięcia problemu, wykażą się zrozumieniem, a ich reakcja na całą sytuację będzie znacznie mniej negatywna.
Przygotowanie do powiadomienia o incydencie
Właściwe przygotowanie zapobiega słabym wynikom. Jeśli to hasło jest dość dobre w kontekście militarnym, równie dobrze można zastosować je do strategii komunikowania w razie incydentów. Gdy doświadczysz gorączki towarzyszącej wystąpieniu incydentu, podziękujesz sobie za czas poświęcony opracowaniu komunikacji na taką ewentualność.
Zdefiniowanie incydentu
Zanim będziemy mogli przekazać komunikaty o incydentach, musimy ustalić, czym jest incydent. Wiele firm internetowych wykorzystuje znormalizowany 4-poziomowym system definiowania ważności. Poniżej przedstawiamy fantastyczny przewodnik po definicjach ważności z naszego własnego podręcznika zarządzania incydentami.
Niezależnie od progów ważności incydentów, ważne jest wyznaczenie wyraźnej linii separacyjnej (najlepiej w formie wymiernego wskaźnika). Jeśli nadasz incydentowi poziom ważności 1, ważne, aby każdy członek zespołu wiedział dokładnie, co to oznacza.
System ważności pomaga również wyeliminować szare strefy, jakie są nieodłącznym elementem każdego przestoju.
Bez względu na przyjęty system, zalecamy opracowanie planu komunikacji z zerową tolerancją na wypadek wszelkich incydentów związanych z naruszeniem zabezpieczeń lub utratą danych.
Wybór rozwiązań komunikacyjnych, kanałów i szablonów komunikatów z wyprzedzeniem
Profesjonalne zespoły wsparcia i serwisanci witryn nie wybierają kanałów komunikacyjnych doraźnie. Planują je z wyprzedzeniem.
W procesie powiadamiania o incydentach stosuje się pięć głównych kanałów komunikacji:
- Specjalną stronę z informacjami o statusie
- Osadzona informacja o stanie
- Adres e-mail
- Narzędzie czatu stosowane w miejscu pracy
- Media społecznościowe
- Wiadomości SMS
Specjalna strona z informacjami o statusie
Zalecamy zespołom korzystanie z dedykowanej strony z informacjami o statusie jako podstawowego rozwiązania do powiadamiania o incydentach. Niezależnie od tego, czy stworzysz taką stronę samodzielnie, czy skorzystasz z hostowanego rozwiązania, takiego jak Statuspage, ważne jest, aby zapewnić swoim klientom i współpracownikom przejrzyste źródło rzetelnych informacji na czas incydentu. Serwis Statuspage daje Twoim użytkownikom możliwość subskrypcji w celu otrzymywania aktualności w chwili ich zamieszczenia. To odciąża zespoły wsparcia, które mogą pochylić się nad rozwiązaniem problemu.
Osadzona informacja o stanie
Statuspage ułatwia również osadzanie informacji o statusie bezpośrednio w dowolnej witrynie internetowej, z której korzystają klienci. Zdajemy sobie sprawę, że większość odwiedzających prawdopodobnie sprawdzi stronę główną lub stronę pomocy technicznej dostawcy, zanim zacznie szukać strony z informacjami o statusie. Osadzony widget (oto przykład) to łatwy sposób na poinformowanie odwiedzających o trwającym incydencie. Odwiedzający mogą również kliknąć widget, aby przejść do strony z informacjami o statusie.
Adres e-mail
Mając do dyspozycji taki produkt jak Statuspage możesz dać swoim odbiorcom możliwość zasubskrybowania wiadomości e-mail z aktualnościami. Bez względu na to, czy wysyłasz wiadomości bezpośrednio z narzędzia do obsługi poczty e-mail czy inicjujesz wysyłkę e-maili ze strony z informacjami o statusie, możesz ustanowić niezawodny e-mailowy kanał powiadamiania o incydentach.
Narzędzia czatu
Ogranicz przełączanie kontekstu przez pracowników oraz agentów i zmniejsz liczbę luk informacyjnych dzięki czatowi Jira Service Management. Czat Jira Service Management umożliwia synchronizację rozmów w Slack lub Microsoft Teams z Twoimi zgłoszeniami. Płynna wymiana rozmów między popularnymi narzędziami czatu a wsparciem pozwoli zyskać istotny kontekst problemu, a w konsekwencji szybko go rozwiązać.
Media społecznościowe
Wiele zespołów korzysta z kanałów społecznościowych, takich jak Twitter, jako środka komunikacji podczas incydentu. Dobrze uwzględnić je w swojej strategii, jednak nie należy traktować ich jako jedynego środka komunikacji.
Wiadomości SMS
Często łatwiej dotrzeć do kogoś z wiadomością SMS lub tekstową i wiele osób preferuje ten rodzaj kontaktu w przypadku krytycznych alertów przychodzących z informacją na przykład o przestoju. Jest to jednak również kanał kontaktu, który prowadzi do szybkiego zmęczenia użytkowników wiadomościami, skłaniając ich do anulowania subskrypcji, jeśli takich wiadomości jest zbyt wiele lub nie są one istotne.
Żaden z tych kanałów nie jest jednak złotym rozwiązaniem kwestii komunikacji w trakcie incydentów. Każdy z nich ma inne zalety, a ich prawdziwy potencjał ujawnia się, gdy zestawi się je razem. Na przykład w Atlassian zamieszczamy incydenty na stronie z informacjami o statusie, ale jednocześnie dodajemy stosowne wpisy na Twitterze. Informacja na temat incydentu jest również widoczna w naszym portalu Jira Service Management. Komunikaty te przekierowują użytkownika z powrotem na stronę z informacjami o statusie, gdzie może on uzyskać więcej informacji na temat incydentu. Zarządzanie incydentami w systemie Jira Service Management pozwala uwzględniać wiele punktów komunikacji bez kolizji lub utraty zaufania ze strony klientów w procesie przekładu.
Dostosowywanie alertów i komunikatów do właściwych odbiorców
Gdy dojdzie do incydentu, musisz wiedzieć, z kim się komunikować, jak dotrzeć do tych osób oraz jak zrobić to przy minimalnych tarciach i angażowaniu możliwie najmniejszej ilości zasobów, aby uniknąć obciążania działu obsługi klienta i/lub załamania komunikacji. Najlepiej zacząć na poziomie wewnętrznym od zespołu odpowiedzialnego bezpośrednio za reakcję, a następnie przechodzić stopniowo na zewnątrz, kierując komunikaty do stosownych odbiorców.
Chociaż każda organizacja jest inna, zasadniczo dobrze jest podzielić odbiorców na 5 różnych grup, którym trzeba przekazywać informacje:
- Główny zespół pełniący dyżur: Jako pierwszy dowiaduje się o nieprawidłowości niemal natychmiast po wystąpieniu jej skutków (zazwyczaj na podstawie wskazań narzędzi do monitorowania i obsługi alertów). Zespoły wewnętrzne pracują na zapleczu nad wykryciem, opanowaniem, osadzeniem w kontekście i rozwiązaniem incydentów, korzystając z narzędzi komunikacyjnych do współpracy.
- Zespół wsparcia w pierwszym kontakcie: Osoby, które będą bezpośrednio odpowiadały na pytania i przekazywały klientom aktualne informacje podczas incydentu. Jest to niezwykle ważna rola, ponieważ zespół ten musi mieć dostęp do właściwych informacji, aby móc przekazać je użytkownikom końcowym.
- Kierownictwo niższego i wyższego szczebla: Główny zespół musi być w kontakcie z tą grupą i powiadamiać należące do niej osoby o bieżącej sytuacji, potencjalnych skutkach dla dwóch poniższych grup oraz szacowanym czasie trwania incydentu.
- Wszyscy pracownicy: Pracownicy muszą być informowani o wyłączeniach i ponownym udostępnianiu usług, z których korzystają. Proaktywna komunikacja z tymi użytkownikami przekłada się na zmniejszenie liczby pytań o aktualny status, zdublowanych zgłoszeń o wsparcie IT oraz większą koncentrację na rozwiązaniu problemu.
- Klienci zewnętrzni: Jeśli incydent dotyczy klientów zewnętrznych, konieczne jest wysłanie komunikatów z objaśnieniem problemu oraz przewidywaną datą jego usunięcia — lub przynajmniej informacją o wysyłaniu aktualności co określoną ilość czasu. W przypadku zgłoszeń, które wpływają na możliwość korzystania z produktu przez klientów, zalecamy przesyłanie aktualności nie rzadziej niż co godzinę. Zawsze należy wskazać, kiedy klient może spodziewać się kolejnej aktualizacji. Jeśli incydent jest poważny — a zwłaszcza jeśli obejmuje naruszenie bezpieczeństwa lub utratę danych — zdecydowanie trzeba przyspieszyć komunikację zewnętrzną i zaangażować inne konieczne zespołu (prawny, kadrowy, bezpieczeństwa itp.).
Konfiguracja szablonów do powiadamiania o incydentach i przerwie w dostawie usług
W ferworze towarzyszącym incydentowi ostatnią rzeczą, którą chcesz się zajmować, jest formułowanie komunikatów o incydentach. Niewłaściwa treść komunikatu stanowi idealny cel dla menedżerów odpowiedzialnych za zagadnienia nietechniczne, którzy mogą szukać pretekstu do skrytykowania procesu reagowania Twojego zespołu.
Z wyprzedzeniem ustal i zatwierdź u kierownictwa treść komunikatów, a następnie zapisz je w formie szablonu. Dzięki temu z łatwością wprowadzisz odpowiednie szczegóły i udostępnisz komunikat w razie incydentu.
Poniżej przedstawiamy dwa szablony komunikatów o incydentach, jakie zamieszczamy na naszej własnej stronie powiadamiania o statusie:
- Witryna jest w tej chwili obciążona w stopniu większym niż zazwyczaj, co może spowodować powolne działanie lub brak reakcji stron. Aktualnie badamy przyczynę i możliwie jak najszybciej udostępnimy nowe informacje.
- Po stronie naszego dostawcy pamięci masowej danych wskaźników publicznych występują obecnie problemy z infrastrukturą. W miarę rozwoju sytuacji i udostępnienia nam dodatkowych informacji będziemy przekazywać dalsze komunikaty.
Więcej przykładów znajdziesz w naszej bibliotece szablonów dotyczących incydentów.
Profesjonalne zarządzanie komunikacją
Cykl obsługi incydentu prawdopodobnie będzie obejmował kilka punktów kontaktu. Dobrze przygotowany proces reagowania na incydent ma znaną już trójfazową strukturę i obejmuje pierwszy kontakt, przekazywanie aktualnych informacji w trakcie incydentu oraz rozwiązanie i analizę post-mortem.
Wstęp: scentralizowana komunikacja między zespołami wewnętrznymi
Przede wszystkim zespoły wewnętrzne stanowiące zaplecze do obsługi incydentu powinny mieć wyznaczoną platformę komunikacyjną i pozostawać w gotowości na wypadek wystąpienia incydentu.
Centralizacja i filtrowanie alertów z różnych narzędzi do monitorowania, rejestrowania oraz ciągłej integracji i ciągłego wdrażania pozwalają na szybką reakcję zespołu. Dysponując taką platformą jak Jira Service Management, zespoły mogą błyskawicznie opanować incydent, zyskać kontekst i pozostawać ze sobą w kontakcie przez cały czas trwania incydentu.
Część 1: Pierwszy kontakt
Początkowy komunikat jest najważniejszy. Na sposób postrzegania Twojej reakcji będzie wpływać wiele czynników, takich jak treść, sposób i czas przekazania komunikatu. W takiej sytuacji zdecydowanie pomocne jest przygotowanie z wyprzedzeniem szablonu.
Twoim celem powinno być szybkie rozpoznanie problemu, krótkie podsumowanie jego znanych skutków, zobowiązanie się do przekazywania dalszych aktualności, a w miarę możliwości także rozwianie wszelkich obaw dotyczących bezpieczeństwa lub utraty danych. Ważne jest potwierdzenie, że faktycznie wystąpił problem, nawet jeśli szczegóły nie są jeszcze znane.
Część 2: Regularne przekazywanie aktualnych informacji w trakcie incydentu
Komunikacja w trakcie incydentu ma krytyczne znaczenie.
Zespoły serwisantów witryn w Google wskazują kierownika ds. komunikacji jako jedną z kluczowych ról, które trzeba przyjąć w trakcie incydentu.
W książce Google pt. „Serwisowanie witryn” tak opisuje się rolę kierownika ds. komunikacji:
Taka osoba jest prezentowanym publicznie obliczem sił zadaniowych odpowiedzialnych za reagowanie na incydent. Do jej obowiązków należy przekazywanie okresowych aktualności zespołowi reagującemu na incydent oraz interesariuszom (zazwyczaj e-mailowo), a czasami także do zadań tej osoby należy prowadzenie dokładnej i aktualnej dokumentacji dotyczącej incydentów”.
Osoba ta będzie również odpowiedzialna za ciągłe aktualizowanie strony z informacjami o statusie lub zamieszczanie aktualności na innych kanałach w miarę rozwoju sytuacji. Lepiej już zamieścić komunikat o treści „Wciąż pracujemy nad rozwiązaniem problemu i nie możemy przekazać żadnych nowych informacji” niż nie zamieścić żadnej informacji, pozostawiając swoich odbiorców bez wieści. Bez dostępu do informacji ludzie zaczynają spodziewać się najgorszego.
Komunikacja z poszkodowanymi użytkownikami i innymi interesariuszami jest konieczna. Wykorzystaj ustalone wcześniej kanały do informowania użytkowników na bieżąco. Na stronie głównej możesz dodać na przykład alert Statuspage, aby uświadomić klientom, że Twój zespół wie o problemie, i zaoszczędzić czas agentów, którzy nie będą musieli obsłużyć ogromu zapytań. Informuj klientów na bieżąco przy użyciu wielu kanałów komunikacji, w tym wiadomości SMS, e-mail i powiadomień push na telefony komórkowe.
Niezależnie od używanego narzędzia, zalecamy wyznaczenie jednego głównego kanału komunikacji, do którego użytkownicy będą przekierowywani ze wszystkich innych kanałów. Zarządzanie komunikacją w trakcie incydentów przy użyciu systemu Jira Service Management pozwala zyskać pewność, że właściwe komunikat dotrą do odpowiednich ludzi.
Część 3: Rozwiązanie, analiza post-mortem, dalsze kroki
W 2010 roku serwis Facebook doznał największej w swojej historii awarii. Przez około 2,5 godziny sieć społecznościowa była niedostępna dla milionów spośród pół miliarda ówczesnych użytkowników.
Był to koszmarny czas dla rozwijającego się giganta technologicznego, który wciąż stał u progu gigantycznego wzrostu liczby użytkowników i starał się udowodnić w świecie biznesu wartość swojej usługi.
Gdy opadł kurz, inżynier Facebooka opublikował podsumowanie incydentu na blogu technicznym firmy w 395 słowach.
Wpis z bloga (w języku angielskim):
Dziś w godzinach porannych serwis Facebook był niedostępny lub nieosiągalny dla wielu z Was przez około 2,5 godziny. To najgorsza awaria, z jaką mieliśmy do czynienia w ciągu ponad czterech lat działalności i przede wszystkim pragniemy za nią przeprosić. Chcieliśmy również podać więcej szczegółów technicznych na temat zaistniałego zdarzenia i podzielić się wyciągniętymi wnioskami.
Zarys struktury analizy jest prosty:
- Potwierdź problem, wczuwając się w rolę osoby poszkodowanej i przeproś.
- Wyjaśnij, co i dlaczego poszło nie tak.
- Wyjaśnij, jakie czynności podjęto w celu rozwiązania incydentu i zapobieżenia wystąpieniu podobnych incydentów w przyszłości.
- Ponownie potwierdź problem, okaż wyrazy solidarności i przeproś.
W takich komunikatach nie ma miejsca na kwiecisty język ani górnolotne deklaracje. Komunikaty powinny być proste i bezpośrednie. Przykładem może być wpis z bloga Facebooka:
Raz jeszcze przepraszamy za awarię witryny i chcemy, żebyście wiedzieli, że z dużą powagą traktujemy kwestie wydajności i niezawodności Facebooka.
Takie sformułowanie komunikatu sprawi, że klienci i współpracownicy będą w większym stopniu przekonani, że prowadzisz zespół w sposób zrównoważony i trzymasz rękę na pulsie. Więcej pomysłów znajdziesz w naszym szablonie analizy post-mortem w procesie reagowania na incydenty.
Realia oferowania usług dostępnych przez cały czas są takie, że czasami coś ulega nieoczekiwanej awarii. Efektywna komunikacja w trakcie przestoju może przyczynić się do zbudowania zaufania wśród współpracowników i klientów. Właściwa reakcja może mieć decydujące znaczenie. Opracowaliśmy również to proste narzędzie, które pomoże Ci szybko sformułować skuteczne komunikaty w trakcie incydentów.
Omawiane produkty
Z łatwością informuj użytkowników o stanie usług w czasie rzeczywistym.
Poznaj proces informowania o incydentach za pomocą Statuspage
W tym samouczku pokażemy, jak wykorzystać szablony dotyczące incydentów do skutecznej komunikacji w trakcie awarii. Ich elastyczny charakter pozwala na dostosowanie ich do różnego rodzaju przerw w dostawie usług.
Przeczytaj ten samouczekSzablony i przykłady informowania o incydentach
Podczas reagowania na incydent szablony komunikatów są nieocenione. Pobierz szablony, z których korzysta nasz zespół, a także inne przykłady dotyczące częstych incydentów.
Przeczytaj ten artykuł