Zarządzanie incydentami dla dynamicznych zespołów
Obliczanie kosztu przestoju
Zrozumienie skutków finansowych poważnych incydentów
W marcu 2015 roku 12-godzinna awaria sklepu firmy Apple kosztowała ją 25 mln USD.
W sierpniu 2016 roku pięciogodzinna awaria zasilania w centrum operacyjnym Delta Airlines doprowadziła do anulowania 2000 lotów i strat szacowanych na 150 mln USD.
W marciu 2019 roku 14-godzinna awaria przyniosła serwisowi Facebook straty szacowane na 90 mln USD.
A to ogromni gracze. Liderzy branży. Firmy z wysokimi marżami operacyjnymi i milionami na kontach. Mogą przetrwać jednodniowe załamanie finansowe. Prawda jest taka, że choć w przypadku mniejszych firm straty spowodowane poważnym incydentem są odpowiednio mniejsze, to właśnie te mniejsze straty mogą mieć większy wpływ na ich wyniki finansowe.
I faktycznie, badanie przeprowadzone wśród 101 startu-pów wykazało, że w przypadku 29% spośród tych, które zakończyły działalność, przyczyną był brak środków. W startu-pach, które od początku są narażone na ryzyko, trudno wyobrazić sobie sytuację, w której poważny incydent nie doprowadzi do upadku.
Morał z tej historii jest taki, że przestoje to poważna sprawa. Każdy, kto twierdzi inaczej, nie uważał. Incydenty nie tylko mają potencjalnie toksyczny wpływ na zaufanie i lojalność klientów. Są one również ponurym finansowym żniwiarzem.
Średni koszt przestoju
Według badania przeprowadzonego przez firmę Gartner w 2014 roku średni koszt przestoju wynosi 5600 USD na minutę. Wskazuje ona jednak wyraźnie, że jest to wartość średnia. W raporcie firmy Avaya z tego samego roku stwierdzono, że średnia waha się od 2300 USD do 9000 USD na minutę, w zależności od czynników, takich jak wielkość firmy czy branża. A od 2014 roku te liczby wzrosły. Nowszy raport (opracowany przez Ponemon Institute w 2016 roku) zwiększa podany przez firmę Gartner średni koszt z 5600 USD na minutę do blisko 9000 USD na minutę.
W przypadku małych firm ta liczba spada do niższej, ale wciąż znaczącej kwoty wynoszącej od 137 do 427 USD na minutę. Pozycja Twojej firmy w tych widełkach zależy od wielu czynników, takich jak branża, wielkość organizacji czy model biznesowy.
Branża
Do branży o najwyższym poziomie ryzyka należą bankowość/finanse, administracja publiczna, służba zdrowia, produkcja, media i komunikacja, handel detaliczny i transport / usługi komunalne. Badanie z 2016 roku wykazało, że średni koszt przestoju w tych branżach sięgał 5 mln USD na godzinę.
Wielkość organizacji
Kluczowym czynnikiem jest także wielkość organizacji. Według badania przeprowadzonego przez IDC koszt godziny przestoju dla firm z listy Fortune 1000 sięga 1 mln USD. Według raportu z badań opublikowanego przez IHS incydenty kosztują przeciętną firmę średniej wielkości 1 mln USD rocznie, natomiast w przypadku dużych przedsiębiorstw ta kwota może wynosić 60 mln USD, a nawet więcej.
Model biznesowy
Na obliczenia kosztów przestojów duży wpływ mają również modele biznesowe. Sklep internetowy bez placówek stacjonarnych oczywiście straci na awarii witryny znacznie więcej niż firma, która ma sklepy stacjonarne. Im bardziej model biznesowy opiera się na czasie dostępności, tym większe (co jest logiczne) będą straty spowodowane przestojem.
W przypadku giganta e-commerce Amazon, którego cały model biznesowy bazuje na dostępności, szacunkowy koszt przestoju wynosi około 13,22 mln USD na godzinę. Facebook — którego przychody zależą od wyświetleń reklam — również szacuje koszty przestojów w milionach.
Uproszczony kalkulator kosztu przestoju
Aby szybko oszacować prawdopodobne koszty przestoju Twojej firmy, skorzystaj z następującego wzoru, który uwzględnia wielkość firmy oraz wyrażoną w minutach długość trwania ostatniego incydentu:
Koszt przestoju = liczba minut przestoju × koszt za minutę
W przypadku małej firmy przyjmij koszt za minutę wynoszący 427 USD. W przypadku średniej i dużej firmy — 9000 USD.
Zrozumienie całkowitego kosztu przestoju
Zastanawiając się nad kosztami przestoju, przeciętna osoba prawdopodobnie skoncentruje się na utracie przychodów lub być może kombinacji utraty przychodów i spadku wydajności pracowników. Jednak prawda jest taka, że koszty przestojów sięgają znacznie głębiej.
Według Ponemon, niezależnej firmy badawczej ds. bezpieczeństwa i ochrony danych, największą część kosztu przestoju stanowią zakłócenia działalności. Do tej kategorii zalicza się między innymi uszczerbek na wizerunku i utrata klientów. Utrata przychodów zajęła drugie miejsce w tym badaniu. Trzecim z kolei źródłem strat finansowych związanych z incydentem okazała się produktywność użytkowników końcowych.
Inną często uwzględnianą kategorię strat stanowi spadek wydajności wewnętrznej zespołu IT zajmującego się rozwiązywaniem incydentu, członków innych zespołów zaangażowanych w proces zarządzania incydentami (np. menedżerów ds. PR i mediów społecznościowych czy agentów działu obsługi klienta), a także innych pracowników poszkodowanych w wyniku awarii.
W przypadku dostawców oprogramowania kary umowne wynikające z umów SLA, grzywny administracyjne (za naruszenie wymagań prawnych) oraz koszty sporów sądowych i ugód to bardzo realne straty finansowe. Natomiast w przypadku firm obracających produktami fizycznymi znaczne ryzyko stanowią wyczerpane zapasy.
Nie wspominając już o kosztach podwykonawców, wymianie sprzętu i problemach z retencją pracowników. W końcu incydenty są źródłem stresu. Stres doprowadza do niezadowolenia pracowników. A niezadowoleni pracownicy się zwalniają. Eksperci szacują, że koszt zastąpienia pracownika jest równy 33% jego rocznej pensji.
Sposoby minimalizacji kosztów przestojów
Liczby, takie jak przedstawione powyżej, wyraźnie pokazują, że minimalizacja przestojów powinna stanowić priorytet dla firm dowolnej wielkości, niezależnie od branży. Jak więc ograniczyć ryzyko przestojów i zminimalizować koszty? Oto pięć sprawdzonych sposobów:
Utworzenie szczegółowego planu odzyskiwania awaryjnego
Co zrobisz, gdy dojdzie do przestoju? Jeśli nie znasz jeszcze odpowiedzi na to pytanie, odpowiedź domyślna brzmi: „będę marnować cenny czas na próby wymyślenia, co robić”.
Im lepszy plan reagowania na incydenty opracujesz, tym szybciej i skuteczniej będą sobie radzić z incydentami Twoje zespoły. Dlatego pierwszym krokiem każdego nowego programu zarządzania incydentami powinno być opracowanie procesu i planu.
Przejrzysta i częsta komunikacja
Biorąc pod uwagę, że zakłócenie działalności odpowiada aż za 35% kosztów przestojów, szczególnie ważne jest położenie nacisku na komunikację podczas incydentu oraz obsługę klientów w trakcie incydentu i po jego zakończeniu.
Wyeliminowanie pojedynczych punktów podatności na awarię
Wyeliminowanie pojedynczych punktów podatności na awarię z istniejącej infrastruktury i istniejących procesów jest jednym z najszybszych sposobów na ograniczenie przestojów i obniżenie ich kosztów. Obejmuje to m.in. równoważenie obciążenia między serwerami, przestrzeganie dobrych praktyk tworzenia kopii zapasowych oraz uwzględnienie wzajemnej weryfikacji i technicznych zabezpieczeń przed awarią we wdrożeniach.
Nacisk na zapobieganie
Nie ma sposobu na całkowite wyeliminowanie ryzyka incydentów. Nie oznacza to jednak, że nie da się go zminimalizować.
Wysoki koszt przestoju jest w istocie dla kierownictwa dobrą motywacją do priorytetowego potraktowania konieczności wymiany przestarzałych systemów i zabezpieczeń, a także rozwiązywania problemów, zanim jeszcze przerodzą się w incydenty.
Konsekwentne przeprowadzanie analiz post-mortem
Gdy dochodzi do przestoju (a w naszym złożonym, technicznym świecie w końcu zawsze do niego dochodzi), najlepszym sposobem zapobiegania ponownym awariom w przyszłości, jest konsekwentne przeprowadzanie analiz post-mortem.
Analiza post-mortem umożliwia zespołom wspólne omówienie szczegółów incydentu: dlaczego do niego doszło, jaki był jego wpływ, jakie działania zostały podjęte, aby go rozwiązać i złagodzić jego skutki, oraz — przede wszystkim — co należy zrobić, aby zapobiec ponownemu wystąpieniu incydentu.
W Atlassian przeprowadzamy analizy post-mortem bez wskazywania winnych, koncentrując się na głównej przyczynie problemu, a nie dociekaniu winy. Jesteśmy również zwolennikami inteligentnej dokumentacji zawierającej podsumowanie wniosków wyciągniętych z analiz post-mortem i sugestie dotyczące ulepszeń, które pomogą uniknąć ponownego wystąpienia właśnie rozwiązanego problemu.
Rozwiązanie Jira Service Management zostało opracowane, aby ułatwić zespołom szybkie rozwiązywanie incydentów i tym samym minimalizację kosztu przestoju.
Poznaj proces informowania o incydentach za pomocą Statuspage
W tym samouczku pokażemy, jak wykorzystać szablony dotyczące incydentów do skutecznej komunikacji w trakcie awarii. Ich elastyczny charakter pozwala na dostosowanie ich do różnego rodzaju przerw w dostawie usług.
Przeczytaj ten samouczekZnaczenie procesu analizy post-mortem incydentu
Analiza post-mortem incydentu, nazywana również przeglądem po incydencie, jest najlepszym sposobem na podsumowanie tego, co zdarzyło się w trakcie incydentu, i wyciągnięcia wniosków.
Przeczytaj ten artykuł