Zarządzanie incydentami dla dynamicznych zespołów
Język zarządzania incydentami
Słowniczek dla zespołów zarządzających incydentami
Język używany w ekosystemie technologicznym jest, delikatnie mówiąc, dynamiczny. Nigdzie indziej nie znajdzie się podobnej mieszanki żargonu technicznego z płynnie wplecionymi odniesieniami do science fiction, mitologii, popkultury, historii i literatury. Choć nadaje to rozmowom barwny i ciekawy charakter, często utrudnia dojście do sedna sprawy.
Gdy nie dzieje się nic pilnego, taki język się sprawdza. Jeśli jednak dojdzie do incydentu, a poziomy ważności zaczną szybować w górę, potrzeba języka precyzyjnego pod względem technicznym, praktycznego i pozwalającego uniknąć ryzyka błędnej interpretacji.
To oznacza, że w kwestii zarządzania incydentami potrzeba zbioru precyzyjnych definicji, aby każdy wiedział, o czym jest mowa.
Potwierdzenie incydentu
Po wygenerowaniu alertu o incydencie użytkownik może potwierdzić alert w większości narzędzi do obsługi alertów dla osób pełniących dyżur domowy. Oznacza to, że użytkownik bierze odpowiedzialność za zgłoszenie i pracuje nad jego rozwiązaniem.
Użyteczny alert
Alert użyteczny to taki, który jasno opisuje problem i jego skutki oraz jest skierowany do właściwych osób we właściwym czasie, aby zespół mógł niezwłocznie podjąć działania.
Monitorowanie aktywne
Systemy wyposażone w funkcję monitorowania aktywnego są regularnie sprawdzane lub automatycznie monitorowane za pomocą oprogramowania pod kątem wszelkich zmian wydajności, które mogą doprowadzić do incydentów.
Przegląd po zakończeniu działań (AAR)
Przegląd po zakończeniu działań jest ustrukturyzowanym procesem przeglądu, realizowanym po wystąpieniu zdarzenia. Zazwyczaj obejmuje on szczegółowy opis zdarzenia, próby identyfikacji jego przyczyn oraz wskazanie obszarów poprawy, aby zapobiec wystąpieniu takich samych lub podobnych zdarzeń w przyszłości. Przeglądy po zakończeniu działań są nazywane powszechnie analizami post-mortem lub przeglądami po incydentach.
Uzgodniony czas świadczenia usługi (AST)
Uzgodniony czas świadczenia usługi oznacza ilość czasu, zazwyczaj wyrażoną w liczbie godzin rocznie, przez którą usługa ma być dostępna. Takie uzgodnienie zazwyczaj jest zamieszczane w umowie o gwarantowanym poziomie świadczenia usług (SLA) zawieranej między dostawcą a klientem. W przypadku usług o wysokiej dostępności ich deklarowany czas dostępności wynosi zazwyczaj 99,99%, co oznacza, że długość przestojów w ciągu roku musi być łącznie mniejsza niż jedna godzina.
Alert
Alarm lub ostrzeżenie generowane, gdy narzędzia do monitorowania wykryją zmiany, działania wysokiego ryzyka lub awarie w środowisku IT.
Szum alertów
Szum alertowy występuje, gdy w krótkim czasie zostaje wygenerowana przytłaczająca liczba alertów, co utrudnia osobom reagującym precyzyjne ustalenie dotkniętych usług i wyznaczenie priorytetów prac. Szum alertowy może przyczyniać się do niewrażliwości na alerty.
Zmęczenie alertami
Niewrażliwości na alerty występuje, gdy osoby reagujące na incydenty zostają przytłoczone liczbą lub częstotliwością alertów. Często prowadzi do wydłużenia czasu reakcji, a nawet całkowitego braku reakcji, ponieważ osoby reagujące mają tendencję do traktowania stale napływających alertów za normalny stan.
Zawsze dostępne usługi
Usługa, która ma działać w sposób ciągły.
Zasób / zarządzanie zasobami
Komponenty dowolnego systemu lub dowolnej sieci, które mają wartość biznesową. Zarządzanie zasobami ma miejsce, gdy pracownik lub zespół prowadzą wykaz tych komponentów, aby zrozumieć wpływ aktualizacji lub usunięcia systemu.
Audyt
Formalne badanie dostępności i wykorzystania systemu lub procesu, a także ustalenie, czy zasady, wytyczne i najlepsze praktyki są przestrzegane.
Dostępność
Okres, gdy produkt lub system jest dostępny i działa zgodnie z oczekiwaniami. Nazywany również czasem dostępności systemu.
Wycofanie
Praktyka przywracania usługi do poprzedniego stanu niezawodności lub punktu odniesienia. Zwykle jest to szybka naprawa stosowana, gdy aktualizacja lub wydanie spowodują uszkodzenie jakiegoś ważnego składnika systemu.
Kopia zapasowa
Zapisana kopia danych lub nadmiarowy system dostępne do użycia w przypadku naruszenia lub utraty oryginału.
Punkt odniesienia
Wzorzec oczekiwanego zachowania. Punkty odniesienia ułatwiają zespołom pomiar zmian i ulepszeń.
Poziom odniesienia
Punkt odniesienia używany do pomiaru postępu lub porównywania wyników. Jeśli na przykład normą w naszej branży jest czas dostępności na poziomie 99,99%, możemy wykorzystać ten poziom odniesienia do pomiaru własnych wyników na tle konkurencji i oczekiwań klientów.
Błąd
Niezamierzony problem w oprogramowaniu, kodzie itp., który może powodować nieprawidłowe zachowanie lub awarię.
Analiza wpływu na działalność biznesową (BIA)
Analiza wpływu na działalność biznesową to systematyczna ocena potencjalnych skutków zakłóceń w działaniu usług i ich przestojów spowodowanych poważnym incydentem. Celem tej analizy jest zrozumienie wpływu poszczególnych usług na działalność biznesową i określenie wymagań dotyczących odzyskiwania w przypadku incydentu.
Zdolności produkcyjne
Maksymalna ilość informacji, którą można przesłać między sieciami lub dostarczyć za pośrednictwem usługi. Przekroczenie wydajności jest częstym wskaźnikiem incydentów.
Zmiana
Wszelkie modyfikacje dokonane w usłudze IT, konfiguracji, sieci lub procesie. Często śledzone w ramach praktyki nazywanej zarządzaniem zmianami.
Historia zmian
Kompleksowy rejestr zmian dokonanych w usłudze IT, konfiguracji, sieci lub procesie od początku jego cyklu życia aż do stanu bieżącego.
Zarządzanie zmianami
Praktyka IT skoncentrowana na minimalizacji zakłóceń podczas wprowadzania zmian/aktualizacji w krytycznych systemach i usługach. W przypadku niektórych zespołów obejmuje to wszystkie aspekty zmian — od technicznych aż po osobowe i procesowe. W innych zespołach — korzystających z wytycznych ITIL 4 — zarządzanie zmianami koncentruje się na zarządzaniu ludzkimi lub kulturowymi aspektami zmian, podczas gdy do oceny ryzyka, harmonogramów i autoryzacji zmian wykorzystuje się inną praktykę nazywaną kontrolą zmian.
ChatOps
Praktyka wykorzystywania narzędzi czatu i współpracy w zarządzaniu incydentami. Jak wyjaśnia Sean Regan z Atlassian:
„ChatOps jest modelem współpracy scalającym ludzi, narzędzia, proces oraz automatyzację w ramach przejrzystego przepływu pracy. Ten przepływ łączy prace wymagane, realizowane i ukończone w stałej lokalizacji obsługiwanej przez ludzi, boty i powiązane narzędzia”.
Stan zamknięty
Incydent znajduje się w stanie zamkniętym, gdy wszystkie niezbędne działania zostały podjęte, a zgłoszenie zostało zamknięte.
Zimna rezerwa (stopniowe przywracanie)
Terminu zimna rezerwa używa się w przypadku systemu, który pełni funkcję rezerwy dla innego systemu. Jeśli system podstawowy ulegnie awarii, zimna rezerwa zastąpi ten system na czas jego naprawy. Ta strategia jest szczególnie przydatna, gdy awaria systemu wymaga stopniowego przywracania (które może trwać nawet kilka tygodni) w przypadku konieczności wymiany i skonfigurowania sprzętu komputerowego.
Zimny start
Z zimnym startem mamy do czynienia wówczas, gdy uruchomienie aplikacji, która nie pracuje, trwa dłużej niż uruchomienie „ciepłej” lub już pracującej aplikacji.
Lider ds. komunikacji
Członek zespołu odpowiedzialny za komunikację podczas incydentu.
Zgodność
Dostosowanie do regulacji prawnych. Często systemy monitorowania są zaprogramowane do monitorowania problemów ze zgodnością z przepisami i wyzwalają alerty, jeśli system przestanie spełniać wymagania.
Analiza wpływu awarii komponentu (CFIA)
Proces ustalania wpływu na usługę sytuacji, w której jeden komponent lub jedna konfiguracja przestaje działać zgodnie z oczekiwaniami.
Współbieżność
Miara określająca liczbę takich samych czynności zachodzących równocześnie w systemie. Przykładowo: ilu użytkowników uzyskuje dostęp do tej samej operacji lub wykonuje tę samą transakcję?
Kontrola
Procedury i zasady, które mają na celu zarządzanie ryzykiem, zapewnienie zgodnego z oczekiwaniami działania produktu lub usługi oraz zachowanie zgodności z przepisami.
Usługa podstawowa
Usługa, która pełni centralną funkcję dla użytkowników/klientów.
Przeciwdziałanie
Konkretne reaktywne działanie podejmowane w celu ochrony systemu lub przywracania działania.
Usługa zorientowana na klienta
Usługi, z których korzystają klienci i z którymi wchodzą w interakcje.
Ramy postępowania Cynefin
Konstrukcja podejmowania decyzji, która została dostosowana do procesów zarządzania incydentami, aby pomóc menedżerom w organizowaniu jak najskuteczniejszej reakcji. W tych ramach postępowania sytuacje są podzielone na pięć kategorii, w zależności od poziomu złożoności incydentu, a każda kategoria ma swój własny (inny) zestaw kolejnych kroków.
Pulpit
Jednoekranowa wizualizacja systemów, alertów i incydentów, opracowana w celu uporządkowania prezentacji informacji pochodzących z różnych narzędzi z uwzględnieniem danych kontekstowych w przejrzystym, precyzyjnym formacie.
Zależność
Relacja między dwoma usługami, procesami lub konfiguracjami, których działanie jest powiązane ze sobą nawzajem.
Wycofywanie
Zachodzi, gdy funkcja lub narzędzie są wycofywane z eksploatacji lub użycia albo przestaje się je aktualizować.
Diagnoza
Proces i wynik zrozumienia incydentu i jego głównej przyczyny.
Diagnostyka
Objawy lub oznaki, które prowadzą do diagnozy incydentu.
Przestój/niedostępność
Czas, w którym usługa nie działa zgodnie z oczekiwaniami lub jest niedostępna.
Zmiana pilna
Aktualizacja lub poprawka wdrażana na szybko, zwykle w ramach rozwiązywania incydentu. Zmiany pilne często nie podlegają procesom zatwierdzania zmian, ponieważ ryzyko związane z oczekiwaniem na zatwierdzenie jest większe niż ryzyko wynikające z wdrożenia zmiany.
Usługa umożliwiająca
Usługa niezbędna do działania usługi podstawowej, ale nie udostępniana bezpośrednio klientom.
Środowisko testowe*
Infrastruktura, w której usługa, funkcja, proces, element konfiguracji itp. są testowane pod kątem oczekiwanej funkcjonalności. To środowisko jest ściśle kontrolowane, aby stanowiło dokładne odwzorowanie środowiska produkcyjnego.
Środowisko produkcyjne
Infrastruktura, za pomocą której usługa jest dostarczana do klienta. Wyniki dostarczane w tym środowisku funkcjonują na żywo, dlatego czasem nazywa się je środowiskiem działającym na żywo.
Błąd
Pomyłka powodująca usterkę elementu konfiguracji lub usługi. Może to być błąd w projekcie, sposobie przetwarzania lub błąd ludzki.
Eskalacja
Proces przenoszenia zadania zarządzania incydentem do zespołu lub osoby z bardziej odpowiednimi umiejętnościami lub doświadczeniem. Eskalacja funkcyjna ma miejsce, gdy alert lub incydent są przekazywane osobie lub zespołowi z większą wiedzę specjalistyczną. Eskalacja hierarchiczna ma miejsce, gdy wspomniany alert lub incydent jest przekazywany przez osobę młodszą stażem do osoby starszej stażem.
Zdarzenie
Warta odnotowania sytuacja dotycząca systemu lub usługi. Zdarzenia są zwykle spowodowane działaniem użytkownika lub incydentem.
Raport niezgodności
Raport generowany, gdy kluczowe wskaźniki wydajności (KPI) przekraczają wartości progowe lub nie są zgodne z oczekiwaniami.
Odporność na błędy
Odporność na błędy opisuje zdolność usługi do dalszego działania, nawet jeśli element konfiguracji lub pojedyncza część ulegnie awarii.
Analiza drzewa błędów
Technika stosowana do ustalania zdarzeń, które doprowadziły do incydentu, i przewidywania, które zdarzenia mogą doprowadzić do incydentów w przyszłości. Często stosowana do ustalania głównej przyczyny poważnego incydentu.
Pierwsza linia wsparcia
Osoba reagująca, która ma jako pierwsza zareagować na incydent. Zazwyczaj jest to osoba pełniąca dyżur domowy.
Napraw
Działanie podejmowane w celu naprawy lub sposób naprawy.
Środek trwały
Środek trwały jest rzeczowym składnikiem majątku firmy, takim jak biuro, komputer czy licencja.
Praca rotacyjna w kolejnych strefach czasowych
Metoda zapewniania wsparcia klientom lub zarządzania incydentami z rotacją obowiązków związanych z dyżurami domowymi w strefach czasowych w celu zapewnienia całodobowej dostępności bez wymagania od zespołów prowadzenia dyżurów domowych w nocy.
Dochodzenie kryminalistyczne
Naukowa, oparta na dowodach analiza systemu komputerowego w celu zidentyfikowania przyczyny incydentu.
Funkcjonalny
Usługa jest funkcjonalna, gdy może działać zgodnie z oczekiwaniami.
Stopniowe przywracanie
Stopniowe przywracanie jest procesem przywracania trwającym dłużej niż zwykle (tygodnie, a nie godziny). W takiej sytuacji zimna rezerwa (system zapasowy) jest przełączana do trybu online, zajmując miejsce dotkniętego systemu.
Gorąca rezerwa
Gorąca rezerwa jest opcją przywracania, w której zasoby nadmiarowe pracują równocześnie, aby zapewnić obsługę usługi IT w razie awarii. Jeśli aktywny system ulegnie awarii, gorąca rezerwa już działa i może zająć jego miejsce bez konieczności podejmowania dodatkowych działań przez zespół i bez przestoju. Nazywana również przywracaniem natychmiastowym.
Poprawka
Aktualizacja stosowana do oprogramowania w celu rozwiązania problemu lub naprawienia błędu. Często używana do rozwiązania problemu zgłaszanego przez klienta.
Wpływ
Miara kosztu (wyrażonego w utraconych pieniądzach, utraconym czasie i utraconej reputacji), który generuje zakłócenie działania usługi, incydent lub zmiana. Nazywana również kosztem przestoju.
Nieużyteczny alert
Alert, który nie daje osobie reagującej możliwości podjęcia konkretnych działań. Często oznacza to alert, w którym nie ma informacji kontekstowych, alert skierowany do niewłaściwej osoby lub alert o nieprecyzyjnie zdefiniowanym zakresie. Takie alerty mogą przyczyniać się do niewrażliwości na alerty.
Incydent
Zdarzenie powodujące zakłócenie działania lub obniżenie jakości świadczonej usługi, które wymaga pilnej reakcji. Zespoły przestrzegające praktyk ITIL lub ITSM mogą również używać terminu poważny incydent.
Reagowanie na incydenty
Sposób reagowania zespołów na incydent. Zazwyczaj reakcja na incydent jest procesem wstępnie skonfigurowanym, obejmującym reguły, role i najlepsze praktyki zdefiniowane przed wystąpieniem incydentu.
Zarządzanie incydentami
Proces stosowany przez zespoły DevOps i ds. eksploatacji IT w celu reagowania na nieplanowane zdarzenie lub przerwę w świadczeniu usługi i przywracania jej do stanu funkcjonalnego.
Zarządzający incydentami
Zarządzający incydentami jest członkiem zespołu IT lub DevOps odpowiedzialnym za zarządzanie reakcją na incydenty. Zarządzający jest kierownikiem zespołu ds. zarządzania incydentami, który sprawuje pełną kontrolę oraz ma ostatnie słowo przy podejmowaniu wszystkich decyzji związanych z incydentami. Ta rola często bywa również nazywana menedżerem ds. incydentów.
Cykl życia incydentu
Okres trwania incydentu — od momentu jego powstania i wykrycia aż po rozwiązanie.
Wskaźniki we/wy
Zbiór wskaźników przeznaczonych do pomiaru wejścia i wyjścia. Do typowych wskaźników w tej kategorii należą oczekiwanie na we/wy (czas, przez który procesor oczekuje na żądanie wejścia/wyjścia) i IOPS (liczba żądań wejścia/wyjścia na sekundę).
Koordynowanie reakcji na incydenty
Funkcja Opsgenie, która pozwala zespołom szybko i skutecznie identyfikować problemy, powiadamiać właściwe osoby oraz prowadzić komunikację między jednostkami biznesowymi i współpracę między zespołami na potrzeby zarządzania incydentami.
Zapis incydentu
Rejestr szczegółowych informacji na temat konkretnego incydentu oraz procesów zastosowanych w jego trakcie.
Reagujący na incydent
Osoby i/lub zespoły odpowiedzialne za zbadanie i rozwiązanie incydentu.
Interesariusze/obserwatorzy incydentów
Osoby, które muszą być na bieżąco informowane o incydencie, ponieważ wpływa on na ich pracę / zdolność do wykonywania tej pracy. Te osoby mogą wpływać na proces rozwiązywania incydentu, ale nie są osobami aktywnie reagującymi.
Przywracanie pośrednie
Nazywane również ciepłą rezerwą. Ten rodzaj przywracania trwa zazwyczaj 24–72 godzin. Przywracanie danych i/lub konfiguracja sprzętu i oprogramowania są zwykle przyczyną stosunkowo długiego czasu odzyskiwania sprawności.
Information Technology Infrastructure Library (ITIL)
Udokumentowany zbiór powszechnie akceptowanych najlepszych praktyk w zakresie usług IT.
Zarządzanie usługami informatycznymi (ITSM)
Wszystkie aspekty procesów i procedur wymaganych do świadczenia usług IT klientom. Obejmuje to wszystkie aspekty cyklu życia usługi — od projektu, przez dostarczenie, aż po zarządzanie incydentami.
Metoda Kepner-Tregoe (analiza KT)
Metoda analizy głównych przyczyn i podejmowania decyzji, w ramach której problemy poddaje się ocenie niezależnie od ostatecznej decyzji w sprawie zgłoszenia.
Kluczowe wskaźniki wydajności (KPI)
Są miarą pomyślnego działania systemów lub produktów. Wskaźniki KPI definiuje się z wyprzedzeniem i regularnie śledzi, a ich rozbieżność względem oczekiwanych progów często generuje alerty. Jeśli na przykład średni czas bezawaryjnej pracy (MTBF) zacznie się skracać, może zostać wygenerowany alert, aby powiadomić zespół o konieczności identyfikacji i analizy problemu.
Znany błąd
Istniejący wcześniej problem, dla którego znany jest już sposób obejścia.
Opóźnienie
Zwłoka występująca podczas transferu danych.
logs
Rejestry wszystkich zdarzeń związanych z usługą lub aplikacją. Obejmują one przesyłane dane, godziny i daty, incydenty, zmiany, błędy itp.
Utrzymywalność
Miara łatwości, z jaką można skutecznie zastosować zmiany w usłudze lub funkcji.
Obejście ręczne
Rozwiązanie zaimplementowane ręcznie (w odróżnieniu od rozwiązań implementowanych automatycznie).
Średni czas bezawaryjnej pracy (MTBF)
Średni czas między awariami produktu technologicznego, które można naprawić. Bywa nazywany również średnim czasem między incydentami (MTBSI).
Średni czas potwierdzenia (MTTA)
Średni czas, który upływa od wyzwolenia alertu do rozpoczęcia prac nad zgłoszeniem.
Średni czas do wystąpienia awarii (MTTF)
Średni czas między awariami produktu technologicznego, których nie można naprawić.
Średni czas naprawy (MTTR)
Średni czas potrzebny na naprawę systemu (zwykle technicznego lub mechanicznego). Obejmuje to zarówno czas naprawy, jak i czas testowania.
Średni czas przywracania (MTTR)
Średni czas potrzebny na przywrócenie działania produktu lub systemu po awarii. Obejmuje on całkowity czas trwania awarii — od momentu wystąpienia awarii systemu lub produktu do momentu, w którym odzyska on pełną sprawność.
Średni czas rozwiązywania (MTTR)
Średni czas potrzebny do całkowitego usunięcia awarii — w tym czas poświęcony na zapewnienie, aby awaria się nie powtórzyła.
Średni czas reakcji (MTTR)
Średni czas potrzebny na przywrócenie działania produktu lub systemu po awarii, liczony od momentu otrzymania pierwszego powiadomienia o awarii. Nie obejmuje on żadnych opóźnień w systemie obsługi alertów.
Model/modelowanie
Reprezentacja rzeczywistego systemu, rzeczywistej usługi, aplikacji itp.
Monitorowanie
Cykliczny proces sprawdzania usługi lub procesu w celu upewnienia się, że działa zgodnie z oczekiwaniami.
Zmiana normalna
Niepilna zmiana bez zdefiniowanego, wstępnie zatwierdzonego procesu.
Harmonogram dyżurów na wezwanie
Harmonogram, który zapewnia, że odpowiednia osoba jest zawsze, przez całą dobę dostępna, aby szybko zareagować na incydenty i awarie. Harmonogramy dyżurów domowych stosuje się powszechnie zarówno w branży medycznej, jak i technologicznej.
Centrum operacyjne
Fizyczna lokalizacja, w której odbywa się monitorowanie usług IT.
Lider ds. eksploatacji
Osoba odpowiedzialna za nadzorowanie codziennych działań. W niektórych przypadkach ta osoba może być również menedżerem ds. incydentów (lub zarządzającym incydentami) odpowiedzialnym za kierowanie procesem rozwiązywania incydentów.
Wynik
Rezultat zdarzenia, procesu lub zmiany w obszarze IT. Zespoły często posługują się pojęciami wyników prognozowanych i rzeczywistych.
Analiza uciążliwości
Analiza wykorzystana do identyfikacji wpływu incydentu na firmę. Zazwyczaj uwzględnia ona koszt przestoju, czas trwania incydentu, wpływ na użytkowników oraz liczbę poszkodowanych użytkowników.
Monitorowanie bierne
Określa stan, w którym funkcjonalność usługi jest monitorowana automatycznie (a nie aktywnie lub ręcznie).
Okres spokoju
Oznacza okres, w którym usługi działają, a operacje są prowadzone zgodnie z oczekiwaniami, bez żadnych zakłóceń.
Obniżenie wydajności
Miara spadku wydajności systemu z powodu zdarzenia lub incydentu.
Planowane przestoje
Okres, w którym usługa IT jest celowo niedostępna w związku z przerwą techniczną lub przeprowadzaniem aktualizacji.
Porady strategiczne
Zbiór scenariuszy lub konkretnych kroków, które zespół może zastosować, aby rozwiązać określony problem lub incydent albo osiągnąć zamierzony cel.
Analiza post-mortem / analiza po incydencie / przegląd po incydencie
Proces docierania do istoty incydentu po jego rozwiązaniu. Celem analizy post-mortem jest usprawnienie procesów reagowania, zapobieganie przyszłym incydentom i zrozumienie przyczyny ostatniego incydentu.
Priorytet
Kolejność, w której incydenty powinny być rozwiązywane. Pozycje o wysokim priorytecie są bardziej pilne niż te o niższym priorytecie. Priorytet zależy od pilności, ważności i potencjalnego wpływu na działalność biznesową.
Zapis problemu
Zapis problemu jest dokumentem, który obejmuje każdy aspekt problemu — od jego wykrycia aż po rozwiązanie.
Przewidywana niedostępność usługi
Dokument przedstawiający, w jaki sposób przyszłe przerwy techniczne lub testy wpłyną na normalne poziomy świadczenia usług.
Zapewnianie jakości
Proces testowania w celu zapewnienia spełnienia norm we wszystkich obszarach związanych z IT — od nowych funkcji po przewodniki.
System zarządzania jakością
Ramy postępowania lub systemy stosowane w celu zapewnienia jakości.
Monitorowanie reaktywne
Monitorowanie podejmowane w reakcji na zdarzenie lub incydent.
Odzyskiwanie
Proces przywracania usługi do funkcjonalności i kondycji stanowiących punkt odniesienia.
Docelowy punkt odzyskiwania
Maksymalna utrata danych dopuszczalna podczas odzyskiwania.
Docelowy czas odzyskiwania
Maksymalny czas przerwy w świadczeniu usług mieszący się w granicach tolerancji.
Git 1.8.2
Zmiana wdrożona do użytku przez użytkowników.
Zarządzanie wersjami
Planowanie, projektowanie, testowanie, tworzenie harmonogramów, rozwiązywanie problemów i wdrażanie związane ze zmianami.
Niezawodność
Zdolność systemu do opierania się awariom i szybkiego odzyskiwania sprawności w razie wystąpienia incydentu.
Czas reakcji
Czas, który upływa od momentu wygenerowania alertu do podjęcia przez zespół wstępnych działań.
Ocena ryzyka
Proces identyfikacji ryzyka powiązanego z danym zasobem poprzez ocenę jego wartości, potencjalnych zagrożeń i potencjalnego wpływu tych zagrożeń.
Zarządzanie ryzykiem
Proces postępowania z zagrożeniami poprzez ich identyfikację i kontrolowanie.
Główna przyczyna
Zazwyczaj przyjmuje się, że główna przyczyna jest pojedynczym powodem awarii usługi lub aplikacji. Jednak często występuje wiele powiązanych ze sobą czynników, które przyczyniają się do awarii, dlatego zespoły zaczynają kwestionować przydatność tego terminu w zarządzaniu incydentami i wiele z nich decyduje się stosować go w liczbie mnogiej: przyczyny główne.
Wykazy procedur
Wykazy procedur zawierają szczegółowe procedury zarządzania incydentami. Zazwyczaj są one prowadzone przez administratora systemu lub zespół ds. kontroli operacji sieciowych (NOC). Wykazy procedur mogą być udostępniane w formie cyfrowej lub drukowanej.
Zakres
Zasięg problemu, rozwiązania, projektu, funkcji itp.
Druga linia wsparcia
Osoby z dodatkowymi możliwościami — czasem, doświadczeniem, wiedzą, zasobami — do rozwiązywania problemów, które mogą wykraczać poza możliwości osób reagujących w pierwszej kolejności.
Zmiana usługi
Aktualizacje, poprawki, wycofania lub inne zmiany wprowadzone w usłudze.
Dział obsługi
Zespół, który przyjmuje wnioski o wsparcie klientów i pełni funkcję punktu kontaktowego między klientami a zespołem IT.
Analiza awarii usługi
Analiza awarii usługi jest procesem badania zakłócenia działania usługi w celu zidentyfikowania jego przyczyny.
Umowa o gwarantowanym poziomie świadczenia usług (SLA)
Umowa między dostawcą a klientem określająca wymierne wskaźniki, takie jak czas dostępności, szybkość reakcji i obowiązki.
Wykres monitorowania umowy o gwarantowanym poziomie świadczenia usług (SLAM)
Dokument, w którym rejestrowane są postępy oraz dane dotyczące docelowych poziomów świadczenia usług.
Docelowe poziomy świadczenia usług (SLO)
Wchodzące w skład umów SLA uzgodnienie dotyczące konkretnych wskaźników, takich jak czas dostępności.
Poziomy ważności (SEV)
Stopień, w jakim incydent wpływa na usługę. Zazwyczaj zespoły wykorzystują strukturę o liczbie poziomów ważności wynoszącej od 3 do 5, w której poziom 1 oznacza najwyższą ważność, a poziomy od 3 do 5 oznaczają mniej ważne zgłoszenia, które nie wymagają pilnej interwencji.
Pojedynczy punkt podatności na awarię
Jedna zmienna, od której zależy prawidłowe działanie systemu. Przykład: niezbędny element konfiguracji.
Specyfikacja
Formalny zapis wymagań dotyczących konfiguracji związanej z IT.
Inżynier ds. niezawodności lokalizacji (SRE)
Inżynier oprogramowania do spraw związanych z eksploatacją. Inżynierowie SRE odpowiadają zazwyczaj za automatyzację zadań wykonywanych ręcznie oraz zarządzanie poziomami SLO i incydentami.
Zmiany standardowe
Często powtarzane, wstępnie zatwierdzone zmiany niskiego ryzyka, takie jak dodanie pamięci lub pamięci masowej.
Rezerwa
Nieaktywne zasoby dostępne do wspomagania zarządzania incydentami.
Status
Aktualny stan usługi.
Strona stanu
Specjalne miejsce do informowania o aktualnym stanie usługi, w którym regularnie zamieszcza się aktualizacje dotyczące statusu w trakcie incydentów.
Ekspert w kwestiach merytorycznych (SME)
Osoba ze specjalistyczną wiedzą na temat konkretnego problemu, usługi itp.
Technologie wykorzystywane w projektach
Języki programowania, oprogramowanie i komponenty składające się na aplikację. Pakiet technologii ma dwie strony: frontend (z którym ma do czynienia klient) i backend (z którym mają do czynienia programiści).
Wskaźniki sprzężone
Dane, które w przypadku zmiany jednego zbioru lub punktu negatywnie wpływają na inne punkty danych.
Próg
Wstępnie zdefiniowany poziom, po przekroczeniu którego jest generowany alert. Przykładowo próg ładowania strony logowania może wynosić trzy sekundy. Jeśli strona zacznie się ładować dłużej, zostanie wygenerowany alert.
Oś czasu
Wyczerpująca lista zdarzeń, zmian, poprawek oraz wyników, które odnotowano w trakcie incydentu, wraz ze wskazaniem czasu ich wystąpienia.
Analiza trendów
Badanie wzorców czasowych. Analiza trendów zakłada, że na podstawie wzorców z przeszłości można prognozować przyszłe wzorce danych. To czyni ją cenną praktyką w zakresie zapobiegania incydentom.
Obejście problemu
Skuteczny sposób wdrożenia szybkiej poprawki, która przywraca funkcjonalność systemu, nawet jeśli sam incydent nie został jeszcze rozwiązany.
Obciążenie pracą
Zasoby — zarówno ludzkie, jak i komputerowe — potrzebne do dostarczenia usługi IT.
Konfigurowanie harmonogramu dyżurów domowych za pomocą Opsgenie
W tym samouczku nauczysz się konfigurować harmonogram dyżurów domowych, stosować reguły zastępujące, ustawiać powiadomienia o dyżurach domowych oraz wykonywać inne czynności w Opsgenie.
Przeczytaj ten samouczekPlusy i minusy różnych podejść do zarządzania dyżur domowy
Zespoły na dyżurach domowych szybko się rozwijają. Poznaj zalety i wady różnych podejść do zarządzania dyżurami domowymi.
Przeczytaj ten artykuł