Close

Zarządzanie incydentami dla dynamicznych zespołów

SLA, SLO i SLI — na czym polega różnica?

Jeśli można wskazać jedną rzecz, która łączy wszystkie firmy technologiczne, są nią użytkownicy.

Bez względu na to, czy mowa o wyszukiwarce Google obsługującej każdego miesiąca miliard aktywnych użytkowników, którzy korzystają z usługi zupełnie za darmo, czy o rozwiązaniu Salesforce z 3,75 miliona płatnych subskrybentów, tworzenie produktu technologicznego oznacza świadczenie usług na rzecz ludzi.

A w obecnym świecie ciągłej dostępności oczekiwania ludzi są wysokie zarówno w odniesieniu do usług darmowych, jak i płatnych. Szybkość. Dostępność. Praktyczne środowisko użytkownika. Współczesny użytkownik oczekuje, że wszystko będzie spełniać najwyższe standardy.

logo looker

Firma Looker powierzyła Opsgenie dostarczanie jej usług 200 000 użytkowników każdego dnia

Dlatego tak ważne jest, aby firmy rozumiały i stosowały koncepcje SLA, SLO i SLI — trzech skrótowców przedstawiających nasze zobowiązania wobec klientów, cele wewnętrzne, które pomagają nam w dotrzymaniu tych zobowiązań, a także parametry opisujące naszą skuteczność, które można monitorować.

Celem tych trzech elementów jest zapewnienie spójnych oczekiwań co do wydajności systemu, zarówno po stronie dostawcy, jak i klienta. Jak często Twoje systemy będą dostępne? Jak szybko Twój zespół zareaguje, jeśli system ulegnie awarii? Do czego zobowiązujesz się pod względem szybkości i funkcjonalności? Użytkownicy chcą to wiedzieć, dlatego potrzebujesz umów SLA, poziomów SLO i wskaźników SLI.

Różnice między umowami SLA, poziomami SLO i wskaźnikami SLI

SLA: umowy o gwarantowanym poziomie świadczenia usług

Czym jest umowa SLA?

Umowa o gwarantowanym poziomie świadczenia usług (SLA) to umowa między dostawcą a klientem określająca mierzalne wskaźniki, takie jak czas dostępności, szybkość reakcji i obowiązki.

Te umowy są zazwyczaj sporządzane są przez zespoły zajmujące się nowymi przedsięwzięciami i prawne firmy. Stanowią one odzwierciedlenie zobowiązań firmy wobec klientów i zawierają informacje na temat konsekwencji przewidzianych w razie ich niedotrzymania. Typowymi konsekwencjami są kary finansowe, przyznania środków na usługi lub przedłużenia licencji.

Wyzwania związane z umowami SLA

Zobowiązania zawarte w umowach SLA bardzo trudno mierzyć, raportować i egzekwować. Te umowy — zasadniczo sporządzane przez osoby, które same nie zajmują się zagadnieniami technologicznymi — często zawierają zobowiązania, które zespołom trudno jest mierzyć, które nie zawsze odpowiadają bieżącym i ewoluującym priorytetom biznesowym, i które nie uwzględniają niuansów.

Umowa SLA może na przykład zawierać zapis, że zespoły rozwiążą zgłoszone problemy z produktem X w ciągu 24 godzin. Ale jednocześnie ta sama umowa SLA nie zawiera informacji na temat tego, co się stanie, jeśli wysłanie odpowiedzi na pytania lub zrzutów ekranu, które mogą pomóc zespołowi w zdiagnozowaniu problemu, zajmie klientowi 24 godziny. Czy to oznacza, że zarezerwowany dla zespołu 24-godzinny przedział czasowy został wykorzystany w wyniku zwłoki spowodowanej przez klienta, czy też zegar zaczyna odliczać czas i zatrzymuje się w zależności od momentu reakcji klientów? Umowy SLA muszą zawierać odpowiedzi na te pytania, jednak często je pomijają, co z kolei bywa przyczyną negatywnego nastawienia do nich menedżerów IT.

Dla wielu ekspertów odpowiedzią na to wyzwanie jest przede wszystkim zaangażowanie zespołów technologicznych w tworzenie umów SLA. Im większy będzie stopień współpracy zespołów IT i DevOps z zespołami prawnymi i ds. rozwoju biznesu przy opracowywaniu umów SLA uwzględniających rzeczywiste scenariusze, tym lepiej będą one odzwierciedlać kluczowe realia, takie jak klienci opóźniający rozwiązanie własnych problemów.

Kto potrzebuje umów SLA?

Umowa SLA to umowa między dostawcą a płacącym klientem. Firmy, które udostępniają użytkownikom darmowe usługi, raczej nie chcą i nie potrzebują zawierać z nimi umów SLA.

SLO: docelowe poziomy świadczenia usług

Czym jest SLO?

Docelowy poziom świadczenia usług (SLO) to wchodzące w skład umów SLA uzgodnienie dotyczące konkretnych wskaźników, takich jak czas dostępności lub czas reakcji. Jeśli zatem umowa SLA jest formalną umową zawieraną między Tobą a Twoim klientem, poziomy SLO będą indywidualnymi zobowiązaniami wobec danego klienta. Poziomy SLO wyznaczają oczekiwania klientów i informują zespoły IT oraz DevOps, które cele muszą osiągnąć i uwzględnić w swoich pomiarach skuteczności.

Wyzwania związane z poziomami SLO

Poziomy SLO nie cieszą się aż tak złą sławą, jak umowy SLA, jednak mogą stwarzać równie wiele problemów, jeśli zostaną sformułowane w sposób niejasny, zbyt skomplikowany lub uniemożliwiający dokonanie pomiarów. Kluczem do ustalenia poziomów SLO, które nie będą przyprawiać inżynierów o zawrót głowy, są prostota i przejrzystość. Status poziomu SLO powinien być zarezerwowany dla najważniejszych wskaźników, cele powinny być sformułowane w sposób przejrzysty i, podobnie jak w przypadku umów SLA, zawsze powinny uwzględniać takie kwestie, jak zwłoka po stronie klienta.

Kto potrzebuje poziomów SLO?

Umowy SLA mają zastosowanie wyłącznie w przypadku klientów, którzy płacą za usługi, natomiast poziomy SLO mogą być przydatne zarówno w przypadku kont płatnych, jak i darmowych, a także przy obsłudze klientów wewnętrznych i zewnętrznych.

Systemy wewnętrzne, takie jak CRM, repozytoria danych klientów oraz intranet, mogą być równie ważne, jak systemy używane przez klientów zewnętrznych. Ustalenie poziomów SLO dla tych systemów wewnętrznych jest istotne nie tylko przy realizacji celów biznesowych, ale także dla osiągania własnych celów zespołów wewnętrznych związanych z obsługiwanymi przez nie klientami.

SLI: wskaźnik poziomu świadczenia usług

Czym jest SLI?

Wskaźnik poziomu świadczenia usług (SLI) jest miarą zgodności z docelowym poziomem świadczenia usług (SLO). Jeśli na przykład w umowie SLA przewidziano, że systemy będą dostępne przez 99,95% czasu, poziomem SLO będzie najprawdopodobniej czas dostępności wynoszący 99,95%, a wskaźnikiem SLI będzie rzeczywisty zmierzony czas dostępności. Może on wynosić 99,96%. Albo 99,99%. W celu zachowania zgodności z warunkami umowy SLA wskaźnik SLI nie może być niższy od wartości zobowiązania zawartej w tym dokumencie.

Wyzwania związane ze wskaźnikami SLI

Podobnie jak w przypadku poziomów SLO trudności związane ze wskaźnikami SLI obejmują zachowanie ich prostoty, dobranie właściwych wskaźników do monitorowania i unikanie nadmiernego komplikowania zadania zespołu IT przez śledzenie zbyt wielu wskaźników, które z punktu widzenia klientów nie są istotne.

Utworzenie szczegółowego planu odzyskiwania awaryjnego

Co zrobisz, gdy dojdzie do przestoju? Jeśli nie znasz jeszcze odpowiedzi na to pytanie, odpowiedź domyślna brzmi: „będę marnować cenny czas na próby wymyślenia, co robić”.

Im lepszy plan reagowania na incydenty opracujesz, tym szybciej i skuteczniej będą sobie radzić z incydentami Twoje zespoły. Dlatego pierwszym krokiem każdego nowego programu zarządzania incydentami powinno być opracowanie procesu i planu.

Kto potrzebuje wskaźników SLI?

Każda firma, która ocenia swoje wyniki w oparciu o poziomy SLO, potrzebuje wskaźników SLI do wykonania tych pomiarów. Nie da się wprowadzić poziomów SLO bez wskaźników SLI.

SLA: zobowiązania wobec klientów. SLO: cele wewnętrzne. SLI: jak nam poszło?

SLA, SLO i SLI — najlepsze praktyki

Sporządzaj umowy SLA w oparciu o oczekiwania klientów

Każda część umowy z klientem powinna uwzględniać zagadnienia istotne dla klienta. Po stronie dostawcy incydent może oznaczać konieczność zajęcia się 10 różnymi komponentami. Jednak z perspektywy klienta istotne jest tylko to, czy system działa zgodnie z oczekiwaniami.

Twoje umowy SLA i poziomy SLO powinny odzwierciedlać te realia. Nie komplikuj nadmiernie sytuacji, zagłębiając się w szczegóły i składając obietnice w odniesieniu do każdego z tych 10 komponentów. Formułuj zobowiązania w sposób ogólny, koncentrując się na funkcjach używanych przez użytkownika. Dzięki temu klienci będą bardziej zadowoleni i mniej zdezorientowani, a praca specjalistów IT odpowiedzialnych za dotrzymywanie zobowiązań umów SLA będzie prostsza.

Stosuj prosty język w umowach SLA

Klienci nie zawsze poproszą o objaśnienie, jeśli więc Twoja umowa SLA będzie sporządzona skomplikowanym językiem, prawdopodobnie narazisz się na nieprzyjemne nieporozumienia. Im prostszym językiem będziesz się posługiwać, tym mniejsze jest prawdopodobieństwo konfliktu z klientem w przyszłości.

W przypadku poziomów SLO mniej znaczy więcej

Nie każdy wskaźnik ma kluczowe znaczenie dla sukcesu klienta, co oznacza, że nie każdy należy przekształcić w SLO. Ogranicz liczbę poziomów SLO do minimum, koncentrując się na tych kwestiach, które są najważniejsze dla klienta.

Nie każdy wskaźnik, który da się śledzić, powinien być wskaźnikiem SLI

Podobnie w tym przypadku monitorowanie wydajności w 10 komponentach dla każdego z 10 poziomów SLO szybko stanie się zagmatwane. Zamiast tego, dokonaj strategicznego wyboru wskaźników, które faktycznie są istotne dla podstawowych poziomów SLO, i zainwestuj energię w ich efektywne monitorowanie.

Uwzględnij czynniki, na które zespół IT nie ma wpływu

Co się stanie, jeśli to klient będzie wydłużał czas rozwiązywania? Jeśli nie przewidzisz wyraźnie takiej sytuacji w swojej umowie SLA, Twój zespół może nie być w stanie zrealizować normy dotyczącej rozwiązywania problemów klientów bez zaangażowania ze strony klienta.

Zaplanuj budżet błędów

Pozostawienie marginesu na awarie nie tylko chroni firmę przed naruszeniami umów SLA i poważnymi konsekwencjami, ale także otwiera pole dla zwinnego działania, umożliwiając zespołowi szybkie wprowadzanie zmian i wypróbowywanie nowych, innowacyjnych rozwiązań, które mogą zakończyć się niepowodzeniem.

Google zaleca wykorzystanie pozostałego budżetu błędów na zaplanowane przestoje, które mogą ułatwić identyfikację nieprzewidzianych problemów (np. niewłaściwe wykorzystanie serwerów przez usługi) przy jednoczesnym zaspokojeniu oczekiwań ze strony klientów.

Nie śrubuj norm

Just because your team can probably maintain 99.99% uptime doesn’t mean that 99.99% should be your SLO number. It’s always better to under-promise and overdeliver. This is especially true for agile teams who want to launch early and often and need an error budget to keep up that quick pace.

Jak wpływa to na inżynierów SRE?

Dla zwolenników modelu Google, w którym zespoły inżynierów ds. niezawodności lokalizacji (SRE) stanowią ogniwo łączące zespoły programistyczne i operacyjne, umowy SLA, poziomy SLO i wskaźniki SLI stanowią podstawę sukcesu. Umowy SLA pomagają zespołom wyznaczać granice i budżety błędów. Poziomy SLO ułatwiają ustalanie priorytetów prac. A dzięki wskaźnikom SLI inżynierowie SRE wiedzą, kiedy należy zamrozić wszystkie wdrożenia w celu ratowania zagrożonego budżetu błędów, a kiedy można popuścić cugle.

Bądź na bieżąco z umowami SLA, aby zamykać wnioski w oparciu o priorytety, i korzystaj z automatycznych reguł przekierowywania, aby powiadamiać odpowiednich członków zespołu i zapobiegać naruszeniom umów SLA, dzięki Jira Service Management.

Następny
Error budget