Imagine Learning + Atlassian
Imagine Learning wycisza szumy i zmniejsza obciążenie alertami z Opsgenie
Branża
EdTech
Lokalizacja
Provo, Utah
Liczba użytkowników
241
Produkty
Aplikacje ze sklepu Marketplace
Udostępnij stronę
Imagine Learning to firma z sektora technologii edukacyjnych założona w 2004 roku. Działa ona na rzecz uczniów, w przypadku których tradycyjne metody nauczania się nie sprawdzają. Oprogramowanie jest przeznaczone dla uczniów w przedziale wiekowym od przedszkola do szkoły średniej, którzy mogą mieć problemy z czytaniem, pisaniem oraz liczeniem. Szkoły zakupują oprogramowanie, aby wspierać uczniów mających trudności w nauce i pomóc im osiągnąć sukces edukacyjny.
Ból spowodowany przeciążeniem alertami
Keith Smith dołączył do Imagine Learning jako główny inżynier ds. niezawodności witryny, mając za sobą trzy lata doświadczenia w przestrzeni DevOps. Był zaznajomiony z różnymi narzędziami do monitorowania incydentów, w tym Opsgenie. Imagine Learning miało wiele narzędzi, ale brakowało konsolidacji i skutecznego powiadamiania o alertach.
„[W tamtym czasie] zespół pełniący dyżur domowy otrzymywał komunikaty o alertach tylko za pośrednictwem poczty elektronicznej — to było głupie, było mnóstwo szumów. Każdej nocy musiałem wstać o 1:00, spojrzeć na telefon i wrócić do łóżka. Zdecydowałem się przedstawić lepszy sposób działania”.
Ze względu na cały ten szum informacyjny, alerty były mało istotne i nie dawały możliwości podjęcia praktycznych działań. Proces był całkowicie bierny, a zespoły pozostawiono bez skutecznego sposobu komunikowania się podczas incydentów.
„Wzrastała liczba wezwań wsparcia, co wskazywało na wystąpienie problemu, a wówczas agent wsparcia dokonywał eskalacji. Jedna był to jedyny łańcuch komunikacji — klient miał powiedzieć nam, że coś było nie tak, a potem mieliśmy to naprawić”.
Opracowanie uzasadnienia biznesowego
Keith zdawał sobie sprawę, że musi wdrożyć narzędzie, takie jak Opsgenie, jednak musiał sformułować uzasadnienie biznesowe dla kierownictwa wyższego szczebla, co okazało się łatwiejsze niż się spodziewał.
„Dwa tygodnie od rozpoczęcia pracy konfigurowałem alerty i przyglądałem się wskaźnikom, gdy zdałem sobie sprawę że nasza usługa nie działała przez 24 godziny, a my nie mieliśmy o tym pojęcia!”. Problem został dość szybko rozwiązany, ale tej 24-godzinnej awarii można było całkowicie uniknąć.
Keith stał się również zasadniczo pojedynczym punktem obsługi awarii, co nie było rozwiązaniem skalowalnym ani zrównoważonym w przypadku firmy zatrudniającej ponad 500 pracowników rozproszonych po Stanach Zjednoczonych, Indiach oraz Argentynie.
Wciągu 3 miesięcy od wdrożenia Opsgenie zmniejszyliśmy liczbę incydentów o 90%.
Keith Smith
Główny serwisant witryn internetowych
Konsolidacja i udoskonalenie komunikacji okazały się kluczowe dla utrzymania infrastruktury wymaganej, aby firma mogła odnieść sukces.
„Co by się stało, gdybym poszedł na urlop? Co będzie się działo z alertami przez dwa dni. Poszedłem do szefa i powiedziałem, że nie jest to zrównoważone rozwiązanie i pojawią się problemy. Na dowód powołałem się na konkretne źródła [w tym 24-godzinną awarię]”.
W oparciu o uciążliwy harmonogram dyżurów domowych składającym się w większości z odbierania alertów e-mailowych, bierne podejście do problemów oraz wskaźniki wykazujące konieczność wdrożenia nowoczesnej platformy do zarządzania incydentami opracowano uzasadnienie, a firma Imagine Learning przystąpiła do wdrażania Opsgenie.
Niezawodne alerty
Przy ponad 20 narzędziach i aplikacjach, którymi trzeba było zarządzać, możliwość zintegrowania Opsgenie ze stosem IT firmy była kluczem do wyciszenia szumów informacyjnych.
„Za każdym razem, gdy chciałem połączyć źródło z Opsgenie, tworzyła się ścieżka — nawet jeśli był to jedynie element webhook”.
Dzięki głębokim integracjom z systemami Slack i JIRA firma Imagine Learning może teraz korzystać ze zautomatyzowanych procesów. Opsgenie aktualizuje stronę z informacjami o stanie, tworzy zgłoszenie w Jirze, wysyła powiadomienie w Slack i budzi odpowiednie osoby we właściwym czasie.
„Obecnie każdego roku zdarza się jeden poważniejszy incydent, co staje się niemal zabawą. Mogę spać spokojnie i poświęcić więcej czasu na inne projekty”.
Keith Smith
Główny serwisant witryn internetowych
„Poza obniżeniem wskaźnika MTTR, największe korzyści odnieśliśmy pod względem komunikacyjnym, mogąc poinformować naszych klientów oraz 500 osób w naszych biurach rozproszonych po kraju [i całym świecie], co się dzieje, gdy tylko dojdzie do incydentu”.
Ulga po wdrożeniu Opsgenie
Udostępnianie harmonogramu dyżurów domowych i wstawanie tylko wtedy, gdy jest to konieczne, pozwoliło Keithowi zróżnicować swoją pracę i skrócić czas reakcji z 24–36 godzin do nie więcej niż 15 minut.
Opsgenie umożliwiło Keithowi opracowanie efektywnego procesu zarządzania incydentami i dyżurów domowych, który pomógł skrócić wskaźnik MTTS, a także poprawić jakość życia członków zespołu. Dla firmy zajmującej się dostarczaniem oprogramowania szybkie rozwiązywanie problemów ma kluczowe znaczenie. W ciągu 3 miesięcy od wdrożenia Opsgenie liczba incydentów zmalała o 900%.
„Obecnie każdego roku zdarza się jeden poważniejszy incydent, co staje się niemal zabawą. Mogę spać spokojnie i poświęcić więcej czasu na inne projekty”.
Rozpocznij bezpłatny 14-dniowy okres próbny Opsgenie już dziś
Wspieranie firm bazujących na chmurze z Opsgenie
Dostarczanie zawsze aktywnych usług dzięki zarządzaniu incydentami zgodnie z zasadami Agile