Close
Imagine Learning + Atlassian

Imagine Learning reduziert mit Opsgenie die Anzahl an Benachrichtigungen und mindert damit die Alarm-Fatigue


Logo: Imagine Learning
Branche

EdTech

Standort

Provo, Utah, USA

Anzahl Benutzer

241

Marketplace-App
Seite teilen

Imagine Learning ist ein 2004 gegründetes EdTech-Unternehmen, das sich an Schüler richtet, für die herkömmlicher Unterricht nicht effektiv ist. Die Software wurde für Kinder und Jugendliche vom Vorschulalter bis zur weiterführenden Schule entwickelt, die möglicherweise Schwierigkeiten mit dem Lesen, Schreiben und Rechnen haben. Die Schulen erwerben die Software, um besser auf Schüler mit Lernschwierigkeiten einzugehen und ihnen zu helfen, ihre Schullaufbahn erfolgreich zu meistern.

Das Problem: Alarm-Fatigue

Keith Smith kam als Principal Site Reliability Engineer zu Imagine Learning, nachdem er bereits jahrelang im DevOps-Bereich tätig gewesen war. Er kannte sich mit verschiedenen Tools zur Vorfallüberwachung aus, darunter Opsgenie. Imagine Learning hatte eine ganze Reihe von Tools, doch Konsolidierung und effektive Warnmeldungen waren nicht gegeben.

"[Damals] erhielt das Bereitschaftsteam Warnmeldungen ausschließlich per E-Mail. Das war unpraktisch und erzeugte ein sehr hohes E-Mail-Aufkommen. Ich stellte mir jede Nacht einen Wecker auf 1 Uhr, warf einen Blick auf mein Handy und schlief dann weiter. Mein Ziel war es, einen besseren Weg zu finden."

Aufgrund des hohen Benachrichtigungsaufkommens waren die Warnmeldungen weder aussagekräftig noch hilfreich. Der Prozess war vollständig reaktiv und die Teams hatten keine effiziente Möglichkeit, bei Vorfällen zu kommunizieren.

"Bei einem Vorfall stieg die Anzahl der Supportanrufe an, woraus wir schließen konnten, dass ein Problem vorliegt. Der zuständige Supportmitarbeiter eskalierte dieses Problem dann. Dies war die einzige Kommunikationskette: Kunden meldeten, dass etwas nicht funktioniert, und erst dann kümmerten wir uns um die Fehlerbehebung."

Der Business Case

Keith wusste, dass er ein Tool wie Opsgenie benötigte, musste aber einen Business Case für die Führungsetage entwickeln, was sich als einfacher als erwartet herausstellte.

"Zwei Wochen nach meinem ersten Arbeitstag richtete ich gerade Warnmeldungen ein und sah mir Metriken an. Plötzlich fiel mir auf, dass seit 24 Stunden ein Ausfall vorlag, den ich noch gar nicht bemerkt hatte!" Das Problem ließ sich relativ schnell beheben, aber ein 24-Stunden-Ausfall erschien durchaus vermeidbar.

Keith war darüber hinaus quasi zu einem Single Point of Failure geworden, was für ein Unternehmen mit über 500 Mitarbeitern in den USA, in Indien und in Argentinien weder skalierbar noch auf Dauer akzeptabel war.

Innerhalb von 3 Monaten nach der Einführung von Opsgenie verringerte sich die Anzahl der Vorfälle um 900 %.

Keith Smith

Principal Site Reliability Engineer

Konsolidierung und verbesserte Kommunikation waren der Schlüssel zur Aufrechterhaltung der Infrastruktur, die für den Erfolg des Unternehmens benötigt wurde.

"Angenommen, ich hätte Urlaub genommen: Wer hätte sich in dieser Zeit um die Warnmeldungen gekümmert? Ich erklärte also meinem Vorgesetzten, dass diese Vorgehensweise auf Dauer nicht haltbar war und zu Problemen führen würde. Als Beleg nannte ich Fakten wie den 24-Stunden-Ausfall."

Angesichts des aufwendigen, überwiegend E-Mail-basierten Bereitschaftsplans, des reaktiven Ansatzes zur Problembehebung und der Metriken, die den Bedarf an einer modernen Vorfallmanagementplattform belegten, war der Fall klar. Imagine Learning entschied sich somit für Opsgenie.

Zuverlässige Warnmeldungen

Da mehr als 20 Tools und Anwendungen verwaltet werden mussten, war die Möglichkeit, Opsgenie in den vorhandenen IT-Stack zu integrieren, der Schlüssel zur Reduzierung des hohen Benachrichtigungsaufkommens.

"Wann immer ich eine Quelle mit OG verbinden wollte, war bereits ein Pfad dafür vorhanden – und wenn es nur ein Webhook war."

Durch die enge Integration mit Slack und Jira nutzt Imagine Learning jetzt einen automatisierten Prozess: Opsgenie aktualisiert die Statusseite, erstellt ein Jira-Ticket, löst eine Slack-Benachrichtigung aus und weckt die richtigen Mitarbeiter zur richtigen Zeit.

"Jetzt tritt nur noch einmal im Jahr ein schwerwiegender Vorfall auf. Das ist eine große Erleichterung. Ich kann nachts schlafen und habe Zeit, auch an anderen Projekten zu arbeiten."

Keith Smith

Principal Site Reliability Engineer

"Neben einer kürzeren MTTR ist der größte Vorteil die Kommunikation: Unsere Kunden und die 500 Mitarbeiter in unseren Niederlassungen im ganzen Land [und auf der ganzen Welt] werden sofort informiert, wenn ein Vorfall auftritt."

Erleichterung nach der Implementierung von Opsgenie

Da der Bereitschaftsdienst aufgeteilt wird und Keith nur dann mitten in der Nacht aufstehen muss, wenn es wirklich nötig ist, kann er jetzt vielfältigere Aufgaben übernehmen. Die Reaktionszeit hat sich von 24 bis 36 Stunden auf ein kurzes 15-Minuten-Fenster oder noch weniger reduziert.

Mit Opsgenie konnte Keith einen effizienten Vorfallmanagement- und Bereitschaftsprozess einrichten, der die MTTR verkürzt und zugleich die Lebensqualität seines Teams erhöht hat. Für ein Unternehmen, das ein Softwareprodukt anbietet, ist es wichtig, Probleme schnell zu lösen. Innerhalb von 3 Monaten nach der Einführung von Opsgenie verringerte sich die Anzahl der Vorfälle um 900 %.

"Jetzt tritt nur noch einmal im Jahr ein schwerwiegender Vorfall auf. Das ist eine große Erleichterung. Ich kann nachts schlafen und habe Zeit, auch an anderen Projekten zu arbeiten."

Starte noch heute deine 14-tägige Testversion von Opsgenie

tecRacer Logo

Unterstützung cloudbasierter Unternehmen mit Opsgenie

EBSCO-Logo

Ständig verfügbare Services durch agiles Vorfallmanagement