Imagine Learning + Atlassian
Imagine Learning 使用 Opsgenie 平息杂乱并缓解警报疲劳
行业
教育科技
地点
犹他州普洛佛
用户数量
241
产品
Marketplace 应用
分享页面
Imagine Learning 是一家成立于 2004 年的教育科技公司,为传统教学效果不佳的学生提供服务。该软件专为学前班至高中的学生而设计,他们可能在阅读、写作和数学方面遇到困难。学校购买该软件是为了满足有学习困难的学生的需求,并帮助他们在学习中取得成功。
感到警报疲劳的痛苦
Keith Smith 在 DevOps 领域工作了多年,之后他加入了 Imagine Learning,担任首席站点可靠性工程师。他熟悉包括 Opsgenie 在内的各种事件监控工具。Imagine Learning 采用了很多工具,但并没有整合和有效的警报功能。
“[当时]待命团队只能通过电子邮件收到警报消息,非常笨,而且噪音很多。我每天晚上 1 点钟起床,看看我的手机然后再回去睡觉。我开始想是不是有更好的方法。”
由于这些噪音,警报没有意义,也无法采取行动。这个过程完全是被动的,在事件发生期间,团队没有有效的沟通方式。
“支持呼叫量会增加,这表明存在问题,然后支持代表会上报。但这是唯一的沟通链——客户会告诉我们出了点问题,然后我们会进行修复。”
制作业务案例
Keith 知道自己需要实施像 Opsgenie 这样的工具,但必须为高层管理人员制定业务案例,事实证明这比预期的要容易。
“工作两周后,当我意识到我们已经停机 24 小时却一无所知时,我正在设置警报并查看指标!”这个问题很快就解决了,但是 24 小时的中断完全是可以避免的。
他本质上也变成了单点故障,对于一家在美国、印度和阿根廷拥有 500 多名员工的公司来说,这是不可扩展或不可持续的。
采用 Opsgenie 的 3 个月内,我们将事件数量减少了 900%。
Keith Smith
首席现场可靠性工程师
整合和改善沟通是维护公司成功所需的基础架构的关键。
“如果我去度假怎么办?这两天警报会发生什么情况。我去找老板,然后告诉他,这是不可持续的,我们会遇到问题,并引用消息来源[包括 24 小时中断]来证明这一点。”
面对案例中痛苦的待命日程安排(主要是电子邮件警报)、被动解决问题的方法以及支持现代事件管理平台需求的指标,Imagine Learning 与 Opsgenie 一起向前迈进。
可靠警报
Opsgenie 拥有 20 多种工具和应用来管理 IT 堆栈集成,这是消除噪音的关键。
“每当我想将源连接到 OG 时,都会有一条路径——即使只是 webhook。”
与 Slack 和 JIRA 的深度集成意味着 Imagine Learning 现在有了自动化的流程。Opsgenie 更新状态页面,创建 Jira 工作单,发出 Slack 通知,并在正确的时间唤醒合适的人员。
“现在我们每年都会发生一次重大事件,它变得越来越有趣。这样我晚上就能安心睡觉了,能够出时间去做其他项目。”
Keith Smith
首席现场可靠性工程师
“除了更快的 MTTR 外,我们的最大收获是沟通渠道,在事件发生后立即告诉我们的客户发生了什么事,并与我们在全国[乃至全球]办事处的 500 名员工沟通。”
采用 Opsgenie 后的放松
共享待命时间表并仅在必要时才醒来,这使 Keith 能够实现工作多样化,并使他能够将响应时间从 24-36 小时缩短到短短的 15 分钟或更短。
Opsgenie 使 Keith 能够创建高效事件管理待命流程,从而减少了 MTTR,并改善了团队的生活质量。对于提供软件产品的公司而言,快速解决问题至关重要。在使用 Opsgenie 的 3 个月内,事件量减少了 900%。
“现在我们每年都会发生一次重大事件,它变得越来越有趣。这样我晚上就能安心睡觉了,能够出时间去做其他项目。”
立即开始 14 天免费 Opsgenie 试用
利用 Opsgenie 为专注于云的企业提供支持
通过敏捷事件管理提供始终在线的服务