针对高速团队的事件管理
Atlassian 事件手册
如今,提供技术服务的团队都需要全天候待命。
出现问题时,无论是服务中断还是功能损坏,团队成员都需要立即做出响应并恢复服务。这个流程称为事件管理,对于大大小小的公司来说,这是一项持续而复杂的挑战。
我们希望帮助各地的团队提高事件管理能力。受到 Google 等团队的启发,我们编写了本手册,总结了 Atlassian 的事件管理流程。这些是我们十多年来在响应事件时积累的经验教训。本手册基于我们自己的经验,但我们希望它能够为您的团队带去一些启发。
获取印刷版或 PDF 版手册
印刷版《事件管理手册》限量供应,可应要求免费寄送。或者,也可下载 PDF 版本。
我们希望帮助各地的团队提高事件管理能力。受到 Google 等团队的启发,我们编写了本手册,总结了 Atlassian 的事件管理流程。这些是我们十多年来在响应事件时积累的经验教训。本手册基于我们自己的经验,但我们希望它能够为您的团队带去一些启发。
阶段 | 事件价值观 | 相关的 Atlassian 价值观 | 基本原理 |
1. 检测 | Atlassian 在客户之前知道 | 用心构建,寻求平衡 | 均衡的服务包括充分的监控和警报,以便在客户之前检测到事件。 最佳的监控可以在问题成为事件之前提醒我们。 |
2. 响应 | 上报、上报、上报 | 作为一个团队进行工作 | 没有人喜欢被吵醒,并且我们也不会掉以轻心。但是员工知道,偶尔自己会因为某些事件而被吵醒,尽管后来事实证明并不需要。通常更困难的是醒来时看到重大事件,然后拼命赶进度,而您本可以更早收到警报。 我们不会总是得到所有答案,因此“不要犹豫,请上报”。 |
3. 恢复 | 如果不幸的事情发生了,立即解决 | 不要叨扰客户 | 我们的客户并不关心服务出现问题的原因,他们只想让我们尽快恢复服务。 毫不犹豫地迅速解决事件,以便我们可以最大限度地减少对客户的影响。 |
4. 学习 | 始终不去指责 | 开放的公司,绝无虚言 | 运行服务就难免会出现事件。我们通过让团队当责而不是指责来改善服务。 |
5. 改进 | 永远不要让相同的事件发生两次 | 实现您寻求的改变 | 确定根本原因,找出可以做出哪些更改以阻止所有类似的事件再次发生。 努力按指定日期提供指定的更改。 |