针对高速团队的事件管理
事件事后分析过程的重要性
事件难免发生。
事实就是如此。随着系统规模不断扩大,日益复杂,故障是难以避免的。
事件也是学习的机会。
这是发现系统漏洞的机会,也是减少事件重复发生并尽快解决问题的机会。是时候让您的团队成员齐心协力,规划下次如何做得更好。
事件事后分析,也称为“事后回顾”,是研究事件期间发生情况并总结经验教训的最佳方法。
事后分析可将人们聚集在一起以便讨论事件的细节:为什么会发生,产生的影响,采取了哪些措施来减轻影响和解决事件,以及如何才能防止事件再次发生。
得益于版本控制、功能标记和持续交付等工具,许多事件可以快速“撤消”。许多事件是由推送至生产环境的变更中某一错误引起的,回滚该变更即可重新启动并运行应用。这有助于快速恢复服务,对每个人来说都大有裨益。但通常情况下,它无法帮助您了解具体的故障和原因。而这正是事后分析的用武之地。
事件事后分析是从事件中吸取教训并将问题转化为进展的框架。它还可以与客户、同事和最终用户(基本上指受事件影响的人)建立信任,让他们知晓您的团队正全力以赴地减少未来发生类似事件的次数及其影响。
事后分析是始终在线服务生命周期中的重要一步。事后分析结果应该直接反馈到规划流程中,以确保事后分析中确定的关键修复能在未来的工作中实施,并与其他即将开展的工作和优先级保持平衡。