针对高速团队的事件管理
计算停机期间成本
了解重大事件的财务影响
2015 年 3 月,苹果商店中断 12 小时,导致该公司损失了 2,500 万美元。
2016 年 8 月,达美航空运营中心断电五小时,导致 2,000 个航班取消,估计损失了 1.5 亿美元。
2019 年 3 月,14 个小时的中断导致 Facebook 损失了约 9,000 万美元。
这些都是大企业,行业领导者,营业利润率很高,银行里有数百万美元资金的公司。他们可以承受为期一天的财务损失。事实是,虽然小型公司在重大事件中可能面临的损失较小,但这些较小的损失可能会对其利润产生更大的影响。
实际上,一项针对 101 家初创公司的研究发现,有 29% 的初创公司失败是因为现金用完了。如果初创企业已经处于危险境地,那么大多数初创企业遭受重大事件后很难继续维持运营。
故事的重点是:停机期间很重要。任何持有不同观点的人都没注意过。事件不仅可能危害客户的信任和忠诚度,还会带来财务损失。
平均停机期间成本
平均停机期间成本为每分钟 5,600 美元,数据来自 Gartner 2014 年进行的一项研究。但是,这家研究公司很快指出,这只是一个平均值。同年,Avaya 的一份报告发现,平均值从每分钟 2,300 美元到 9,000 美元不等,具体取决于公司规模和垂直行业等因素。自 2014 年以来,这个数字一直在上升。最近的一份报告(来自 Ponemon Institute,2016 年)将Gartner 提出的平均水平从每分钟 5,600 美元提高到每分钟近 9,000 美元。
对于小型企业来说,这个数字降至每分钟 137 美元至 427 美元的较低水平,但仍然很重要。而您的公司位于这个范围的哪个水平取决于许多因素,包括垂直行业、组织规模和业务模式。
垂直行业
风险最高的行业包括银行/金融、政府、医疗保健、制造业、媒体和通信、零售以及运输/公用事业。2016 年的一项研究发现,这些行业的平均停机期间成本高达每小时 500 万美元。
组织规模
组织规模也是一个关键因素。IDC 的一项调查显示,对于《财富》1,000 强公司来说,停机期间每小时可能损失高达 100 万美元。根据 IHS 的一份研究报告,普通中等规模的公司每年在事件上花费 100 万美元,而大型企业可能花费高达 6,000 万美元或更多。
业务模式
最后,业务模式在计算停机期间成本时也占很大比重。与拥有实体销售地点的企业相比,没有实体销售地点的电子商务网站显然因网络中断而遭受的损失更大。您的业务模式对正常运行时间的依赖越多,从逻辑上讲,您因停机期间而蒙受的损失就越多。
对于整个业务模式依赖正常运行时间的电子商务巨头亚马逊来说,估计成本约为每小时 1,322 万美元。Facebook 的收入取决于广告展示量,因此预计每小时成本也高达数百万美元。
快速停机期间计算器
要快速估算您公司可能的停机期间成本,请根据您的业务规模和最近事件持续的分钟数,使用以下公式计算:
停机期间成本 = 停机分钟数 x 每分钟成本。
了解停机期间的全部成本
普通人考虑停机期间成本时,可能会将注意力集中在收入损失上。或者是收入和员工生产力的组合。但事实是,停机期间的成本远不止于此。
独立数据保护和安全研究公司 Ponemon 认为,停机期间的最大成本是业务中断,包括声誉损害和客户流失。收入损失在该公司的研究中位列第二。与事件相关的第三大财务损失是最终用户的生产力。
另一个常见的损失类别是内部生产力损失,即负责解决您的事件的 IT 团队、参与事件管理的相关团队(如公关、社交媒体经理和客户服务代表)以及受中断影响的其他员工。
对于软件提供商来说,SLA 财务处罚、政府罚款(针对任何违反监管要求的行为)以及诉讼与和解都是非常真实的财务流失。对于经营实物产品的公司来说,库存耗尽是一个重大风险。
更不用说承包商成本、设备更换和员工留任率问题了。毕竟,事件会造成压力,压力会使员工感到不快乐,不快乐的员工就会离职。专家估计,更换员工的成本为年薪的 33%。
如何最大限度地减少停机期间成本
上述数据清楚地表明,对于各行业不同规模的公司来说,最大限度地减少停机期间都应该是首要任务。那么,我们如何降低停机期间风险并最大限度地降低成本呢?以下是五种经过验证的实用方法:
制定详细的灾难恢复计划
停机期间时您会怎么做?如果您不知道该怎么做,默认答案将是“浪费宝贵的时间来弄清楚该怎么做”。
您的事件响应计划越好,团队处理事件的速度就越快、越有效。这就是为什么新的事件管理计划第一步都应该是流程和规划。
经常清晰地沟通
由于业务中断占停机期间成本的 35%,因此在事件发生期间和之后,优先考虑事件沟通和客户服务比以往任何时候都更加重要。
消除单点故障
消除现有基础架构和流程中的单点故障是减少停机期间和降低成本的最快方法之一。这意味着要在服务器之间实现负载平衡,遵循良好的备份实践,并在部署中建立同行评审和技术故障保护措施。
优先预防
没有万无一失的方法能够 100% 避免事件发生。但您可以尽可能降低事件影响。
实际上,高昂的停机期间成本能够推动领导层在问题演变为全面事件之前优先更换过时的系统和安全功能并修复问题。
不要跳过事后分析
确实发生停机期间时(在我们复杂的技术世界中,它最终都会发生),防止未来中断的最佳方法是进行完善的事后分析。
事件事后分析可将团队聚集在一起以便讨论事件的细节:为什么会发生、产生的影响、采取了哪些措施来减轻影响和解决事件,以及重要的一点,如何才能防止事件再次发生。
在 Atlassian,我们的事后分析是无指责的,重点是找出问题的根源,而不是推卸责任。我们也是智能文档的倡导者,该文档旨在总结我们在事后分析中吸取的经验教训,并提出改进建议,帮助我们避免重复之前犯的错误。
Jira Service Management 旨在帮助团队快速处理事件,从而最大限度地减少停机期间成本。