Close

针对高速团队的事件管理

可靠性与可用性:了解两者的区别

如今的客户越来越希望企业提供永不中断的服务。然而,即使是资源最充足的公司也可能会遇到故障和中断。两个不同的指标(可靠性和可用性)可帮助衡量成功并做出改进。

可靠性(即系统就绪性)根据定义的性能标准以特定的时间间隔衡量性能。可用性(即系统功能)衡量可操作性的百分比。它们共同提供了对业务系统运行状况的洞察信息,还能帮助确定需要改进的地方。

本指南介绍了服务可靠性与可用性、事件管理指标如何帮助衡量它们,以及如何改进这些关键指标。

什么是系统可靠性?

可靠性是指系统或组件在指定的时间段内持续执行其预期功能而不出现故障的概率。团队必须了解如何衡量和确保可靠性,才能就系统性能做出明智的决策并提高客户满意度。

例如,工资系统必须在每月规定的时间范围内可靠地处理直接存款,而冷藏系统必须检测到停电并顺利地切换到备用发电机。在各行各业中,保持自动化流程的可靠性并通过事件管理 KPI 跟踪绩效至关重要,因为故障可能会导致严重的财务后果。

可靠性的定义

可靠性是指系统或组件在给定时间段内在指定条件下执行其预期功能而不出现故障的概率。它衡量系统或组件在出现失灵或故障的情况下保持功能和性能的能力。

可靠性对系统设计和维护至关重要,因为它直接影响系统的整体性能、安全性和成本效益。高可靠性意味着系统或组件将正确且持续地运行,这对于保持客户信心和运营效率是必不可少的。

如何测量和计算故障率以确保可靠性

您可以使用标准的事件管理指标来衡量可靠性,例如:

  • 平均故障间隔时间:MTBF 的计算方法是用总操作时间除以故障次数。此指标对于了解两次故障之间的平均持续时间至关重要。
  • 故障率:故障率的计算方法是用故障次数除以总服务时间。诸如 MIL-HNDBK-217 之类的手册可能会造成不准确,因为假设故障率恒定,这可能会导致对组件可靠性的误导性预测,特别是随着组件的老化。

请务必考虑其他因素,如服务级别协议和客户对系统的期望。根据系统出现故障时面临的风险,可靠性标准可能会有所不同。例如,故障是会导致一群报税员下午歇班?还是会使数千名航班旅客滞留在离家很远的地方?

可靠性计算

可靠性计算使用数学模型和统计技术来估计系统或组件的可靠性。这些计算通常使用故障率、平均故障间隔时间 (MTBF) 和其他可靠性指标来确定系统或组件的故障概率。

通过分析这些指标,企业可确定潜在的弱点和需要改进的地方。可靠性计算可使用各种方法来执行,包括故障树分析、可靠性方框图和马尔可夫建模。这些技术有助于可视化和量化复杂系统的可靠性,使决策者能够在设计、维护和资源分配方面做出明智的选择。

平均无故障时间 (MTTF) 和平均故障间隔时间 (MTBF)

平均无故障时间 (MTTF) 是指系统或组件出现故障之前的平均时间,而平均故障间隔时间 (MTBF) 是指两次故障之间的平均时间。MTTF 通常用于不可修复的系统,而 MTBF 用于可修复的系统。这两个指标对于可靠性计算都很重要,因为可让您深入了解系统或组件故障的频率和可能性。

通过了解这些指标,企业可更好地预测维护需求、计划更换,并提高整体系统可靠性。计算 MTTF 和 MTBF 需要收集有关故障事件的数据,并使用统计方法来分别计算平均无故障时间和平均故障间隔时间。

如何提高可靠性

企业可以采取一些措施来提高服务可靠性:

  • 制定例行维护计划,使系统保持最新和现代化。
  • 实现系统冗余,防止组件故障导致进程停止。
  • 在升级或进行系统变更时进行全面的质量控制和测试,以便团队可以在问题进入生产环境之前予以纠正。
  • 要了解系统的可靠性和性能,可大规模利用全面的数据收集和分析方法。
  • 改善事件通信,缩短响应和恢复时间。

什么是可用性?

可用性是系统或组件正常运行且可执行其功能的时间(即正常运行时间)百分比。

例如,大型线上零售商必须全天候保持站点可用性以满足客户需求,否则将面临市场份额被竞争对手抢占的风险。可用性考虑了各种条件,例如用户的互联网速度和高峰流量时间。

可用性的定义

可用性是指系统或组件在给定时间运行且可用的概率。它衡量系统或组件在需要时执行其预期功能的能力。

可用性通常使用以下公式计算:可用性 = (MTBF / (MTBF + MTTR)),其中 MTTR 是指平均修复时间。此公式清楚地解释了系统预计运行且可供使用的频率。高可用性对于需要持续运行的系统(如在线服务和关键基础架构)至关重要。通过重点关注 MTBF 和 MTTR,企业可提高系统的可用性并满足用户的期望。

如何衡量可用性

可用性是一个以百分比衡量的指标。它是总耗用时间减去总停机时间除以总耗用时间:

可用性百分比 =(总耗用时间 - 停机时间)/总耗用时间

例如,如果一个在线零售网站因流量过载而每天停机三小时,其可用性评分为 87.5%。大型国际零售商的这一标准可能接近 99.5%,这使该在线零售商有很大的改进余地。

ITSM 软件(例如 Jira Service Management)可以帮助团队跟踪事件并收集用于衡量可用性的数据。

如何提高可用性

公司可以通过几种方式提高可用性:

  • 实施主动式标准维护计划,确保高可用性。
  • 使用故障转移机制增加系统冗余。
  • 作为事件管理的一部分,创建快速修复流程。

特别是,主动式维护可以帮助企业获得更高的可用性和服务可靠性。进行可靠性、可用性和可维护性 (RAM) 研究可以提供有关维护工作重点的重要洞察信息。

可靠性与可用性

可靠性和可用性经常被误认为是同一回事。实际上,它们不仅不同,而且并不总是一致的。

即使是公司衡量它们的标准也可能有所不同,具体取决于系统及其功能。为了准确了解任何业务系统,您应该分别分析可靠性与可用性指标。

  • 可靠性用于衡量系统是否在规定的特定时间交付了正确的输出,例如,在正确的日期将工资款项转入正确的帐户。
  • 可用性用于衡量系统的正常运行时间,例如,在必要的保育期内为早产儿提供不间断的氧气监测。

Jira Service Management 包含自动化模板,这些模板可收集数据、加强事件沟通,并改善整体客户服务。

不同之处

在考虑如何使用可靠性与可用性指标来提高性能时,它们之间的差异变得更加明显。可靠性旨在最大限度地减少系统故障和停机时间,而可用性旨在最大限度地延长运行时间。

衡量杂货店自助结账系统的服务可靠性可能涉及分析客户需要店员协助才能完成交易的频率。衡量可用性可能涉及检查客户是否尝试过自助结账。

相似之处

可靠性和可用性相辅相成。富有竞争力的企业会努力改善这两个指标以获得最佳结果。例如,如果系统的可用性较高但经常出现可靠性故障,那么无论解决问题的速度有多快,都不太可能满足客户的需求。

改善这两个领域通常需要相似的方法,例如进行例行维护、增加冗余、应急计划和测试。

影响可靠性和可用性的因素

有几个因素会影响系统的可靠性和可用性:

  • 环境:这可能包括物联网组件(如暴露在恶劣天气下的压力表),或周期性的用户模式(如零售网站在特定日期的高流量)。将均值和标准偏差应用于各种参数,以评估故障概率并增强安全系数方法。
  • 组件质量:示例包括第三方集成或硬件。在理解计算结果的可变性和结构分析中的故障概率方面,标准偏差的重要性怎么强调都不为过。
  • 运营:这可能包括检查和维护的频率或对现代化软件的投资。

企业可以通过确立标准的环境阈值和增加冗余、要求组件质量符合 ISO 标准或实施检查、测试和维护系统各个方面的程序来提高整体服务的可靠性和可用性。

使用 Jira Service Management 平衡可靠性和可用性

有了正确的工具和方法,公司可以平衡系统的可靠性和可用性,尤其是在我们永不中断的世界中。Jira Service Management 使团队能够快速还原服务。

Jira 和 Jira Service Management 使客户能够报告事务并帮助服务团队集中处理警报,以便快速进行分类和确定优先级。规则和沟通渠道可确保没有人错过关键事务。

详细了解 Jira Service Management 中的事件管理

可靠性与可用性:常见问题

举一个可靠性与可用性的例子?

以无人驾驶汽车等新技术为例。服务可靠性标准是接近或达到 100%,因为一次故障可能就会导致人身伤害或死亡。

相反,无人驾驶汽车的可用性会影响用户体验。可用性越高或运行时间越长,体验就越好。可用性低可能会导致企业失去市场份额,但不太可能造成人身伤害或死亡。

为什么可靠性和可用性很重要?

可靠性和可用性都会影响企业的利润,因为它们会影响客户满意度。此外,不可用或不可靠的系统会使公司因收入减少、系统损坏、计划外维护成本和生产力降低而蒙受损失。

将工作重点放在提高服务的可靠性和可用性上,可以增强竞争优势、增加市场份额和收入并改善维护成本预算计划。

可靠性和可用性之间有哪些取舍?

企业有时必须优先考虑可靠性而不是可用性,反之亦然。当时间线较短或投资资金有限时,可能必须进行真正的取舍。

就无人驾驶汽车而言,企业可能会投入更多的时间和精力来提高可靠性,即使这会对可用性产生负面影响。但是,在不太关键的情况下,例如线上零售,企业可能会专注于提高可用性,因为“始终开放”是电子商务和实体竞争对手之间的主要区别之一。

为什么可靠性计算对系统设计很重要

可靠性计算对于系统设计和维护至关重要。理解可靠性、可用性和故障率的概念后,决策者便可在系统设计、维护和维修方面做出明智的决策。

可靠性计算可帮助最大限度地减少停机时间、降低维护成本,并提高整体系统性能。通过实施强大的可靠性和可用性策略,企业可提高其运营效率、保持客户满意度,并在其行业中获得竞争优势。

重温要点

  • 可靠性是指系统或组件在指定条件下且在给定时间段内执行其预期功能而不出现故障的概率。
  • 可靠性计算使用数学模型和统计技术来估计系统或组件的可靠性。
  • 平均无故障时间 (MTTF) 和平均故障间隔时间 (MTBF) 是可靠性计算的重要指标。
  • 可用性是指系统或组件在给定时间运行且可供使用的概率。
  • 可靠性计算可帮助最大限度地减少停机时间、降低维护成本,并提高整体系统性能。

通过重点关注这些关键方面,企业可确保其系统可靠、可用且能够满足其客户和运营的需求。

后续内容
DevOps