Atlassian 的弹性方法
使您的云产品以及它们所使用的底层系统和服务保持可用并能够承受负面或计划外事件的影响,对我们和您来说同样重要。为了确保您的产品在您需要时随时可用,我们实施了技术、人员和计划以提供业务弹性。
打造弹性产品
Atlassian 在责任共担模式下运营我们的云产品,这意味着,实现可靠性需要您与 Atlassian 携手合作。在这种模式下,我们负责确保我们的基础架构、产品和服务的高可用性、可靠性和可恢复性。您负责实施灾难恢复计划和业务连续性计划,确保您能够在发生计划外事件时运营您的业务。
高可用性
我们使用 Amazon Web Services (AWS) 作为云服务提供商,并在全球多个地区使用其高可用性数据中心设施。每个 AWS 区域都是一个独立的地理位置,并且分为多个相互隔离、地理位置上相互分开的数据中心组(也称可用区域 (AZ))。
每个可用区都设计为与其他区的故障相隔离,并为同一地区的其他可用区提供低成本、短延迟的网络连接。这种多区高可用性是地理和环境风险的第一道防线,这意味着,在多可用区部署中运行的服务应该能够抵御可用区故障。
要了解更多信息,请查看架构和运营实践页面。
可靠性
Atlassian 致力于确保我们的所有团队都能提供可靠的服务和产品。为了有效地做到这一点,我们的灾难恢复 (DR) 计划侧重于实施流程、策略和技术,确保关键的 IT 系统和服务可用且可靠,并且能够在发生中断时快速恢复。
除了上述功能之外,我们还实施了监控和警报并运行了灾难恢复测试。
监控和警报
我们持续监控各种各样的指标,以尽早发现潜在的问题。根据这些指标配置警报,在超过阈值时通知现场可靠性工程师 (SRE) 或相关产品工程团队,从而依据我们的事件响应流程迅速采取行动。
SRE 在 DR 计划中还承担着一项重要职责,即根据合规性框架与我们的风险与合规团队合作。我们的每个团队中都有一名 DR 冠军,负责监督和协管与所属团队相关的灾难恢复工作。
DR(灾难恢复)测试
我们的 DR 测试涵盖流程和技术方面,包括相关的流程文档以及针对我们系统的故障转移测试。测试种类既有标准的桌面模拟训练,也有全面的可用性区域或区域性故障转移测试。无论测试的复杂性如何,我们都会努力采集和记录测试结果,分析和确定可能需要改进的方面,然后借助 Jira 请求单加以解决,以确保整体流程的持续改进。
确保可靠的服务
我们通过服务级别协议 (SLA) 证明了我们对可靠性的承诺,该协议规定了我们每个月需要向客户保证的正常运行时间。
此外,我们还使用其他衡量标准,例如恢复时间目标 (RTO) 和恢复点目标 (RPO)。如果发生影响 Atlassian 云产品可靠性的计划外事件,Atlassian 将根据以下 RPO 和 RTO,力求恢复其云产品的正常运营:
RPO | 1 小时 |
---|---|
RTO | 6 小时 |
要查看我们产品和服务的可用性,请访问我们的 StatusPage。
可恢复性
我们高度可用的 (HA) 体系结构使我们能够在发生大多数可能影响云产品可用性的中断时还原服务。不过,在某些情况下,我们需要使用更传统的数据备份和恢复机制,例如基础架构内的数据损坏或删除。
为了应对这些情况,我们在 Atlassian 实施了一项全面的备份计划。该计划包括我们的内部系统和云产品,其中我们的备份措施是根据系统恢复要求设计的。我们拥有持续测试备份的流程和工具。
但是,这些备份不用于恢复客户做出的破坏性变更,例如使用脚本覆盖的字段或删除的问题、项目或站点。为避免数据丢失,我们建议定期备份。有关创建备份的更多信息,请参阅我们的文档。
最大限度地降低计划外事件的影响
Atlassian 的业务弹性团队致力于通过完善的业务连续性 (BC) 实践,确保我们自身的基本功能在业务中断期间和之后仍能正常运行。
BC 计划旨在与我们的 DR 计划协同工作,我们的活动以符合行业标准的年度生命周期为基础。作为我们方法的一部分,我们至少每年执行一次业务影响分析 (BIA) 流程,这是建立必要的有效连续性策略以保护我们的人员、流程和技术的基础。这些 BIA 的成果直接有助于推动 DR 和 BC 工作的策略。因此,我们的关键业务服务能够全面制定有效的 DR 和 BC 计划,以帮助恢复我们的重要技术及其背后的人员和流程。
我们的业务连续性保障方法
我们不断寻求通过三种互补方法来建立我们的业务弹性和恢复策略的能力和保障:
- 训练:设法审查现有计划,可以是桌面训练、功能训练或全面训练,让参与计划的每个人都有机会练习在发生业务中断时他们负责的工作。这种方法允许利益相关者详细审查相关的连续性计划,遵循的程序就像在真正的危机中一样。
- 军事演习:允许我们进行压力测试来测试我们如何应对现有或可能的威胁。虽然我们利用全危险规划方法,但军事演习使我们能够对极有可能或具有影响力的特定情景的应对方法进行压力测试,以确保我们的应对和恢复策略稳健可靠。
- 测试:通过/未通过,允许我们客观地衡量我们的计划是否有效。当我们设法测试我们的灾难恢复策略以便衡量和管理有效性时,这是我们的主要方法。