我们的安全事件管理方法
我们的安全事件处理方法
在 Atlassian,我们有一套全面的安全措施来确保我们保护客户信息,并提供我们所能提供的最可靠、最安全的服务。但是,我们也认识到,安全事件可能(而且确实)仍然会发生,因此,如果发生安全事件,采取有效的方法来处理这些事件同样重要。
因此,我们有了一个明确定义的方法来响应影响我们的服务或基础设施的安全事件。我们的事件响应方法包括对我们的产品和基础设施进行全面的记录和监控,以确保我们快速发现潜在事件,并由精心定义的流程提供支持,这些流程可确保我们在事件的各个阶段都明确需要做什么。这得到了一支由高素质的待命事件经理组成的团队的支持,他们在协调有效响应方面经验丰富。我们还与一批外部专家建立关系,协助我们尽可能高效地开展调查并做出响应。我们根据 NIST 800-61 计算机安全事件处理指南中的指导构建了事件管理方法,并根据 Verizon VERIS 框架对事件进行了分类。
我们的理念和方法
在我们看来,安全事件是对客户数据、Atlassian 数据或 Atlassian 服务的机密性、完整性或可用性造成负面影响的任何情形。
我们之前用“故意”一词限定了这种影响,但是它已被删除,以便将意外数据泄露等也包括在内。
我们应对安全事件的核心是确保我们坚持自己的价值观,尤其是确保我们不会让我们的客户烦心。我们专注于实施最佳流程,以便我们以始终符合客户最大利益的方式处理安全事件,并确保他们继续获得使用我们产品的出色体验。为此,我们开发了一个稳健的事件响应流程,并包含下文讨论的几个功能。
快速发现潜在事件的几种途径
我们有几种监控机制来检测我们的产品和基础架构中的故障或异常情况,这些故障或异常情况可能表明存在潜在的安全事件。如果检测到需要进一步调查的活动,这些系统会立即向我们发出警报。我们有一个聚合的日志捕获和分析平台,可以在一个位置整理日志,因此我们的分析师可以快速全面地进行调查,我们的站点可靠性工程师也会监控该平台以确保其始终可用。我们还会在安全信息和事件应用中创建警报,主动通知我们的团队。
我们还维护外部报告渠道,通过这些渠道我们可以发现漏洞或事件,包括我们的缺陷赏金计划、我们的客户支持门户以及定义的安全电子邮件收件箱和电话号码。
管理安全事件的既定框架
为了确保我们的事件响应流程一致、可重复和高效,我们有一个明确定义的内部框架,涵盖了我们在事件响应流程每个阶段需要采取的步骤。我们已经记录了不断更新的小技巧,其中详细定义了有效应对不同事件类型所需采取的步骤。在较高层面上,我们的响应框架涵盖:
事件检测和分析—我们在收到有关潜在事件的初始通知后采取的步骤,其中包括如何确认是否发生了安全事件(以便最大限度地减少误报),直至了解攻击媒介、入侵范围以及对 Atlassian 及其客户的影响。
事件严重性分类—一旦我们通过适当的分析了解了发生了什么,我们就会使用这些信息来确定事件的严重性。我们将事件分为四个严重性级别:
事件严重性描述 | |
严重性 | 描述 |
0 | 影响最大的危机事件 |
1 | 产生极大影响的危机事件 |
2 | 产生巨大影响的重大事件 |
3 | 产生较小影响的小型事件 |
我们使用各种指标来确定事件的严重性—这些指标因所涉及的产品而异,但会考虑是否出现全面服务中断(以及受影响的客户数量)、核心功能是否中断以及是否发生数据丢失。
遏制、根除和恢复—考虑到事件的严重性,我们随后会确定并实施必要的步骤来遏制事件、消除根本原因并启动恢复流程,以确保尽快恢复正常运营。当然,我们在此阶段采取的步骤将因事件的性质而有很大差异。无论何时(或根据我们的法律或合同义务的要求),Atlassian 还将在事件响应流程的这一阶段与客户沟通事件及其对客户的潜在影响。
通知 - 如果客户的数据涉及已确认的事件,我们会立即通知他们。起初可能不会有太多详细信息,但是一旦有详细信息,我们将会立即提供。
可靠的事件后审查流程—在每个事件都解决后,我们会研究可以从发生的事情中吸取哪些经验教训,这些经验教训可以为技术解决方案的开发、流程改进以及其他最佳实践的引入提供信息,以便我们能够继续为我们的客户提供最佳体验,确保恶意行为更难出现。
明确定义的角色和职责
我们遇到的每一个事件都由我们高素质、经验丰富的重大事件经理(简称 MIM)进行管理。MIM 通常会做出与安全相关的决策,监督响应流程,并在内部分配任务,以促进我们的响应流程。MIM 还得到了负责事件调查和分析的事件分析师的进一步支持,以及众多其他角色来协助响应流程。很多情况下,如果事件在多个地区产生影响,则会为一个事件分配两个 MIM,以确保始终有人负责保持我们的响应流程向前推进,并且遏制或恢复活动不会因时差而受阻或受到其他影响。
在发生大规模事件的情况下,可能会召集来自不同团队(通常是现场可靠性工程)的 MIM 来帮助管理响应流程。您可以阅读更多有关我们在安全事件中分配的角色和职责的详细信息。
必要时联系外部专家
有时,我们可能需要外部专家的帮助来协助我们调查事件。我们保留专业的网络安全顾问和司法专家的服务,以防止我们为支持诉讼可能需要进行的深入取证分析或电子取证的取证保留。
我们如何使用自己的工具来管理安全事件
我们使用我们自己很多产品的特殊配置版本来帮助确保我们能够尽可能有条理、一致和动态地处理事件。其中包括:
Confluence—我们使用 Confluence 在一个中心位置协作创建、记录和更新我们的事件响应流程,确保将这些流程传播给所有员工,并根据过去事件吸取的经验教训快速更新这些流程。我们还使用 Confluence 来记录我们的播放和搜索记录。
Jira—我们使用 Jira 创建工作单来处理可疑事件的初步调查,并在我们的初步调查确认发生事件时推动和跟踪我们的响应流程。这些工作单可帮助我们汇总有关事件的信息、制定解决方案以及执行其他后勤工作(例如在响应流程中委派任务,并在必要时联系公司内的其他团队)。我们还使用 Jira 来追踪我们执行了哪些搜索,以及每次搜索的结果。
Bitbucket—当我们开发基于代码的解决方案来解决某些类型事件中出现的特殊极端情况问题时,我们使用 Bitbucket 作为源代码控制工具。然后,我们开发的解决方案可以在内部协作并进行测试,同时保持私密性,并在必要时推动快速迭代。我们还将 Bitbucket 与持续集成/持续交付计划结合使用,推出代码以协助减轻事故原因所造成的的影响,或是帮助检测或预防未来事件。
最终,使用这些工具可以帮助我们建立一个响应框架,确保事件(无论何种类型)都具有一定程度的结构和熟悉程度,以便我们能够尽快采取行动找到解决办法。
总结
Atlassian 采用强大全面的方法来处理安全事件,重点是使用我们为客户提供的相同工具。这使我们能够以高度一致性、可预测性和有效性对事件做出响应,并最大限度地减少对客户、合作伙伴和 Atlassian 本身造成损害的可能性。
想要深入了解?
我们还发布了许多其他资源,您可以访问这些资源,以了解我们处理安全事件的方法以及我们的常规安全方法。