事件管理在 Jira Service Management 中的工作原理
概述
事件管理是对计划外事件或服务中断做出响应,并将服务恢复到运行状态。
- 事件:服务意外中断或服务质量下降。
- 重大事件:具有重大业务影响的事件,需要立即协调解决。
问题是背后根本原因尚不清楚的一个或多个事件。
Atlassian 的事件管理平台为您提供了快速高效地解决事件所需的所有上下文和数据。
- 在 Jira Service Management 中,支持人员可以轻松管理事务以及用户报告的事件。
- 支持人员可将重大事件快速提升为警报,并向待命团队发送通知。Jira Service Management 通过集中警报、通知相应人员、让人员协作并迅速采取行动,以便 IT 和 DevOps 团队能在事件发生期间保持控制力。
- Jira Service Management 的本地资产和配置管理功能(Premium 计划和 Enterprise 计划享有)可帮助支持人员了解其 IT 基础架构内的依赖关系,从而找出事件的潜在原因。
- 最后,共享工作区可在同一位置捕获事件实践、流程和程序,其中包括运行手册、知识库和 PIR。
这一无缝的端到端事件管理解决方案可帮助团队上报事件,让合适的响应者处理事件,群策群力,最终最大限度地减少停机时间。
事件管理流程
事件管理的关键在于,要有一个良好的流程并坚持下去。事件响应是一个相当宽泛的术语,因此,让我们进一步拆解,在确定事件、进行分类和按优先级排序后,最有可能执行的步骤会是:
- 初步诊断:DevOps 风格的团队通常负责从诊断到解决的整个事件,而多级别服务台的一线团队也会进行相同的尝试,但在需要时,他们也可以上报给二级或三级支持团队。
- 升级:如有必要,上一级团队将获取日志数据并继续进行诊断流程,如果新的团队无法诊断事件,则上报给更上一级团队。
- 沟通:团队要定期与受影响的内部和外部利益相关者分享最新动态。
- 调查和诊断:这个过程一直持续到确定事件的性质为止。有时,团队会引入外部资源或其他部门成员来咨询和协助解决问题。
- 解决和恢复:在此步骤中,团队将得出诊断结论并执行必要的步骤以解决事件。恢复仅指彻底恢复服务可能需要的努力,因为即使在确定正确的解决方案后,某些修复程序(例如缺陷修补程序等)也可能需要测试和部署。
- 关闭:如果事件被上报,它最终会被传回一线以便关闭。为了保持质量并确保流程顺利进行,只允许服务台员工关闭事件,并且事件负责人应与报告事件的人员进行核实,以确认解决方案令人满意且实际已可关闭此事件。
有关更多信息,请查阅我们的事件管理页面。
如何在 Jira Service Management 中开始使用事件管理
如何开始使用事件管理
Jira Service Management 提供了符合信息技术基础架构库 (ITIL) 标准的事件管理工作流,即 Jira Service Management 的事件管理工作流。我们建议您从此工作流入门,随着时间的推移对其进行调整以适应您的特定业务需求。阅读有关编辑工作流的更多信息。
如何为事件记录创建服务级别协议 (SLA)
Jira Service Management 提供了强大的内置 SLA,因此团队可以跟踪自己在满足客户期望的服务水平方面的情况。项目管理员可以创建 SLA 目标,指定要跟踪的请求类型,以及解决这些请求所需的时间。在Jira Service Management 中,您还可以定义影响 SLA 测量开始、暂停或停止的条件和日历时间。
要创建新的 SLA:
- 在您的服务项目中,转到项目设置 > SLA。此处显示所有现有的 SLA。
- 选择添加 SLA。
- 在时钟图标旁边的字段中,输入 SLA 的新名称或选择现有名称。
- (创建 SLA 后,您将无法更改其名称,因此请选择一个能够清楚说明其衡量内容的名称。)
- 为 SLA 设定目标和条件。了解有关设置 SLA 目标和设置 SLA 时间指标的更多信息。
- 选择保存。
如何在 Jira Service Management 中将事件标记为重大事件
当关键服务遇到中断时,Jira Service Management Cloud 会提供必要的工具来帮助支持人员快速解决事件。将事件标记为重大事件将提高其在其他事件中的可见度。此外,这些事件会被划分到自己的“重大事件”队列(支持 JQL 功能)下。
要将事件标记为重大事件,请执行以下操作:
- 导航到要标记为重大事件的事件。
- 打开事务的详细信息部分的“重大事件”切换开关。
注意:如果您的事件未显示重大事件字段,则应确保已在事务视图中添加该字段。您需要成为 Jira 管理员才能向事务类型添加字段。
如何直接从事件创建更新并将其发送到 Slack 通道
借助 Jira Service Management,您可以连接工作区并为每个事件创建专用 Slack 通道。通过将 Slack 工作区连接到服务项目,您可以为事件创建 Slack 通道、将事件响应者添加到您的 Slack 通道、更新事件优先级、执行事件操作,并帮助您的团队在事件发生期间更快地介入。
要创建事件 Slack 通道,请执行以下操作:
- 导航到要为其创建 Slack 通道的事件。
- 在事务的详细信息部分选择创建通道。
如何向内部利益相关者发送事件更新
内部利益相关者并非响应者,但他们需要了解事件进展情况,以采取预防措施并采取行动。借助 Jira Service Management,您可以将人员添加为利益相关者,并通过发送电子邮件来更新他们的信息。
要添加/删除内部利益相关者,请执行以下操作:
- 导航到要添加内部利益相关者的事件。
- 在详细信息下面,选择利益相关者字段旁的管理。
- 搜索要添加为利益相关者的人员。
要向内部利益相关者发送更新,请执行以下操作:
- 在事务视图的活动部分,选择更新利益相关者。
- 输入摘要和消息。
- 选择发送。
如何通过电话会议与团队集中解决事件
Jira Service Management 提供视频/语音会议室,以便在一个集中位置协调和管理事件。
要启动电话会议,请执行以下操作:
- 导航到要为其发起电话会议的事件。
- 在详细信息下面,选择“电话会议”字段旁的开始通话(或加入现有通话)。
了解如何访问和创建事后审查 (PIR)
借助事后审查,您可以发现系统中的漏洞,阻止重复发生的事件,缩短将来解决事件的时间,同时这也是始终在线服务生命周期中的重要一环。您的审核结果应反馈到您的规划流程中,以确保关键修复能在未来的工作中实施。记录事件以及团队解决该事件的方法,此举可以传授将来如何处理此类事件。团队可以为导致事件的问题创建长期解决方案,并在 Jira Service Management 中将事后审核与该事件关联起来。
要开启事后审查功能,请执行以下操作:
- 导航到项目设置 > 功能。
- 在 ITSM 类别下面,开启事后审查。
启用此类别允许您访问针对请求的新功能。要开始使用,您需要创建新的请求类型,或将现有请求类型分配给事后审查类别。
要访问事后审查,请执行以下操作:
- 在项目侧边栏菜单中选择事后审查。
- 选择事后审查的相应队列。
要创建新的事后审核,请执行以下操作:
- 在顶部菜单栏中选择创建。
- 在下拉列表中选择您创建的事后审核请求类型。
- 填写必填信息,然后在已链接事务字段中将相应的事件链接到 PIR。
- 完成后,选择创建。
专业提示:您也可以使用 Jira Service Management 的原生自动化引擎来创建事后审查。例如,您可以设置一条自动化规则,以便在团队每次解决重大或关键优先级事件之后创建一个事后审核。
如何将多个事件链接到一个问题报告
Jira Service Management 允许您将多个事务链接在一起。例如,您可以将多个事件记录链接到一份更大的问题报告。
要将多个事件链接到一个问题报告,请执行以下操作:
- 查看事件记录。
- 选择链接事务。
- 在已链接事务字段中,选择引起原因。
- 输入事务(或从下拉菜单中选择),以链接您想要在事务字段链接的事务。
- 选择链接。
事件管理的最佳实践和提示
轻松捕获用户事件和系统报告事件
Jira Service Management 是轻微事件和重大事件的数据源。客户门户以完整、一致的方式捕获用户报告的事件,并提供支持团队评估事件所需的所有必要信息。当员工或客户遇到事件时,他们可以在 Jira Service Management 中进行报告。在 Jira Service Management 中,事件会被传送到相应的支持人员队列。
关于早期检测事件和中断,IT 运营部门主要依赖有效的监控。对于系统检测到的事件,Jira Service Management 可以轻松地与 Slack、Datadog、Sumo Logic 和 Nagios 等 200 多种应用和 Web 服务集成,从而同步警报数据并简化您的事件工作流。
通过智能待命计划减少警报疲劳
当待命员工大量遇到无关紧要的警报时,他们会产生警报疲劳并错过重要的通知。Jira Service Management 的内置事件管理功能可确保您的团队永远不会错过关键警报。
通过在一个界面中构建值班表和定义上报规则,您的团队始终知道在事件发生期间谁在待命并负责。该解决方案对警报进行分组、过滤噪音并使用多种渠道(例如短信、电话、移动推送或电子邮件)通知团队成员,以及立即开始解决问题所需的相关上下文。
使用 ChatOps 和运行手册改善团队协调
借助 Jira Service Management,团队可以集中协作、共享实时信息,与事件指挥中心一同快速解决问题。再也无需浏览零散的一对一聊天更新或滚动浏览冗长的对话历史记录,团队可以直接在界面中预定义一个视频会议室,以便在其中不时聊天、分配角色,甚至采取果断的措施。通过将运行手册附加到警报中,团队可以自动或定制快速启动标准修复任务。
运行手册还非常适合记录常见的故障排除方法,以解决警报和中断问题。借助运行手册,您的员工可以轻松获得对事件进行快速分类所需的全部信息。在许多情况下,团队可以将事件解决时间缩短 40%。
制定主动的事件管理小技巧
提前规划您的事件响应策略。事件发生期间您的压力会减小,从而让团队更好保持专注,并且缩短解决问题的时间。确保基于运营和团队的协作实践同时进行:
- 确定您的团队在事件响应期间最看重什么并制定计划,以始终如一地践行这些价值观。例如,这些价值观可能是协作、沟通和“无可指摘”的事后审查。
- 明确定义什么是重大事件。
- 记录您的重大事件实践。
- 建立您的事件响应沟通,例如针对(外部和内部)利益相关者的响应模板和沟通。
- 确定您的事件响应团队的核心团队成员。
- 建立您的 PIR 实践。
- 对所有重大事件实施无可指摘的 PIR。
- 发布和分享 PIR 学习内容。
- 进行重大事件模拟演习。
专注于改善平均恢复时间 (MTTR)
建立强有力的事件管理流程对于减少事件的影响和快速恢复服务至关重要。改善响应能力的关键在于缩短平均恢复时间 (MTTR) 并简化根本原因分析以防止将来出现停机。事实上,Forrester 发现 70% 的事件响应时间都花在了“调查和诊断”阶段。
通过集中式外部沟通建立信任
很多团队使用集中式仪表板(如 Statuspage)来报告关键服务的状态。Statuspage 可作为单一渠道,向内部和外部用户进行清晰、主动的多路沟通,并可发送自动通知和更新。
Statuspage 还会让内部团队了解计划内和计划外的停机期间时间。客户和员工可以订阅更新,从而促进统一的沟通并减少手动更新。
有关更多信息,请查阅我们的事件管理最佳实践页面