如何改善您的 IT 支持工作流
什么是问题管理?
问题管理是识别和管理 IT 服务事件原因的流程。它是 ITSM 框架的核心组件。
实际上,您越接近真正的事件专家,听到的问题就越少:“是什么原因导致了事件?”当然,您会从高管、客户和媒体那里听到许多。但是专家们知道得更多。
因为“是什么原因导致了事件”这一问题的答案通常是枯燥且无益的:某一配置文件被改写了,或是有个数据库条目被破坏了。
但是,导致事件发生的背后原因是什么?导致事件发生的因素有哪些?配置文件在什么情况下才有可能被改写?哪些情况会导致数据库条目被破坏?这些是您会从专家那里听到的问题。它们才是问题管理的核心。
问题管理不仅仅是发现和解决事件,还要确定和了解事件的根本原因,同时确定消除该根本原因的最佳方法。此外,如果事件是由一个孤立团队完成的切断流程,那么查明原因对于组织来说便毫无价值。因此,问题管理应在多个团队(包括 IT、安全和软件开发人员)中持续且广泛地开展。一旦服务启动并重新运行,事件便可能结束,但在根本原因和影响因素得到解决之前,问题仍然存在。
问题管理与其他关键 ITIL 流程之间的关系
问题管理与事件管理以及其他 ITIL 实践协同作业,从而形成 ITSM 总体战略。
问题管理与事件管理
ITIL 将问题定义为一个或多个事件的原因或潜在原因。有效的事件管理和有效的问题管理背后的行为通常是相似且重叠的,但其中仍存在若干重大差异。例如,将最近的部署回滚可能会使服务重新运行并结束事件,但其根本问题仍然存在。
换言之,我们认为问题管理和事件管理实践开始逐渐交织在一起。在两次事件之间,IT 团队可以将其精力集中在问题调查上,从而提高服务质量。因此,问题管理成为对组织来说最有价值的举措。
问题管理和知识管理
知识管理可针对通用程序甚至事件解决方法创建解决方案和文档的存储库。结合使用时,良好的知识管理实践可以更快速地解决事件,并减少事件数量。
问题管理和服务请求管理
服务请求管理是处理用户请求的实践,以便提供用户所需的内容,例如:应用访问权限、软件增强功能和信息。有时很难区分服务请求和事件。实际上,在 2007 年 ITIL V3 发布之前,两者并未区分开来,并且都归入了“事件”类别。如今,ITIL 将事件定义为“IT 服务的意外中断或 IT 服务质量的下降”。它将服务请求定义为“用户要求提供某些内容的正式请求,例如,针对信息或建议的请求、请求重置密码或请求为新用户安装工作站”。
问题管理有哪些优势?
如果处理得当,问题管理将为企业带来许多好处。
缩短解决问题的时间
解决当前事件背后问题的团队将为未来的攻击事件做好更充分的准备。通过围绕问题分析来整理最佳实践,团队可在下次服务中断时更快速地做出响应并采取行动。
避免代价高昂的事件
避免事件可节省时间和金钱,并省却许多痛苦。据 Gartner 称,很多组织报告的每小时停机期间成本超过 300,000 美元。对于某些基于 Web 的服务,这个数字可能还会大幅提高。
提高工作效率
停止过分频繁地对事件做出响应,并将资源和时间返还给那些能为客户带来全新价值的团队。
让您的团队有能力发现根本原因并从中吸取教训
当组织能有效实施问题管理时,团队便会不断进行调查、从事件吸取教训,并交付有价值的更新。遗憾的是,许多企业打造的是孤立的问题管理团队。该团队与日常运营鲜有交集,因而无法消除最紧迫的问题。
促进持续服务改进
问题管理可以预防事件,同时创造价值。例如,解决导致性能低下的事件也会带来有价值的服务质量改进。
提高客户满意度
更优异的问题管理可以减少事件,并提高客户满意度。换个角度来说,当客户发现同一事件屡次发生时,他们的耐心就会被蚕食。减少重复事件的发生可建立客户信任度。
问题管理流程
在 Atlassian,我们支持将问题和事件管理流程更紧密地结合在一起。
当问题管理是一个沉重、孤立且分离的流程时,公司最终可能会面临一堆棘手的问题。在某些团队中,待办事项列表就是解决问题事务的地方。最好将问题转给有能力处理并可开展有意义调查的团队。
总而言之,最好了解有助于问题管理流程的主要步骤。比如:
- 问题检测 - 主动发现问题以便修复问题,或在将来发生事件之前确定解决方法。
- 分类和优先级划分 - 跟踪和评估已知问题,使团队井井有条,处理相关度最高、最有价值的问题。
- 调查和诊断 - 确定造成问题的根本原因以及最佳补救操作方案。
- 创建已知错误记录 - 在 ITIL 中,已知错误是指“记录有根本原因和解决方法的问题”。如果问题触发事件,记录此信息可减少停机时长。错误记录通常存储在名为“已知错误数据库”的文档中。
- 必要时创建解决方法 - 解决方法是减少问题影响并防止其成为事件的临时解决方案。解决方法并非最理想的选择,但如果无法轻易识别和消除问题,它们则可降低业务影响并避免发生面向客户的事件。
- 解决并关闭问题 - 已关闭的问题是指已解决且不会再导致其他事件的问题。
问题管理的最佳实践和提示
正如先前提到的,我们所见过的最有效的问题管理团队会将问题管理和事件管理结合在一起。
将问题管理作为单独的实践会引发挑战,从而导致问题管理团队成为瓶颈或专注于错误的事情,比如他们无法控制的外部供应商的问题。通常,事件发生很久之后才会对根本原因进行调查。
很多情况下,将事件管理和问题管理实践整合在一起可能会使您的团队受益。这一主动方法可让您在努力解决事件的同时了解导致事件的原因。例如,解决软件中的事件需要确定坏码(原因),然后开发替换代码,以免引发其他事件(解决方法)。
将问题和事件结合在一起意味着,当团队未处于响应模式时,他们可以寻找对服务和工作质量影响最大的问题并预先采取措施,从而规避未来事件。
问题管理提示
避免依赖被动的根本原因分析
事件或问题背后很少只有一个根本原因。精英团队会全面考虑所有潜在的影响因素,并进行无指责分析。
鼓励营造可以共享问题的开放环境
问题和事件分析应当在团队成员间公开,鼓励团队成员分享事实,而不必担心受到惩罚或报复。
专注于关键服务
优先处理会对为组织提供最大价值的服务产生影响的那些问题。
提问并使用“5 个为什么”
许多团队使用大野耐一 (Taiichi Ohno) 的“5 个为什么”技术获得了成功。查阅“Atlassian 团队行动手册”战略,了解更多信息。
传播知识
开放的团队会分享知识和见解,这样他们的同事和相关团队就可以从中学习。
成为学习型组织
有效的问题管理并没有终点。即使是表现最出色的组织也会出现事件。真正的世界级团队会不断迭代其流程,改进其流程并减少问题对其同事和客户的影响。
跟踪后续行动
重要的是要制定一种清晰的标准化方法,以掌握后续行动。由于您应该一直进行问题管理,因此使用 ITSM 软件至关重要。该软件可让您的团队确定任务的优先级、跟踪进度,并有助于将事件事务与问题关联起来。
摘要
事件通常被描述为对未来服务可靠性的计划外投资。有效的问题管理可实现有价值的服务改进,同时可识别并消除事件背后的驱动因素。
想了解 Jira Service Management 中的问题管理?