混乱への秩序をもたらす: インシデント指揮官のロール
インシデント指揮官 (IC) とは何か? なぜ必要か?
重大なインシデントが企業の収益に大きな影響を及ぼすことは、よく知られていることです。インシデント管理が ITSM プラクティスに不可欠で進化し続けているのは、これが理由です。しかし、インシデントが発生したとき、システムを復旧して稼働させる責任は誰が負うのでしょうか?
一般的な答えは、通常は IT または DevOps です。しかし、重大なインシデントをどの部門が処理しようとも、解決の実権を握っている人物は通常、インシデント指揮官です。
インシデント指揮官とは?
インシデント指揮官 (インシデント マネージャーとも呼ばれます) は、インシデント対応を管理する責任を負う IT チームまたは DevOps チームのメンバーです。この人物が優先するのは、インシデントを可能な限り迅速かつ完全に解決に導いて、その解決に関連するリソース、計画、コミュニケーションを管理することです。
この用語は、消防士や米国の緊急対応チームでも使用されており、これらのシナリオではリスクが高くなりがちですが、役割に変わりはありません。インシデント指揮官は常に、インシデントに関連するすべての事柄に対する最終決定権を持つ中心となる人物です。
なぜチームにインシデント指揮官が必要か?
インシデント指揮官は、インシデントに関する主要連絡先であり、信頼できる情報源です。インシデント指揮官は、全体像を見てすべての不確定要素を管理し、何が試されて何が捉えられているかを把握し、次のステップを計画して管理します。
インシデント指揮官がいなければ、コミュニケーションとチームワークが崩壊します。チームが知らないうちに重複して作業し、大局的見地から見た問題点を見逃し、システム ユーザー、社内の関係者、リーダーシップ、互いの迅速かつ正確なコミュニケーションに失敗するということが簡単に起こり得ます。組織のテクノロジーやチーム構造が大きく複雑になるほど、この役割が健全なインシデント管理の実践に不可欠になります。
インシデント指揮官の義務
インシデントの準備
インシデント指揮官は、コミュニケーション チャネルを設定してインシデント中に適切な人々をこれらのチャネルに招待し、インシデント管理だけでなくインシデント中のコミュニケーションに関するベスト プラクティスについてチーム メンバーをトレーニングする責任を負います。
意思決定
IC は、インシデントを迅速に評価して、何をすべきか、必要なチーム メンバーは誰か、解決プロセスのすべての段階で次にどのようなアクションが行われるかを決定する責任を負います。IC は、人の話をしっかり聞き、エキスパートの推奨事項の収集、合成、優先順位付けに長けている必要があります。
最高のインシデント指揮官は、強力な問題解決スキルを備えた、確実に意思決定できる人物です。
権限委譲
IC はタスクをチームに委任して追加の開発者やコミュニケーション エキスパートなどを引き入れ、チームを拡大するタイミングを知る必要があります。
監督
開発者がインシデントの原因とコード内での解決方法を見つけ出すことに注力する一方、インシデント指揮官は全体像を把握する必要があります。すでに試されていることは何でしょうか? 前回は何がうまくいったのでしょうか? 現在の戦略がうまくいかない場合の次善ステップは何でしょうか?
インシデント指揮官は、プロセスを最初から最後まで監督して、適切な質問をし、各チーム メンバーから定期的な進捗レポートを入手し、次のステップに優先順位を付ける責任を負います。
チームの連携
インシデントが大きくなるほど、複数のチームが連携して解決に取り組む可能性が高くなります。IC はコミュニケーションを監督して、全員が同じ認識を持つように徹底します。また、解決までの時間を最小限に抑えるために、チーム全体で会話を集中させて簡潔に保つ必要があります。
パニック管理
インシデントは、リスクが高くストレスが大きいイベントです。調査によると、過剰なストレスによって意思決定の質が下がることが判明しています。このため、インシデント指揮官は仕事の一部として、チームを落ち着かせて集中力を維持させる必要があります。
IC は、非常にストレスが大きいメンバーをインシデント チームから外して、必要に応じてそのチームに説明し、当座の作業に引き続き集中させられて、またそれを自ら進んで行う必要があります。また可能であれば、社内外の関係者から絶え間なく寄せられる質問や混乱をかわすことで、チームから余計なストレス負担を取り除く必要があります。
エスカレーションおよびリソース管理
必要に応じてインシデント指揮官は、上級または専門の開発者に課題をエスカレートしたり解決を速めるために追加のリソースを加えたりする責任を負います。
計画
インシデントの発生前とインシデント中の両方において、IC は次のステップとバックアップ プランを準備しておく必要があります。
ポストモーテム
インシデントが解決されたら、インシデント指揮官は事後分析プロセスを担う責任があります。これには、チームが考えを共有できるドキュメントの作成、事後分析会議の計画、将来のインシデントの影響を防止または軽減する方法に関する推奨事項の作成が含まれます。
インシデント指揮官になる
インシデント指揮官の中心的な責任は、リソース管理、コミュニケーション、問題解決です。経営上層部からインターンまで、これらのスキルを持つ誰もが優れたインシデント指揮官になれます。
通常、インシデント指揮官に求められる要件は次のとおりです。
- 優れたコミュニケーション スキル
- インシデント管理のベスト プラクティスとシステムに関する大まかな知識
- 問題解決スキル
- 迅速かつ確実に意思決定する能力
- 話を聞いて意見をまとめるスキル
- 重大なインシデントに関するこれまでの経験 (参加者または閲覧者として)
- リーダーシップ スキル (ストレスが大きい状況で指揮する能力)
ほとんどの企業ではインシデント指揮官になる前に、要領を覚えるために他の IC をシャドーイングすることが求められます。これらのような場合のベスト プラクティスは、インシデントが解決されるまでは静かに観察して学習し、質問を控えることです。
インシデント指揮官のベスト プラクティス
業界のベスト プラクティスの最新情報を常に把握する
インシデント指揮官は、インシデントを通じてチームを首尾よく指導する責任を負うため、インシデント対応のベスト プラクティスとインシデント コミュニケーションのベスト プラクティスに精通している必要があります。Atlassian のインシデント管理ハンドブックも、もう 1 つの有用なリソースです。
事前に計画
また、インシデントが発生する前に戦略的なプランを立てることも不可欠です。インシデント発生前のプロセスをしっかりドキュメント化すればするほど、IC とチームは、インシデントによって生じる、ストレスの大きい厳しい環境を追跡しやすくなります。
チームをよく知る
チームのダイナミクス、およびチーム リードのスタッフの長所と短所を理解することで、委任の効率化とインシデント解決の促進につながります。
タスクを続ける
重大なインシデント中でも、チームの話し合いと Slack の会話が本題から逸れる可能性があります。IC は、チームの脱線を止めて、当座のタスクに再集中させる準備を整える必要があります。
この作業は、口頭または書面による簡単な注意で済む場合もありますし、チームからスタッフを外したり新しいスタッフを投入したりしなければならないこともあります。最高の IC であれば、相手が CEO や上司であっても、その人がチームを混乱させるような場合は、オンコール勤務から進んで外します。
冷静を保つ
最高の IC は、危機的状況の中でも冷静を保って集中力を維持できます。このような資質が IC に自然に備わっていなくても、訓練して向上させられます。
事後分析に優先順位を付ける
インシデントが解決したら、チームがインシデント管理とシステム全体を将来どのように改善できるかを特定するために、IC は誰も責めることのない事後分析を実行する必要があります。最高の IC であれば、インシデントを冷静に解決に向けて導くだけでなく、企業がインシデントから学んで業務を改善する手助けにも取り組みます。
結論
すべてのインシデント指揮官は、強力なサービス管理ソリューションによってメリットを得られます。Jira Service Management はコミュニケーションを強化し、アラートを一元化して、ナレッジ ベース記事を組み込みます。
Opsgenie を使用したオンコール スケジュールの設定
このチュートリアルでは、オンコール スケジュールの設定、オーバーライド ルールの適用、オンコール通知の設定などの方法を学習します。すべて Opsgenie 内で行います。
このチュートリアルを読む