インシデント対応プレイブックの作成方法
(ハンド) ブックからページを取得してください。
アトラシアンのミッションは、あらゆるチームの可能性を解き放つことです。優れたチームに共通していることは何でしょうか? 彼らはプレイブックを使用して、組織の円滑な運営を維持するために考案された多くのプロセスを管理しています。
この記事では、効果的なインシデント対応プレイブックを作成するための 5 つの重要なステップについて説明します。当社独自のアトラシアン インシデント管理ハンドブックをテンプレートとして使用して、インシデント対応計画を策定します。
アジャイル チームにインシデント プレイブックが必要な理由
インシデント対応プレイブックは、インシデントにリアルタイムで対応し解決するための標準的な手順とステップをチームに提供します。また、プレイブックには、次のインシデントに備えてチームの準備を整える平時のトレーニングと演習を含めることもできます。
アトラシアンでは、インシデント チームが常にインシデント管理プロセスに従ってトレーニングを実施し、プロセスを改良、テスト、および改善しています。私たちがインシデント対応プレイブックを作成した目的は、次のとおりです。
- スタッフとチームがインシデントと事後分析で自主的な意思決定を行えるように導く。
- インシデントを特定および管理し、そこから教訓を得る方法について、チーム間で一貫した文化を構築します。
- インシデントの特定、解決、反省の各部分に取り組むべき姿勢をチーム間で一致させる。
インシデント対応プレイブックの内容
プレイブックは、DevOps と IT Ops のインシデント管理およびサイバー セキュリティにおける重要なコンポーネントです。プレイブックは、予期しない停止に対する組織のポリシーとプラクティスを設定し、チームが一致団結して混乱を解消し、全員がインシデントとセキュリティの脅威に一貫して対応できるように支援します。
インシデント管理ハンドブックは、セキュリティ課題であるか、その他の新しい脆弱性であるかにかかわらず、インシデントに対応および解消し、インシデントから学習するための一連のプロセスをチームに提供します。コンテンツには、ランブックやチェックリストから、テンプレート、トレーニング演習、セキュリティ攻撃シナリオ、シミュレーション訓練に至るまで、あらゆるものが含まれます。
インシデント対応プレイブックの作成
アトラシアン インシデント管理ハンドブックの作成にあたり、インシデント管理に関する 5 つのベスト プラクティスを特定しました。これらのステップをさまざまな DevOps チームと IT 運用チームに合った形に変えることで、効果的なインシデント対応プレイブックを構築することができます。
1. 自分の組織にとってのインシデントを定義する
含めるもの: インシデントとは何かについての具体的な定義
理由: インシデントが発生してもそれに気づかなければ、インシデントを効果的に解決することはできません。インシデントの定義はチームによって異なります。不具合が発生したときは 1 秒を争います。仲間同士でセマンティクスをめぐって争う時間はありません。
例:
アトラシアンのインシデント管理ハンドブックに記載されているインシデントの定義は次のとおりです。
インシデントとは?
アトラシアンでは、インシデントをサービスの中断や質の低下を引き起こす、緊急対応が必要なイベントとして定義しています。ITIL または ITSM の実施基準に従うチームでは、「メジャー インシデント」という用語を使用することがあります。
インシデントが解決済みとなるのは、影響を受けたサービスが通常の機能を再開したときです。機能の完全復元に必要なタスクのみが対象となります。根本原因の特定や緩和は対象外となり、事後分析に含まれます。
インシデントの事後分析はインシデントの発生後に実施するものであり、インシデントの根本原因を特定し、それが再発しないよう確実に対処するための行動を割り当てます。
2. 事前に指定されたロールを割り当てる
含めるもの: インシデントのロールと責任
理由: 適切なインシデント対応プレイブックでは、明確なロールと責任が指定されています。インシデント対応チームのメンバーはそれぞれのロールに精通しており、インシデント時の自分の責任について把握しています。
例:
アトラシアンで私たちが使用するロールは、必要なすべてのステップがカバーされ、重複した作業が発生せず、コミュニケーションが円滑かつ効果的に行われることを保証するよう設定されています。
- インシデント マネージャーには、インシデントに対する全般的な責任と権限が与えられています。インシデントを解決するために必要なあらゆる行動を取る権限が与えられています。これには、組織内の任意の対応者を呼び出し、可能な限り迅速にサービスを復元させることにインシデントに関わるメンバーを集中させる権限が含まれています。
- 技術リーダー: 上級技術対応者です。何がどのような理由で壊れたのかを考え、どのような変更を行うかを決定し、技術チームを指揮する責任を負っています。インシデント マネージャーと緊密に連携します。
- コミュニケーション マネージャー: カスタマー サポート チームや広報のスタッフなど、パブリック コミュニケーションに精通している人が担当します。社内および社外向けのコミュニケーションを執筆し、送信する責任があります。
3. 一貫したプロセスを実施する
含めるもの: プロセス ステップとワークフロー
理由: まったく同じインシデントは 2 つとありません。しかし、だからといって、対応者がインシデントに対応するための一貫したワークフローを導入できないわけではありません。
重要なステップとフェーズの概要を記述し、各フェーズで何が期待されるか、そして次に何が起きるかをチーム メンバーが明確に把握できるようにします。例えば、アトラシアンでは、インシデントの発見から解決まで、3 つのフェーズにわたる 7 つのステップでインシデント対応フローの概要をまとめています。
例:
新しいインシデントが検出されると、インシデント マネージャーは社内のコミュニケーションと対応の体制づくりを開始します。その後、チームはインシデントの原因の修正作業を開始して、解決に至ります。この段階でしっかりと体制づくりを行うことによって、頻繁なコミュニケーションに裏打ちされた行動が促進されます。一貫したプロセスを順守すれば、より迅速な解決につながります。これには、次で説明する事後分析も含まれます。
4. 迅速な対応を可能にする
含めるもの: テンプレートとチェックリスト
理由: インシデント プレイブックは、緊急時でもチームが実行できるようシンプルである必要があります。当社独自のプロセスに含まれている重大なインシデント担当マネージャーの「チート シート」には、評価、エスカレーション、委任などの重要なステップが 1 ページにまとめられています。
事前に決められたインシデント対応プロセスに従うからといって、改善の余地がないわけではありません。状況の変化に合わせて柔軟かつ臨機応変に対応すべきタイミングを知る必要があります。インシデントは、定義上、物事が計画どおりに進まないシナリオですが、だからといって準備できないという意味ではありません。一連のプレイで訓練および練習するチームは、概して成功します。
以下を使用してください。
インシデントに先立ってインシデント対応の価値に関するプレイを実行して、チームの団結を強化し、考えられる誤解について考察します。当社のリソースである Atlassian Team Playbook を使用して、チームのプロセスへの理解を深め、動的なプレイブックを構築します。
5. 包括的な事後分析を促進する
含める内容: 事後分析プロセスと課題フィールドの概要
理由: 事後分析の目的は、すべての原因を理解し、今後の参考とパターンを見つけるための記録を作成し、再発の可能性または影響を軽減するのに有効な予防措置を設定することで、インシデントの価値を最大限に利用することです。
インシデントはシステムの信頼性に対する予定外の投資であると考えれば、事後分析はその投資のリターンを最大化するための手段です。
以下をお試しください。
事後分析が効果を発揮するためには、チームが簡単に根本原因の特定と修正を行えるようプロセスを構築する必要があります。どのような手法を採用すべきかはチームの文化によって異なりますが、アトラシアンの事後分析チームで有効性が判明している手法の組み合わせをご紹介します。
- 対面ミーティングを行うと、適切な分析が促進され、どのような修正が必要かについてチーム内で認識を共有することができます。
- デリバリー チームと運用チームのマネージャーによる事後分析の承認を設定すると、チームが事後分析を徹底的に行う動機付けになります。
- サービス レベル目標 (SLO) を割り当てて優先行動を指定し、リマインダーとレポートを設定すると、それらの行動を確実に実行させることができます。
アトラシアンのインシデント対応の事後分析に関するステップバイステップの説明は、インシデント管理ハンドブックの 46 ページにあります。
インシデント対応プレイブックを使用する最終的な目的は、チームが効果的に協力し合ってインシデントをできるだけ早く解決できるようにすることです。インシデントが発生すると、ベスト プラクティスについて話し合ったり、責任のなすりあいをしている時間はありません。綿密で適切に設計されたプレイブックがあれば、チームは最適な対応を行うことができます。アトラシアンでは、これらすべてのプレイに関するガイドがインシデント管理ハンドブックに詳しく記載しています。
Opsgenie を使用したオンコール スケジュールの設定
このチュートリアルでは、オンコール スケジュールの設定、オーバーライド ルールの適用、オンコール通知の設定などの方法を学習します。すべて Opsgenie 内で行います。
このチュートリアルを読む