ベロシティの高いチームのためのインシデント管理
チームはインシデント管理に ChatOps をどのように採用しているか
コミュニケーションが向上するほど、インシデント管理も向上することは周知の事実です。
強力なコミュニケーションとコラボレーションを実践しているチームは、社内チームと外部ユーザーの両方を満足させながらインシデントを迅速に解決することができます。また、重要な問題を特定し、将来のインシデントを防ぐのに役立つ事後分析の準備も整っています。
そのため、ChatOps が多くのインシデント管理チームのプロセスに不可欠な要素になっているのも当然と言えます。
ChatOps を選ぶ理由
Jira と Bitbucket の製品マーケティングの責任者である Sean Regan が言うように、ChatOps は会話を促進します。
「ChatOps は、人、ツール、プロセス、自動化を、透明性が確保されたワークフローに結び付けるコラボレーション モデルです。このフローは、人、ボット、関連ツールがスタンバイしている永続的な場所で、必要な作業、発生した作業、完了した作業を結び付けます。透明性を確保することで、フィードバック ループが強化され、情報共有が進み、チームのコラボレーションが強化されます。チームの文化やクロス トレーニングは言うまでもありません」
「チャットは、チームの集合的な知識を捉え、それを使用して製品の提供方法や人々の連携方法に永続的な変化をもたらす新しい方法です。このような話をしても、実際の変化を感じることはできませんが、一度この方法で仕事を始めると、以前の方法に戻ることは想像できません」
ChatOps はインシデント管理でどのように機能するか?
インシデント管理の文脈では、ChatOps はインシデントのワークフローを 1 か所にまとめ、チームの俊敏性を維持し、情報をリアルタイムで共有できます。
インシデントに関するすべてのコミュニケーション、インシデント レポート、計画、進捗状況を一元管理し、全員がリアルタイムで情報を把握できるようにします。また、DevOps、IT、コミュニケーション、セキュリティ、法務、およびその他の関連チームが、インシデントの解決だけでなく、将来のインシデント予防とリスク軽減にも協力できる場を提供します。
インシデント時の情報のサイロ化を解消
誰もが同じ情報にアクセスできる
インシデントの会話がサイロ化されていればいるほど、プロジェクトの進捗を妨害するコミュニケーション エラーの可能性が高くなります。全員を 1 つのチャット ルームに集めることで、そのリスクを軽減できます。
会話はリアルタイムに行われる
インシデントを解決する開発者から、エンド ユーザーを安心させるソーシャル メディア管理者まで、すべての関係者が常に遅滞なく最新の状態に保たれます。
コンテキストの切り替えが少ない
ChatOps を使用しない場合、インシデント管理は通常、さまざまなアプリケーション間で発生し、メール、電話、SMS などでやり取りされます。これにより、コンテキストの切り替えが当然のごとく大量に発生し、それを追跡するために多大な労力が必要となります。
ChatOps は、可能な限りすべてを 1 か所に集約します。アラートがチャットに表示されます。レポートがチャットに表示されます。チャットが会話に取って代わります。したがって、インシデント チームが最新情報を入手するのに必要な場所は 1 つだけになります。
電話による伝言ゲームはなし
昔ながらの電話による伝言ゲームをよく知っている人であれば、ほんの数人挟むだけでメッセージの内容ががらりと変わってしまうことはご存じでしょう。ChatOps はこのようなリスクを排除します。すべてのユーザーが同一のオリジナルの会話にアクセスすることで、コミュニケーション エラーのリスクが大幅に低減します。
インシデント事後分析のための組み込まれた書面での記録
どんな不具合ですか? インシデントを解決するのにどれくらい時間がかかりましたか? 結局何が問題解決に役立ちましたか? 修正は今後自動化できるようなものですか?
これらは、インシデントの事後分析で調査する質問の例です。また、すべてのコミュニケーションをタイムスタンプ付きで 1 か所に記録しておけば、これらの質問に明確かつ正確に答えることができます。
インシデント管理の ChatOps ベスト プラクティス
アラート システムをチャットに接続
開発者がインシデント解決のためにチャットに出入りしなければならない回数が増えるほど、タスク切り替えに要する時間が長くなります。インシデント発生中にアラートをメールや電話にプッシュするのではなく、チャット ルームに直接プッシュすることで、インシデント解決プロセスのスピード アップに役立ちます。
アラートのためのインテリジェントなしきい値の設定
アラート疲れは、特に重大なインシデントが発生している最中には、非常に大きな脅威となります。したがって、チャットに直接アラートを送信することを提案する場合、すべてのアラートが対象になるわけではありません。
チームがインシデントに迅速かつ完全に対応するのに役立つアラートはどれですか? 単にノイズを増やすだけのアラートはどれですか? 重複しているアラートはどれですか?
これらの質問を前もって行い、チャットにインテリジェントなアラートしきい値を設定することで、作業を合理化し、アラート疲れよってチームが重要なものを見逃すリスクを軽減できます。OpsGenie のようなツールを使用すれば、チャット ルームに送信するアクションを設定したり、そのプロパティに基づいてアラートをフィルタリングしたりすることができます。
重大なインシデントごとに個別の対策ルームを用意する
重大なインシデントを処理するチームは、軽微なインシデント、日常的なチャット、その他の優先順位の低いインシデントにいちいち悩まされる必要はありません。重大なインシデントごとに専用の対策ルームを必ず準備するようにしてください。
チャットからアクションを実行する
Slack と OpsGenie のような組み合わせにより、インシデント管理チャットを単なるコミュニケーション チャネル以上のものにすることができます。アラートの割り当て、オーナーシップの取得、メモの追加、インシデントのミュート、新しいアラートの作成など、インシデント アクションを実行するテキスト コマンドやボタンをチャットで直接有効にできます。
複数のチームを招待する
DevOps、IT、コミュニケーション リーダー、ソーシャル メディア管理者から、セキュリティや法務部門に至るまで、多くの場合、複数のチームや役割がリアルタイムでインシデントに関与する必要があります。これらのチームや役割を事前に把握し、早い段階でチャットに参加してもらいましょう。
セキュリティに優先順位を付ける
チャットの安全性を確認し、アクションを実行できるのは、その権限を持つユーザーだけに限定します。
チャットのトランスクリプトを保存する
インシデントが解決したら事後分析を行います。ChatOps はこのプロセスを合理化します。すべてのインシデント コミュニケーションが行われる専用の対策ルームでは、インシデントが終了すると、すべての会話、アクション、アラート、レポートが 1 か所に記録されます。この記録を、今後の参考のために保存します。インシデントのプレイブックを更新し、事後分析の段階で掘り下げ、同様のインシデントのリスクを回避する、または軽減する方法を考える際に役立てます。
Slack をインシデント管理に利用するうえで不可欠な 6 項目
ChatOps、インシデント管理ソリューション向けのチャット統合の 6 つの重要な機能、大手企業が採用しているインシデント管理への Slack 統合の比較については、こちらをご覧ください。
Opsgenie を使用したオンコール スケジュールの設定
このチュートリアルでは、オンコール スケジュールの設定、オーバーライド ルールの適用、オンコール通知の設定などの方法を学習します。すべて Opsgenie 内で行います。
このチュートリアルを読む