ベロシティの高いチームのためのインシデント管理
インシデントの事後分析プロセスの重要性
インシデントは発生します。
インシデントは発生するものなのです。システムの規模と複雑さが増すにつれて、障害の発生は避けられません。
インシデントは学習の機会でもあります。
システムの脆弱性を発見するチャンスなのです。インシデントの再発を緩和して、解決までの時間を短縮する機会なのです。チームを結集して、次に発生したときの対応を改善する方法を考えましょう。
インシデント発生中に何が起こったのかを把握して、学んだ教訓を反映する最良の方法は、インシデント後のレビューとも呼ばれるインシデントの事後分析を実施することです。
インシデントの事後分析では、インシデントの詳細について話し合うために、インシデントが起こった理由、その影響、それを緩和して解決するために取られた措置、そしてその再発を防止する方法を話し合います。
バージョン管理、機能フラグ、継続的なデリバリーなどの手段によって、多くのインシデントを迅速に「元に戻す」ことができます。多くのインシデントは本番環境にプッシュされた変更のバグが原因で発生して、その変更をロールバックするとアプリを再起動して実行できます。これは誰にとっても本当に有益です。それによって、すぐにサービスを再稼働できます。しかし、それは多くの場合、何が失敗したのか、なぜそれが失敗したのかを理解する上で役立ちません。そこで事後分析の出番です。
インシデントの事後分析は、インシデントから学習して問題を進歩に変えるためのフレームワークです。また、顧客、同僚、エンド ユーザー (基本的にインシデントの影響を受ける人) との信頼関係を築いて、今後のインシデントや影響を最小限に抑えるためにチームが取り組んでいることを知らせます。
事後分析は、常時稼働サービスのライフサイクルにおける重要なステップです。事後分析の調査結果は、計画プロセスにすぐにフィードバックする必要があります。これにより、事後分析で特定された重要な修復作業を今後の業務に組み込んで、その他の業務と優先事項とのバランスを確実に確保します。
Opsgenie を使用したオンコール スケジュールの設定
このチュートリアルでは、オンコール スケジュールの設定、オーバーライド ルールの適用、オンコール通知の設定などの方法を学習します。すべて Opsgenie 内で行います。
このチュートリアルを読むインシデント事後分析テンプレート: 対応プロセスを改善する
カスタマイズ可能なインシデント事後分析テンプレートにアクセスして、分析を効率化し、今後のインシデント対応を強化します。
この記事を読む