ベロシティの高いチームのためのインシデント管理
アトラシアンインシデントハンドブック
現在、技術サービスチームは、24 時間 365 日の可用性を維持することを期待されています。
機能停止や故障のような障害が起こったときに、チームはすぐに対応し、サービスを復旧させる必要があります。このプロセスはインシデント管理と呼ばれています。インシデント管理は会社の規模に関わらず、現在進行中の複雑な課題です。
Atlassian は、世界中のチームのインシデント管理の向上を手助けします。Google などのチームから着想を得て、Atlassian のインシデント管理プロセスをまとめたこのハンドブックを作成しました。これらは、Atlassian が 10 年を超えるインシデント対応から学んだ教訓です。このハンドブックは Atlassian 独自の経験に基づいていますが、皆様のチームのニーズに合わせて変更を加えながらご利用いただけます。
ハンドブックの印刷版または PDF 版を入手する
インシデント管理ハンドブックの印刷版は、数量限定で無料配布しています。または、PDF 版をダウンロードしてください。
Atlassian は、世界中のチームのインシデント管理の向上を手助けします。Google などのチームから着想を得て、Atlassian のインシデント管理プロセスをまとめたこのハンドブックを作成しました。これらは、Atlassian が 10 年を超えるインシデント対応から学んだ教訓です。このハンドブックは Atlassian 独自の経験に基づいていますが、皆様のチームのニーズに合わせて変更を加えながらご利用いただけます。
ステージ | インシデントの価値感 | 関連するアトラシアンの価値観 | 解釈 |
1. 検出 | 顧客より先にインシデントを検出 | Build with Heart and Balance | 顧客より先にインシデントを検出するための十分な監視とアラート システムを備えているのが、バランスの取れたサービスです。 最高の監視システムは、問題がインシデントになる前に警告してくれます。 |
2. 応答 | 躊躇せずエスカレート | チームとして | 起こされるのが好きな人はいません、責任を軽く見ているわけではありません。しかし、インシデント対応のために起こされた人が、実際は不要だったという場合があることは理解されています。通常、難しいのは、重大なインシデントが発生したときに目覚めることと、必要なタイミングよりも遅く警告された場合に追いつくことです。 いつもすべての答えがわかるとは限りません。ですから、エスカレートを躊躇しないでください。 |
3. 復旧 | 問題が発生した場合に迅速に解決 | 顧客をないがしろにしない | 顧客はサービスが停止した原因は気にしません。気にするのは、私たちがどれだけ早くサービスを復旧させられるかです。 インシデントの早期解決に全力を尽くすことで、顧客への影響を最小化できます。 |
4. 学ぶ | 誰かのせいにしない | Open Company, No Bullshit | インシデントは、サービス運営の一部です。私たちは、チームに責任を負わせるのではなく、責任を持たせることでサービスを向上します。 |
5. 改善 | 同じインシデントを繰り返さない | 自分自身が変化の原動力になる | 根本原因と、すべてのインシデントクラスの再発を防ぐ変更事項を特定します。 具体的な変更事項を、具体的な日付までに提供することをコミットします。 |
Opsgenie を使用したオンコール スケジュールの設定
このチュートリアルでは、オンコール スケジュールの設定、オーバーライド ルールの適用、オンコール通知の設定などの方法を学習します。すべて Opsgenie 内で行います。
このチュートリアルを読むインシデントへの対応方法
ハンドブックの中から、Atlassian のインシデント対応プロセスをご紹介します。インシデントの検出から解決までにインシデント マネージャーが行うことを学びましょう。
この記事を読む