ベロシティの高いチームのためのインシデント管理
ダウンタイムのコストの計算
重大インシデントの財務的影響に関する理解
2015 年 3 月、Apple Storeが 12 時間停止しました。それによって同社に発生した費用は、2500 万ドルに及びました。
2016 年 8 月、デルタ航空のオペレーション センターが 5 時間停止したことによって 2,000 便が欠航しました。その損失は推定1 億 5 千万ドルです。
2019 年 3 月、Facebook が 14 時間停止しました。その費用は推定 9,000 万ドルに上ります。
そして、これらの企業は超大手で業界のリーダーです。営業利益は膨大で、銀行口座には数百万ドルもの資金があります。これらの企業は一時的な財務的な損害なら耐えられる体力があります。しかし中小企業は、重大なインシデントによる損失はここまでの数字にはならないものの、収益への影響はより大きい可能性があります。
実際、101 社のスタートアップ企業に関するある研究では、破綻したスタートアップ企業の 29% は資金繰りの行き詰まりが原因で破綻したことがわかりました。スタートアップ企業がすでにリスクに晒されているとすれば、そのほとんどが重大なインシデントを乗り切れないことは想像に難くありません。
ストーリーから得られる教訓: ダウンタイムは重大な問題です。そう思っていない人は注意を払っていません。インシデントは顧客の信頼とロイヤルティを損ねるだけはなく、財務的にも致命的なのです。
ダウンタイムの平均コスト
Gartner による 2014 年の調査によると、ダウンタイムの平均コストは 1 分当たり 5,600 ドルです。しかし同社は、これは単なる平均であることを強調しています。同じ年の Avaya のレポートによると、企業の規模や業種などの要因に応じて、平均は 1 分当たり 2,300 ~ 9,000 ドルとされています。そして 2014 年以降、その数字は上昇しています。最近のレポート (Ponemon Institute が 2016 年に行ったもの) では、Gartner の平均が 1 分当たり 5,600 ドルから 1 分当たり約 9,000 ドルに上がっています。
中小企業の場合は 1 分当たり &137 ~ 427 と低くなりますが、その影響は重大です。そして貴社がこの非常に広い範囲のどこに当てはまるかは、業種、組織の規模、ビジネス モデルなどのさまざまな要素に依存します。
業種
リスクが最も高い業界としては、銀行/金融、政府、医療、製造、メディアおよびコミュニケーション、小売、輸送/公益事業が挙げられます。ある 2016 年の研究によると、これらの業界におけるダウンタイムの平均コストは 1 時間当たり 500 万ドルを超えるとされています。
組織の規模
組織の規模も重要な要素です。IDC 調査によれば、Fortune 1,000 企業の場合、ダウンタイムのコストは 1 時間当たり 100 万ドルに及ぶ可能性があります。また、IHS の調査レポートによれば、典型的な中規模企業はインシデントに年間 100 万ドルを費やしますが、大企業ともなるとその数字は 6,000 万ドル以上になることがあります。
ビジネス モデル
最後に、ビジネス モデルもダウンタイム コストの計算に大きく影響します。物理的な販売拠点のない e コマース サイトは、物理的な販売拠点を持つビジネスよりも明らかにウェブ停止の損失は大きくなります。ビジネス モデルがアップタイムに依存するほど、(論理的に) ダウンタイムによる損失が増えます。
ビジネス モデル全体がアップタイムに依存している e コマース大手の Amazon の場合、推定コストは 1 時間当たり約 1,322 万ドルに及びます。収益が広告インプレッションに依存している Facebook の場合は、同様にコストは数百万という数字になると推定されます。
クイック ダウンタイム シミュレーター
企業で想定されるダウンタイム コストをすばやく推定するには、ビジネスの規模と最新のインシデントが継続した分数に基づいて次の数式を使用します。
ダウンタイム コスト = ダウンタイムの分数 x 1 分当たりのコスト
ダウンタイムの全コストに関する理解
平均的な人はダウンタイム コストについて考える際は、おそらく収益の損失に焦点を当てています。あるいは、収益と従業員の生産性の組み合わせに焦点を当てます。しかし実際には、ダウンタイム コストはそれだけに留まりません。
独立データの保護およびセキュリティ調査会社である Ponemon によると、ダウンタイム コストで最も大きな割合を占める要素は、風評被害と顧客離れを含むカテゴリであるビジネスの中断です。収益の損失は、同社の調査では 2 位です。そしてインシデントに伴う 3 番目に大きい財務的損害は、エンド ユーザーの生産性です。
損失のもう 1 つの一般的なカテゴリは、インシデントの解決を任務とする IT チーム、インシデント管理に関与する隣接チーム (PR、ソーシャル メディア マネージャー、カスタマー サービス担当など)、停止の影響を受けた他の従業員に関する社内の生産性の損失です。
ソフトウェア プロバイダーの場合、SLA の財務上の罰則、政府の罰金 (規制要件違反の場合)、訴訟、和解は、非常に現実的な財務的損害です。そして物理的な製品を扱う企業にとっては、在庫の枯渇は重大なリスクです。
言うまでもなく、委託費用、機器の交換、従業員の定着の問題があります。結局のところインシデントはストレスを引き起こします。ストレスは労働者の不満につながって、その不満のある労働者は企業を去ります。専門家は、従業員を補充するコストは従業員の年収の 33% と推定しています。
ダウンタイム コストを最小限に抑える方法
上記のような数字により、あらゆる規模の企業とあらゆる業界の企業にとって、ダウンタイムを最小限に抑えることが優先されるべきであることが明らかになっています。それでは、ダウンタイムのリスクを軽減してコストを最小限に抑えるにはどうすればよいでしょうか? 5 つの確実な方法は次のとおりです。
詳細なディザスタ リカバリ計画の作成
ダウンタイムが発生した場合にどうするか? この質問に対する答えがまだわからない場合、一般的な答えは「実行すべきことを考え出すために貴重な時間を無駄にする」です。
インシデント対応計画が改善されるほど、チームがより迅速かつ効果的にインシデントを処理できるようになります。このため、新しいインシデント管理プログラムの最初のステップはプロセスと計画である必要があります。
頻繁に明確なコミュニケーションを行う
ダウンタイム コストの 35% もの割合を占めるビジネスの中断によって、インシデント発生中と発生後におけるインシデント コミュニケーションとカスタマー サービスの優先順位付けが、かつてないほど重要になっています。
単一障害点を排除する
既存のインフラストラクチャとプロセスから単一障害点を排除することは、ダウンタイムを短縮してコストを削減する最も迅速な方法の 1 つです。つまり、サーバー間の負荷分散、適切なバックアップ プラクティスの順守、ピア レビューや技術的なフェイルセーフのデプロイへの組み込みといったことを意味します。
防止の優先順位を付ける
100% 失敗しないインシデントの回避方法はありませんが、インシデントは最小限に抑えられます。
実際、ダウンタイムのコストの上昇は、致命的なインシデントが発生する前に、リーダーが古いシステムとセキュリティ機能の置き換えと課題の修正を優先する良い動機付けになります。
事後分析を省略しない
ダウンタイム (この複雑で技術的な世界ではいつかは発生します) が発生した場合、将来の停止を防ぐ最善の方法は、有効な事後分析プラクティスを実践することです。
インシデントの事後分析では、チームを集めてインシデントの詳細について話し合います。インシデントが発生した理由、その影響、インシデントを軽減して解決するためにどのようなアクションが実行されたか、そして何よりも、それが再発しないようにするために何をすべきかについて話し合います。
Atlassian では、事後分析では誰も責められません。問うのは責任ではなく、課題の根本原因です。また当社は、スマート ドキュメントも提唱しています。スマート ドキュメントは、事後分析で学んだことを整理して、修正するために集めた課題の再発防止に役立つ改善を提案するために設計されています。
Jira Service Management は、チームが迅速にインシデントに対処できるように構築されているため、ダウンタイムのコストを最小限に抑えることができます。
Statuspage でインシデント コミュニケーションを学ぶ
このチュートリアルでは、システム停止時にインシデント テンプレートを使用して効果的にコミュニケーションを取る方法について説明します。さまざまなサービス中断に適応可能です。
このチュートリアルを読むインシデントの事後分析プロセスの重要性
インシデント後レビューとも呼ばれるインシデントの事後分析レビューは、インシデント中に何が起こったかを調査して教訓を取り込むのに最適な方法です。
この記事を読む