4月のサービス停止に関する事後レビューの進捗(2022年8月)

事後レビュー公開後のアトラシアンの取り組みとその進捗について

本ブログは、こちらに掲載されている英文ブログの翻訳です。万が一内容に相違がある場合は、原文が優先されます。

取り組みの概要

2022年4月に発生したサービス停止について、アトラシアンではインシデント事後レビュー(以下、PIR)を公開し、この中で発生事象と復旧のために当社が行った対応、そして、インシデントの発生を今後防止するための取り組みについてまとめました。

また、直ちに取り組む領域として、以下の4つを挙げました:

  1. すべてのシステムにおいて共通して「論理削除」を確立
    概して、今回のような種類の削除は、エラーを避けるために禁止するか、複数の層で保護することが必要とされ、これには段階的なロールアウトや「論理削除」のテスト済みロールバック計画などが含まれます。論理削除のプロセスを経ていないお客様のデータおよびメタデータの削除をグローバルで防止します。

  2. ディザスタリカバリ(DR)プログラムを加速し、より多くのお客様を対象とした複数サイト・複数製品の削除イベントの復元を自動化
    自動化や今回のインシデントからの教訓を元に、DRプログラムへの取り組みを前倒しして、当社のポリシーで定義しているこの規模のインシデントに対する目標復旧時間(RTO)の達成を目指します。大規模なサイトにおいて、すべての製品の復元を含むDRの訓練を定期的に実施します。

  3. 大規模なインシデントのための管理プロセスの見直し
    大規模なインシデントの標準業務手順を改善し、今回の規模を想定したシミュレーションを実践します。多くのチームが並行して対応できるよう、トレーニングとツールを改めます。

  4. 大規模なインシデントのためのコミュニケーション プレイブックの作成
    複数のチャンネルを通じて、インシデントを早期に認識し、インシデントに関する広報を数時間以内に公開します。また、影響を受けたお客様に速やかに連絡するために、主要連絡先のバックアップとサポート ツールを改善し、有効なURLまたはAtlassian IDをお持ちでないお客様が、当社の技術サポート チームに直接連絡できるようにします。

PIRの公開以降、アトラシアンでは継続して学びを広げており、上記4つの領域すべてにおいて進展がありました。

これまでの進捗

1. すべてのシステムにおいて共通して「論理削除」を確立

削除作業における内部統制とセーフガードの強化

エンジニアリングチームは、当社のシステムで行われる主要な削除作業を徹底的に検証し、サイトや製品の遅延削除と論理削除を設計しました。これらの実装はすでに開始しており、今後も引き続き、内部のセーフガードの強化を図ってまいります。

また、これらの削除作業を行えるサービスの数を減らしました。現在では、カスタマーサポートのシステムなど、業務上削除が必要となるシステムのみで削除が許可されています。

2. ディザスタリカバリ(DR)プログラムを加速し、より多くのお客様を対象とした複数サイト・複数製品の削除イベントの復元を自動化

ディザスタリカバリ(DR)の目標を改善し、四半期ごとに模擬訓練を計画

当社のポリシーで定義している、復旧ポイント目標(RPO)および復旧時間目標(RTO)の基準を継続的に達成するために、より多くのお客様を対象にした複数製品・複数サイトの復旧を実現するための取り組みを加速させました。また、大規模な災害復旧(DR)の訓練をより頻繁に実施することを約束しています(訓練は本番環境にあるお客様のサイトには影響しません)。

サイト削除のDRの初回訓練は、2022年の最終四半期に予定されています。この訓練は四半期ごとに実施され、回を重ねるにつれ規模を拡大する予定です。初回の訓練では、4月に発生したインシデントの規模に匹敵する、複数サイトおよび複数製品の削除イベントをシミュレートする予定です。DR訓練を実施することで、復旧計画を最適化し、RPOとRTOがそれぞれの目標を常に達成できるようにします。

DRの基準を再定義して向上させながら、一貫性があり、繰り返しが可能で、拡張性のある一連の復旧プロセスとツールを確立することを目指しています。

3. 大規模なインシデントのための管理プロセスの見直し

大規模インシデントの管理プロセスを改善

4月のPIRでは、大規模インシデント管理プロセスの概要(下図)について解説し、その運用やエスカレーションの体制、およびツールについて確認しました。

図: 大規模インシデント管理プロセスの概要

この数ヶ月の間に、Slack、Opsgenie、Confluenceのドキュメントなど、インシデント管理に使用している社内ツールを強化し、複雑性の高いイベントに対応するためのエスカレーションシステムの連携を改善しました。

現在は、危機管理フレームワークとインシデント管理プロセスの要素を組み合わせ、大規模なインシデント管理のためのプレイブックを策定しています。

体制の見直しにより特定された、高・中優先度の課題に対応

インシデント管理のエスカレーション体制を分析した結果、対応が必要なポイントがいくつか見つかり、優先度を分けて取り組んでいます。優先度の高いものはすべて(100%)、優先度が中程度のものは85%完了し、残りの15%は今後数ヶ月以内に対応される予定です。

4. 大規模なインシデントのためのコミュニケーション プレイブックの作成

主要なお客様の連絡先を社内にバックアップ

4月のインシデント発生時、サイトと併せてお客様の連絡先も削除されたため、対象のお客様にタイムリーに連絡をすることができませんでした。この問題に対処するため、復旧プロセスを導入し、一時的なデータ損失やデータ削除が発生した際、主要なお客様にご連絡できるようにしました。これにより、グローバルなシステムを横断した迅速な対応力が強化され、同じミスの再発を防げます。

今後は引き続き、サポートツールやインシデント コミュニケーション プレイブックの見直しをさらに進めるとともに、エスカレーション管理を24時間365日に拡大し、コミュニケーションプロセスの改善を図る予定です。

今後の予定

まず何よりも、皆様の信頼とご協力に感謝申し上げます。アトラシアンは、当社のコアバリューとお客様へのコミットメントの継続的な証として、引き続き、改善の取り組みについて定期的にお知らせいたします。