ベロシティの高いチームのためのインシデント管理
信頼性と可用性:違いを理解する
現代の顧客は、企業が常時稼働のサービスを提供することを以前にも増して期待しています。しかし、最もリソースが豊富な企業であっても、障害や停止が発生する可能性はあります。そこで、信頼性と可用性という 2 つの異なる指標が、成功の測定と改善に役立ちます。
信頼性、つまりシステム即応性は、定義されたパフォーマンス標準に照らして、特定の間隔でパフォーマンスを測定します。可用性、つまりシステム機能は、操作性のパーセンテージを測定します。これらは共に、ビジネス システムの健全性に関するインサイトを提供し、向上できる領域を特定するのに役立ちます。
このガイドでは、サービスの信頼性と可用性、インシデント管理指標がそれらの測定にどのように役立つか、およびこれらの主要な指標を改善する方法について説明します。
システムの信頼性とは
信頼性とは、システムまたはコンポーネントが、指定された期間にわたって故障することなく、意図した機能を一貫して実行する確率です。チームは、システムのパフォーマンスについて情報に基づいた意思決定を行い、顧客満足度を高めるために、信頼性を測定および確保する方法を理解する必要があります。
たとえば、給与システムは毎月設定された期間内に直接預金を確実に処理する必要があり、コールド ストレージ システムは停電を検出し、バックアップ発電機に確実に切り替える必要があります。障害が発生すると重大な経済的影響につながる可能性があるため、業界を問わず、自動化プロセスの信頼性を維持し、インシデント管理 KPI を通じてパフォーマンスを追跡することが重要です。
信頼性の定義
信頼性とは、システムまたはコンポーネントが、指定された期間、指定された条件下で故障することなく意図した機能を実行する確率です。障害や故障が発生しても、システムまたはコンポーネントが機能とパフォーマンスを維持する能力を測定します。
信頼性は、システム全体のパフォーマンス、安全性、費用対効果に直接影響するため、システムの設計と保守にとって重要です。高い信頼性は、システムまたはコンポーネントが正しく一貫して動作することを意味します。これは、顧客の信頼と運用効率を維持するために不可欠です。
信頼性に関する故障率の測定と計算方法
信頼性は、次のような標準的なインシデント管理指標で測定できます。
- 平均故障間隔: 平均故障間隔 (MTBF) は、合計稼働時間を故障数で割って計算します。この指標は、障害間の平均時間を把握するために重要です。
-
故障率: 故障数をサービスの合計稼働時間で割って計算します。MIL-HNDBK-217 のようなハンドブックは、故障率が一定であることを前提としているため、不正確になる可能性があり、特にコンポーネントが古くなるにつれて、コンポーネントの信頼性について誤解を招く予測につながる可能性があります。
サービス レベル アグリーメントや顧客がシステムに期待することなど、その他の要素を考慮することも重要です。信頼性の基準は、システムに障害が発生した場合にどのようなリスクがあるかによって異なります。たとえば、障害が発生すると税務担当者のグループが午後を休むことになるのでしょうか? それとも、何千人もの旅客が旅先で立ち往生することになるのでしょうか?
信頼性の計算
信頼性の計算では、数学的モデルと統計的手法を使用して、システムまたはコンポーネントの信頼性を推定します。通常、故障率、平均故障間隔 (MTBF)、およびその他の信頼性指標を使用して、システムまたはコンポーネントの故障確率を決定します。
これらの指標を分析することで、企業は潜在的な弱点や改善すべき分野を特定できます。信頼性の計算は、フォールト ツリー分析、信頼性ブロック図、マルコフ モデリングなどのさまざまな方法を使用して実施できます。これらの手法は、複雑なシステムの信頼性を視覚化して定量化するのに役立ち、意思決定者は設計、保守、リソースの割り当てについて情報に基づいた選択ができるようになります。
平均故障時間 (MTTF) と平均故障間隔 (MTBF)
平均故障時間 (MTTF) はシステムまたはコンポーネントが故障するまでの平均時間で、平均故障間隔 (MTBF) は故障間の平均時間です。通常、MTTF は修復不可能なシステムに使用され、MTBF は修復可能なシステムに使用されます。どちらの指標も、システムやコンポーネントの故障の頻度と可能性についての洞察を提供するため、信頼性の計算には重要です。
これらの指標を把握することで、企業は保守の必要性をより適切に予測し、交換の計画を立て、システム全体の信頼性を向上させることができます。MTTF と MTBF の計算では、障害イベントに関するデータを収集し、統計的手法を使用して平均故障時間と故障間隔をそれぞれ計算します。
信頼性を向上させる方法
サービスの信頼性を向上させるためには、次のようなステップを実行できます。
- 定期的な保守スケジュールを作成して、システムを最新の状態に保ちます。
- システムを冗長化して、コンポーネントに障害が発生したときにプロセスが停止するのを防ぎます。
- アップグレードやシステム変更を行う際には、品質管理とテストを行って、本番環境に入る前に問題を修正します。
- システムの信頼性とパフォーマンスを把握するには、大規模な包括的なデータ収集および分析方法を利用します。
インシデント通知を改善して、対応と復旧の時間を短縮します。
可用性とは
可用性とは、システムまたはコンポーネントが稼働していて、その機能を実行できる時間、つまり稼働時間の割合です。
たとえば、大手オンライン小売業者は、顧客の需要を満たすために年中無休でサイトの可用性を維持しなければなりません。そうしないと、競合他社に市場シェアを奪われる恐れがあります。可用性では、ユーザーのインターネット速度やトラフィックのピーク時間など、さまざまな条件が考慮されます。
可用性の定義
可用性とは、システムまたはコンポーネントが特定の時点で動作し、利用できる確率です。これは、システムまたはコンポーネントが必要なときに意図した機能を実行する能力の尺度です。
可用性は多くの場合、可用性 = (MTBF / (MTBF + MTTR)) という式で計算されます。ここで、MTTR は平均解決時間です。この式は、システムがどのくらいの頻度で稼働し、使用できる状態になると予想されるかを明確に示します。高可用性は、オンライン サービスや重要なインフラストラクチャなど、継続的な運用を必要とするシステムにとって非常に重要です。MTBF と MTTR に焦点を当てることで、企業はシステムの可用性を向上させ、ユーザーの期待に応えることができます。
可用性を測定する方法
可用性の測定は、単一のパーセント指標です。合計経過時間からダウンタイムの合計を引き、合計経過時間で割ったものです。
可用性パーセンテージ =(合計経過時間 – ダウンタイム)/合計経過時間
たとえば、オンライン小売サイトがトラフィックの過負荷により 1 日 3 時間ダウンした場合、可用性スコアは 87.5% です。国際的な大手小売業者の場合、この基準はほぼ 99.5% なので、このオンライン小売業者には大きな改善の余地があります。
Jira Service Management などの ITSM ソフトウェアは、インシデントを追跡し、可用性を測定するためのデータを収集するのに役立ちます。
可用性を向上させる方法
可用性を向上させる方法はいくつかあります。
- プロアクティブな標準保守スケジュールを実施して、高可用性を確保します。
- フェイルオーバーの仕組みを利用してシステムの冗長性を追加します。
-
インシデント管理の一環として迅速な修理プロセスを作成します。
特に、プロアクティブな保守は、企業の可用性とサービス信頼性を高めるのに役立ちます。RAM(信頼性、可用性、保守性)を調査することで、保守の取り組みをどこに集中すべきかについての重要なインサイトが得られます。
信頼性と可用性
信頼性と可用性はしばしば混同されることがあります。しかし、これらは違うものであるだけでなく、常に連携するとは限りません。
それらの測定基準でさえ、システムとその機能によって異なる場合があります。ビジネス・システムを正確に把握するには、信頼性と可用性の指標を別々に分析する必要があります。
- 信頼性は、システムが特定の決まった時間に正しい出力を提供したかどうかを測定します。たとえば、給与を適切な日に正しい口座に送金するなどです。
- 可用性は、システムの稼働時間を測定します。たとえば、未熟児に必要な保育期間中、中断なく酸素モニタリングを提供するなどです。
Jira Service Management には、データを収集し、インシデント通知を強化し、顧客サービス全体を向上させる自動化テンプレートが含まれています。
違い
信頼性指標と可用性指標、およびその違いは、これらの指標を使用してどのようにパフォーマンスを向上させるかを検討すると明らかになります。信頼性はシステム障害とダウンタイムを最小限に抑えることを目的とし、可用性は稼働時間を最大化することを目的としています。
たとえば、食料品店のセルフレジ・システムのサービスの信頼性を測定するには、顧客が取引を完了するために店員のサポートを必要とする頻度を分析します。可用性を測定するには、顧客がセルフレジの使用を試みているかどうかを確認します。
類似点
信頼性と可用性は互いに補完し合います。激しい競争にさらされている企業は、最良の結果を得るために両方の指標の改善に努めています。たとえば、可用性は高いが信頼性の問題が頻繁に発生するシステムは、障害をどれだけ迅速に解決しても、顧客のニーズに応える可能性は低いものです。
両方の分野を改善するには、多くの場合、定期的な保守、冗長性の追加、緊急時対応計画、テストなど、類似のアプローチが必要です。
信頼性と可用性に影響を及ぼす要因
システムの信頼性と可用性に影響を及ぼす要因は、いくつかあります。
- 環境: たとえば、悪天候にさらされる圧力計などの IoT コンポーネントや、特定の日に小売サイトのトラフィックが多いなどの周期的なユーザー パターンなどです。平均と標準偏差はさまざまなパラメーターに適用され、故障の確率を評価し、安全率の方法論を強化します。
- コンポーネントの品質: たとえば、サードパーティの統合やハードウェアなどです。構造解析における計算結果のばらつきと失敗確率を理解する上での標準偏差の重要性は、いくら強調してもしすぎることはありません。
運用:たとえば、検査や保守の頻度や最新型ソフトウェアへの投資などです。
サービス全体の信頼性と可用性を向上させるには、環境しきい値を標準化して冗長性を追加したり、コンポーネント品質に ISO コンプライアンスを要求したり、システムのあらゆる側面を検査、テスト、保守する手順を実装したりすることができます。
Jira Service Management で信頼性と可用性のバランスをとる
特に常時稼働の世界では、適切なツールとアプローチがあれば、システムの信頼性と可用性のバランスを取ることができます。Jira Service Management を使用すれば、サービスを迅速に復元できます。
Jira と Jira Service Management は、顧客が問題を報告できるようにし、サービス チームがアラートを一元化して迅速な分類と優先順位付けを行えるようにします。ルールとコミュニケーション チャンネルにより、誰も重大な課題を見逃しません。
信頼性と可用性:よくある質問
信頼性と可用性の例を挙げてください。
無人自動車のような新しいテクノロジーについて考えてみましょう。1 回でも故障すると死傷につながる可能性があるため、サービス信頼性基準はほぼ 100% です。
一方、無人自動車の可用性はユーザー エクスペリエンスに影響します。可用性、つまり稼働時間が長いほど、エクスペリエンスは良くなります。可用性が低いと、市場シェアを失う可能性がありますが、死傷につながる可能性は低いです。
信頼性と可用性が重要な理由
信頼性と可用性はどちらも顧客満足度に影響するため、企業の収益に影響します。さらに、システムが利用できない、または信頼できないと、収益の損失、損傷、計画外の保守、生産性の低下などのコストが企業に発生します。
サービスの信頼性と可用性の向上に集中的に取り組むことで、競争上の優位性の拡大、市場シェアの拡大、収益の増加、保守コストの予算計画の改善につながります。
信頼性と可用性のトレードオフ
企業は、可用性と信頼性のどちらかを優先しなければならないことがあります。スケジュールが短い場合や投資資金が限られている場合は、実際のトレードオフが必要になるかもしれません。
自動運転車の場合、企業はたとえ可用性を犠牲にしても、信頼性の向上により多くの時間と労力を費やす可能性が高いでしょう。しかし、オンライン小売など、それほどクリティカルではない状況では、「常時営業」していることが、e コマースや実店舗の競合他社との重要な差別化要因の 1 つであるため、可用性の向上に焦点を当てる可能性があります。
信頼性の計算がシステム設計にとって重要な理由
信頼性の計算は、システムの設計と保守にとって重要です。信頼性、可用性、故障率の概念を理解することで、意思決定者はシステム設計、保守、修理について情報に基づいた意思決定を行うことができます。
信頼性の計算は、ダウンタイムを最小限に抑え、保守コストを削減し、システム全体のパフォーマンスを向上させるのに役立ちます。強固な信頼性と可用性の戦略を実施することで、企業は業務効率を高め、顧客満足度を維持し、業界での競争力を高めることができます。
重要な点の再確認
- 信頼性とは、システムまたはコンポーネントが、指定された期間、指定された条件下で故障することなく意図した機能を実行する確率です。
- 信頼性の計算では、数学的モデルと統計的手法を使用して、システムまたはコンポーネントの信頼性を推定します。
- 平均故障時間 (MTTF) と平均故障間隔 (MTBF) は、信頼性の計算にとって重要な指標です。
- 可用性とは、システムまたはコンポーネントが特定の時点で動作し、利用できる確率です。
信頼性の計算は、ダウンタイムを最小限に抑え、保守コストを削減し、システム全体のパフォーマンスを向上させるのに役立ちます。
これらの重要な側面に焦点を当てることで、企業はシステムの信頼性と可用性を確保し、顧客と運用の要求を満たすことができるようになります。
Statuspage でインシデント コミュニケーションを学ぶ
このチュートリアルでは、システム停止時にインシデント テンプレートを使用して効果的にコミュニケーションを取る方法について説明します。さまざまなサービス中断に適応可能です。
このチュートリアルを読むインシデントの事後分析プロセスの重要性
インシデント後レビューとも呼ばれるインシデントの事後分析レビューは、インシデント中に何が起こったかを調査して教訓を取り込むのに最適な方法です。
この記事を読む