応用科学
カスケード障害
カスケード障害は、相互接続された部品のシステム内のプロセスであり、1つまたは少数の部品の故障が他の部品の故障などを引き起こす可能性があります。このような障害は、送電、コンピューターネットワーキング、金融、輸送システム、生物、人体、生態系など、多くのタイプのシステムで発生する可能性があります。
システムの一部に障害が発生すると、カスケード障害が発生する場合があります。これが発生すると、他の部品が故障したコンポーネントを補う必要があります。これにより、これらのノードが過負荷になり、同様に障害が発生し、追加のノードに次々に障害が発生するように促します。
送電中
カスケード障害は、要素の1つが(完全または部分的に)障害を起こし、負荷をシステム内の近くの要素にシフトする場合の電力グリッドで一般的です。これらの近くの要素は容量を超えてプッシュされるため、過負荷になり、他の要素に負荷がシフトします。カスケード故障は高電圧システムで見られる一般的な影響であり、完全負荷またはわずかに過負荷のシステムで単一障害点(SPF)が発生すると、システムのすべてのノードで突然のスパイクが発生します。このサージ電流により、すでに過負荷になっているノードが故障し、より多くの過負荷が発生し、システム全体が非常に短時間で停止する可能性があります。
この障害プロセスは、池のさざ波のようにシステムの要素をカスケードし、システム内の実質的にすべての要素が危険にさらされるか、システムが負荷のソースから機能的に切断されるまで続きます。たとえば、特定の条件下では、1つの変圧器が故障すると、大きな送電網が崩壊する可能性があります。
システムの動作をリアルタイムで監視し、部品を慎重に切断することで、カスケードを停止できます。別の一般的な手法は、考えられる障害のコンピューターシミュレーションによってシステムの安全マージンを計算し、計算されたシナリオのどれもがカスケード障害を引き起こさないと予測される安全な動作レベルを確立し、最も可能性の高いネットワークの部分を識別することです連鎖的な障害を引き起こします。
配電網の障害を防ぐことに関する主な問題の1つは、制御信号の速度が伝搬電力の過負荷の速度よりも速くないことです。つまり、制御信号と電力の両方が同じ速度で移動するため、事前に警告を送信して要素を分離することにより、停止を分離できます。
送電網の故障が相関しているかどうかの問題は、大慶李らとポールDHハインズらによって研究されています。
例
カスケード障害により、次の停電が発生しました。
- 1965年の北東アメリカの停電
- 1999年のブラジル南部の停電
- 2003年の北東アメリカの停電
- 2003年のイタリアでの停電
- 2003年のロンドンでの停電
- 2006年の欧州停電
- 2012年のインド北部での停電
- 2016年の南オーストラリアの停電
- 2019年の南アメリカ南東部の停電
コンピュータネットワークで
カスケード障害は、ハードウェアまたはソフトウェアの障害または切断によってネットワークトラフィックが大幅に損なわれたり、ネットワークの大部分との間で停止したりするコンピューターネットワーク(インターネットなど)でも発生する可能性があります。このコンテキストでは、カスケード障害はカスケード障害という用語で知られています。カスケード障害は、人とシステムの大規模なグループに影響を与える可能性があります。
カスケード障害の原因は通常、単一の重要なルーターまたはノードの過負荷であり、これによりノードが短時間でもダウンします。また、メンテナンスまたはアップグレードのためにノードを停止することによっても発生します。いずれの場合も、トラフィックは別の(代替)パスにルーティングされるか、別のパスを経由します。その結果、この代替パスは過負荷になり、ダウンするなどの原因になります。また、通常の操作をノードに依存するシステムにも影響します。
症状
カスケード障害の症状には、単一のシステムだけでなく、ネットワークまたはインターネットのセクション全体に対するパケット損失と高いネットワーク遅延が含まれます。高い遅延とパケット損失は、輻輳崩壊により動作に失敗したノードによって引き起こされます。これにより、ノードはネットワーク内に存在し続けますが、多くのまたは有用な通信は行われません。その結果、実際に通信を提供しなくても、ルートは依然として有効と見なすことができます。
カスケード障害のために十分なルートがダウンした場合、ネットワークまたはインターネットの完全なセクションが到達不能になる可能性があります。これは望ましくありませんが、これにより接続がタイムアウトし、他のノードが切断されたセクションへの接続の試行をあきらめ、関連するノードの負荷を軽減するため、この障害からの回復を高速化できます。
カスケード障害中によく発生するのは、 歩行障害です。セクションが停止し、次のセクションが失敗し、その後最初のセクションが回復します。このリップルは、安定性が回復する前に、同じセクションまたは接続ノードを複数回通過する可能性があります。
歴史
カスケード障害は、トラフィックの大幅な増加とシステムとネットワーク間の高い相互接続性を備えた比較的最近の開発です。この用語は、1990年代後半にオランダのIT専門家によってこの文脈で初めて適用され、この種の大規模な障害の比較的一般的な用語になりました。
例
通常、ネットワーク障害は、単一のネットワークノードに障害が発生したときに開始されます。最初に、通常ノードを通過するトラフィックは停止します。システムとユーザーは、ホストに到達できないというエラーを受け取ります。通常、ISPの冗長システムは非常に迅速に応答し、異なるバックボーンを通る別のパスを選択します。この代替ルートを通るルーティングパスはより長く、ホップ数が多くなり、その後突然提供されるトラフィック量を通常処理しないシステムをより多く通過します。
これにより、代替ルートに沿った1つ以上のシステムがダウンし、独自の同様の問題が発生する可能性があります。
また、この場合、関連システムが影響を受けます。例として、DNS解決が失敗し、通常システムが相互接続される原因となるものは、ダウンした実際のシステムに直接関係しない接続を切断する可能性があります。これにより、一見無関係なノードに問題が発生し、別のカスケード障害が発生する可能性があります。
2012年12月、GMailサービスの部分的な損失(40%)が18分間にわたって世界中で発生しました。このサービスの損失は、障害のあるロジックを含む負荷分散ソフトウェアの定期的な更新が原因で発生しました。この場合、エラーは、より適切なsomeではなく不適切なallを使用するロジックが原因で発生しました。カスケードエラーは、一度にすべてのノードを部分的に更新するのではなく、ネットワーク内の単一のノードを完全に更新することで修正されました。
カスケード構造破壊
個別の構造コンポーネントを持つ特定の耐荷重構造は、「ジッパー効果」の影響を受ける可能性があります。この場合、単一の構造部材の破損により、隣接する部材の荷重が増加します。ハイアットリージェンシーウォークウェイ崩壊の場合、吊り下げられたウォークウェイ(建設中のエラーによりすでに過大な応力がかかっていた)は、1本の垂直サスペンションロッドが破損し、隣接するロッドがジッパーのように連続して破損した場合に破損しました。このような破損が発生する可能性のあるブリッジは、フラクチャクリティカルと呼ばれ、単一の部品の破損によって多数のブリッジの崩壊が引き起こされています。適切に設計された構造は、この種の機械的なカスケード障害を防ぐために、適切な安全率および/または代替負荷経路を使用します。
他の例
生物学
生化学的カスケードは生物学に存在し、そこでは小さな反応がシステム全体に影響を及ぼします。負の例の1つは虚血カスケードで、小さな虚血攻撃により毒素が放出され、初期の損傷よりもはるかに多くの細胞が殺され、より多くの毒素が放出されます。現在の研究では、脳卒中患者のこのカスケードをブロックして損傷を最小限に抑える方法を見つけることです。
絶滅の研究では、ある種の絶滅が他の多くの絶滅を引き起こすことがあります。そのような種は、キーストーン種として知られています。
エレクトロニクス
別の例としては、Cockcroft-Waltonジェネレーターがあります。これは、1つのダイオードが故障すると、すべてのダイオードが数秒で故障するカスケード故障も発生する可能性があります。
科学実験におけるこの効果のさらに別の例は、スーパーカミオカンデ実験で使用された数千個の壊れやすいガラス光電子増倍管の2001年の爆縮であり、単一の検出器の故障による衝撃波が爆縮の引き金となったように見える連鎖反応における他の検出器。
ファイナンス
金融では、金融機関の連鎖的な失敗のリスクはシステミックリスクと呼ばれます。ある金融機関の失敗により、他の金融機関(その取引先)が失敗し、システム全体に連鎖します。システミックリスクをもたらすと考えられる機関は、脅威をもたらすと思われる理由に応じて、「失敗するには大きすぎる」(TBTF)または「失敗するには相互に接続しすぎる」(TICTF)のいずれかと見なされます。
ただし、システミックリスクは個々の機関それ自体によるものではなく、相互接続によるものであることに注意してください。
2010年のフラッシュクラッシュに代表されるように、株式市場では、関連する(ただし明確な)種類の金融の連鎖的な失敗が発生します。
相互依存のカスケード障害
給水、輸送、燃料、発電所などの多様なインフラストラクチャは互いに結合され、機能するために互いに依存しています。図1を参照してください。この結合により、相互依存ネットワークは、ランダムな障害、特に標的攻撃、 1つのネットワーク内のごく一部のノードで障害が発生すると、相互に依存する複数のネットワークで繰り返し発生する障害のカスケードをトリガーできます。電気的停電は、相互依存するネットワーク間のカスケード障害から生じることが多く、この問題は、近年発生したいくつかの大規模な停電によって劇的に実証されています。ブラックアウトは、ネットワーク間の依存関係が果たす重要な役割の魅力的なデモンストレーションです。たとえば、2003年9月28日のイタリアでの停電により、鉄道ネットワーク、ヘルスケアシステム、および金融サービスが広範囲にわたって失敗し、さらに通信ネットワークに深刻な影響を与えました。通信システムの部分的な障害により、電力グリッド管理システムがさらに損なわれ、電力グリッドに正のフィードバックが生じました。この例では、相互依存関係が相互作用するネットワークシステムの損傷を大幅に拡大する方法を強調しています。パーコレーション理論に基づいて結合されたネットワーク間のカスケード障害を研究するためのフレームワークが最近開発されました。カスケード障害は、ネットワークの故障が連続している単一ネットワークのパーコレーションと比較して、突然の崩壊につながります。空間的に埋め込まれたシステムは、極端な脆弱性につながることが示されています。カスケード障害の動的プロセスについては、参照を参照してください。カスケード障害を回避するために障害を修復するためのモデルは、ディムロ他によって開発されました。
さらに、そのようなシステムが宇宙に埋め込まれた場合、局所的な攻撃や障害に対して非常に脆弱であることが示されました。重大な損傷半径を超えると、障害がシステム全体に広がる可能性があります。
過負荷カスケード障害のモデル
過負荷伝播によるカスケード障害のモデルは、Motter–Laiモデルです。このような失敗の時空間伝播は、Jichang Zhaoらによって研究されました。