IT日記

IT関連製品の使用感など

AWSの歴史的障害:インターネットの半分が停止した日、一体何が起きたのか?未来への備えを徹底解説


2025年10月20日、多くの人がおやつを食べて一服し、さあもうひと頑張りいきまひょかと仕事を再開し調子が出てきた午後4時前頃、デジタル世界の心臓部が一時的に停止しました。

Slackの通知は沈黙し、Zoom会議はつながらず、『Fortnite』の戦場は静まり返り、スマートホームデバイスはただの箱と化しました。

私も仕事で使ってた生成AIチャットが回答をよこさなくなり苛立っていましたが、しょっちゅう調子が悪くなるのでまたいつものぐずりかいなと思ってましたが、後からネットニュースを見て今回はぐずりじゃなかったんだと思いました(本当はいつものぐずりだったのかもしれませんが)。

原因は、現代のインターネットを支える巨人、Amazon Web Services(AWS)で発生した大規模障害です。

この障害は、単なる一企業の技術的な問題ではありませんでした。

私たちの生活やビジネスがいかにクラウドという目に見えないインフラに依存しているか、そしてその基盤がいかに脆いものであるかを、全世界に突きつけたのです。

本記事ではこの歴史的な障害の全貌を徹底的に掘り下げ、何が起きたのか、誰に影響があったのか、そして最も重要なこととして、私たち個人と企業が未来の「デジタル・アポカリプス」にどう備えるべきかを解説していきます。

第1章:白昼の悪夢:AWS大規模障害の全貌

障害の引き金は、日本時間の2025年10月20日午後4時前に引かれました。AWSの数あるリージョン(データセンター群)の中でも、最も古く、そして世界最大級のトラフィックを捌く「US-EAST-1」(バージニア北部)で、異常が検知されたのです。

すべての始まりは「DNS」の異常

AWSが後に公開した公式事後分析レポート(Post-Event Summary)によると、問題の核心はデータベースサービス「Amazon DynamoDB」におけるDNS解決の異常でした。 DNSとは、平たく言えば「インターネットのアドレス帳」のようなもので、私たちが使う「example.com」のようなドメイン名を、コンピュータが理解できるIPアドレスに変換する役割を担っています。

DynamoDBは、このDNSレコードを自動で管理・更新するシステムを持っていましたが、その自動化システム内に潜んでいた「潜在的な欠陥(latent defect)」が原因で、競合状態(複数の処理が同時に行われることで発生する不具合)が発生。 結果として、DynamoDBのアドレスを解決するためのDNSレコードが空になってしまい、自動修復も機能しないという最悪の事態に陥ったのです。

これにより、DynamoDBにアクセスしようとするあらゆるサービスが接続先を見失い、エラーを吐き出し始めました。まさに、巨大な図書館の索引がすべて白紙になってしまったような状態です。

悪夢の連鎖反応(カスケード障害)

このDynamoDBの障害は、ドミノの最初の1ピースに過ぎませんでした。US-EAST-1リージョンは多くのグローバルサービスのハブとして機能しているため、影響は瞬く間に他のコアサービスへと連鎖していきました。

  1. EC2の起動障害: DynamoDBが回復し始めた後、今度は仮想サーバーサービスである「Amazon EC2」のインスタンス起動を担う内部サブシステムが機能不全に陥りました。このサブシステムがDynamoDBに依存していたため、連鎖的に障害が発生したのです。 これにより、多くの企業が新しいサーバーを立ち上げることができなくなりました。

  2. Network Load Balancer (NLB) の機能不全: システムが回復に向かう過程で、さらなる二次障害が発生しました。トラフィックを分散する「Network Load Balancer (NLB)」のヘルスチェック機能に問題が生じ、LambdaやCloudWatchを含む多数のサービスで広範囲なネットワーク接続問題が引き起こされたのです。

この一連の連鎖反応により、障害は約15時間にもわたって続き、AWSのエンジニアが手動での介入を余儀なくされるなど、復旧作業は困難を極めました。

第2章:世界が沈黙した15時間:誰に、どのような影響があったのか?

この障害の影響は、文字通り全世界に及びました。Downdetectorには1,100万件以上の障害報告が寄せられ、少なくとも2,500社以上の企業が直接的な影響を受けたとされています。 その経済的損失は、控えめな試算でも数十億円、生産性の損失を含めると数千億ドルに達する可能性も指摘されています。

影響の一覧:主要機能と推定損失

カテゴリ 影響を受けた主要サービス・企業 機能への影響 推定される影響・損失
ビジネスツール Slack, Zoom, Microsoft 365, Asana, Canva メッセージ送受信不可、会議接続不能、ファイル共有・編集エラー リモートワークの停滞、生産性の著しい低下。Zoomだけでも1時間あたり約53万ドルの損失と試算。
オンラインゲーム Fortnite, Roblox, PlayStation Network, Nintendo Switch Online ログイン不可、マッチングサーバーへの接続エラー、ゲームプレイの中断 数百万人のプレイヤーが影響。Fortniteは1時間あたり約40万ドルの損失と試算。
Eコマース Amazon自社サイト, 各種ECサイト, 決済システム(Amazon Payなど) 商品ページの表示遅延、決済処理の失敗、購入不可 販売機会の損失は甚大。Amazon自社だけでも1時間あたり約7,200万ドルという驚異的な損失額が試算されている。
金融サービス Coinbase, Robinhood, 複数の大手銀行(英国など) アプリへのログイン不可、取引・送金エラー、口座情報へのアクセス不能 金融取引の停止、ユーザーの混乱。暗号資産取引所Coinbaseも大きな影響を受けた。
SNS・メディア Snapchat, Reddit, Flickr 投稿・閲覧の遅延、APIエラーによる機能停止 ユーザーコミュニケーションの断絶。Snapchatは1時間あたり約61万ドルの損失と試算。
スマートホーム Amazon Alexa, Ring, 各社IoTデバイス 音声アシスタントの無反応、スマートロックや照明の操作不能 物理的な生活空間への直接的な影響。スマートベッドが高温のままになったり、不快な角度で固定されたりする事例も報告された。

*推定される影響・損失については正確な公開データがないため、サービスの性質からその規模感を生成AIに予想してもらったデータのため参考値です。

個人ユーザーへの影響:当たり前が消えた日

多くの個人にとって、この日は「インターネットが壊れた日」として記憶されるでしょう。「Slackが落ちて仕事の報告ができない」「お昼にStarbucksで決済しようとしたらアプリが動かない」「夜にゲームをしようとしたらサーバーに繋がらない」といった声がSNSに溢れました。

特に深刻だったのは、スマートホームデバイスへの影響です。クラウドに依存する多くのデバイスは、インターネット接続がなければただの置物と化します。照明がつかない、エアコンの温度が変えられないといった不便さだけでなく、セキュリティカメラが機能しないといった安全上の問題も浮き彫りになりました。

企業への影響:売上と信頼のダブルパンチ

企業にとって、この障害は単なる「不便」では済みませんでした。ECサイトは1時間あたり数千万円から数十億円規模の売上機会を失い、SaaS企業は顧客からの信頼を揺るがす事態となりました。

ある調査によれば、IT障害による損失は、高インパクトなもので1時間あたり100万ドル(約1.5億円)に達する企業が2割も存在するといいます。 今回の障害は、多くの企業にとって事業継続計画(BCP)の見直しを迫る強烈な警鐘となったのです。

第3章:未来への処方箋:今後に備えてどう対処すべきか?

「クラウドは止まる」。この当たり前でありながら忘れがちな現実を、私たちは改めて認識する必要があります。では、次の大規模障害に備えて、私たちは何をすべきなのでしょうか。企業と個人、それぞれの視点から具体的な対策を掘り下げます。

【企業向け】脱・単一障害点!堅牢なシステムを構築する5つの戦略

もはや単一のクラウドプロバイダー、単一のリージョンに依存するシステム設計は許されません。「Design for Failure(障害を前提とした設計)」の考え方に基づき、多層的な防御策を講じる必要があります。

1. マルチAZ(アベイラビリティゾーン)構成の徹底

これは基本中の基本です。AWSの各リージョンは、物理的に独立した複数のデータセンター群である「アベイラビリティゾーン(AZ)」で構成されています。システムを複数のAZに分散させることで、1つのAZで電源障害や冷却システムの故障が起きても、他のAZでサービスを継続できます。 2019年の東京リージョンでの障害も単一AZでの問題であり、マルチAZ構成を取っていた多くのシステムは影響を免れました。

2. マルチリージョン戦略の採用

今回の障害のようにリージョン全体に影響が及ぶケースに備えるには、マルチリージョン構成が有効です。 例えば、メインのシステムを東京リージョンで稼働させつつ、バックアップや待機系を大阪リージョンや海外リージョンに配置します。これにより、関東地方で大規模な災害が発生しても、西日本や海外の拠点で事業を継続できます。

3. リアルタイム監視と自動フェイルオーバー

障害の発生を迅速に検知し、自動的に正常な環境へ切り替える仕組みが不可欠です。「Amazon CloudWatch」などの監視ツールでシステムの異常を常にチェックし、異常を検知したら「Amazon Route 53」のDNSフェイルオーバー機能などを使って、自動で待機系のリージョンにトラフィックを誘導する設定が推奨されます。

4. 定期的な障害発生試験(カオスエンジニアリング)

机上の空論で終わらせないために、意図的に障害を発生させる試験を実施することが重要です。 Netflixが開発した「Chaos Monkey」に代表されるようなカオスエンジニアリングの手法を取り入れ、本番環境でサーバーをランダムに停止させるなどして、システムが本当に障害に耐えられるか、復旧プロセスは正しく機能するかを定期的に検証します。

5. マルチクラウド冗長性の実現性(究極の選択肢)

そして、究極のリスク分散戦略が「マルチクラウド」です。AWSに加えて、Microsoft AzureやGoogle Cloud Platform (GCP) など、複数のクラウドプロバイダーを併用するアプローチです。

マルチクラウドと聞くと、ある機能はAWSを使って、別の機能はAzureを使って、と利用用途に合わせて使い分ける意味での使われ方が一般的だと思いますが、一つの機能の障害対策としてのマルチクラウドもあるのかな、と生成AIに調べてもらったのですが、課題はあるものの一応アリみたいです。

実現性の探求:アクティブ-アクティブ vs アクティブ-パッシブ

マルチクラウドで冗長性を確保するには、主に2つのモデルがあります。

  • アクティブ-パッシブ (Active-Passive): 一方をメイン(アクティブ)、もう一方を待機系(パッシブ)として運用するモデルです。平常時はAWSのみでサービスを提供し、障害発生時に手動または自動でGCPなどに切り替えます。比較的シンプルでコストも抑えやすいですが、切り替えに時間がかかる可能性があります。
  • アクティブ-アクティブ (Active-Active): AWSとGCPの両方で常にシステムを稼働させ、ロードバランサーでトラフィックを両方に分散させるモデルです。 一方で障害が発生してもサービスは停止せず、シームレスに継続できますが、システムの設計・運用が非常に複雑になり、コストも高騰します。

マルチクラウドの課題:

マルチクラウドは銀の弾丸ではありません。以下の大きな課題が伴います。

  • 複雑性の増大: 各クラウドの仕様や管理ツールが異なるため、運用管理が非常に複雑になります。
  • コスト管理の難化: 複数の料金体系を管理する必要があり、全体のコスト把握が困難になります。特にクラウド間のデータ転送料金が高額になる可能性があります。
  • データ同期の問題: 複数のクラウド間で常にデータの整合性を保つのは技術的に難易度が高い課題です。
  • 専門知識の必要性: 複数のクラウドプラットフォームに精通した高度なスキルを持つエンジニアが必要になります。

RancherやRed Hat OpenShift、GKE EnterpriseといったマルチクラウドKubernetes管理ツールは、この複雑性を緩和するのに役立ちます。 しかし、それでもなお、マルチクラウドは相応の覚悟と投資が必要な上級者向けの戦略と言えるでしょう。

【個人向け】デジタルライフを守るための4つの自己防衛策

大規模障害が発生した際、個人にできることは限られていると思うかもしれません。しかし、事前の準備で影響を最小限に抑えることは可能です。

1. 重要データの「3-2-1ルール」バックアップ

仕事のファイル、家族の写真など、失いたくない重要なデータは「3-2-1ルール」に従ってバックアップしましょう。これは、「3つのコピーを作成し、2つの異なる媒体に保存し、そのうち1つはオフサイト(自宅やオフィス以外の場所)に保管する」というルールです。

  • 実践例:
    1. オリジナルデータ: PCのハードディスク
    2. ローカルバックアップ: 自宅の外付けHDD
    3. オフサイトバックアップ: クラウドストレージ

    さらにリスクを分散するなら、オフサイトバックアップを複数のクラウドサービスに分散させる「クラウド to クラウドバックアップ」も有効です。IDriveやpCloud、Backblazeといったサービスは、Google DriveやMicrosoft OneDrive上のデータを自動でバックアップする機能を提供しています。

2. スマートホームの「オフライン化」を検討する

スマートホームの利便性を享受しつつ、障害への耐性も高めるには、「ローカルコントロール(オフライン制御)」が鍵となります。

  • Home Assistantの導入: Raspberry Piなどにオープンソースの「Home Assistant」を導入すれば、インターネット接続がなくても自宅のローカルネットワーク内でデバイスを制御できる、オフラインファーストなスマートホームを構築できます。
  • オフライン対応デバイスの選択: ZigbeeやZ-Waveといった通信規格を採用したデバイスは、クラウドを介さずにハブと直接通信するため、インターネット障害の影響を受けません。

3. 重要なサービスは代替手段を確保しておく

仕事で使うコミュニケーションツールや、生活に必須のサービスは、万が一の際の代替手段を考えておきましょう。例えば、メインのチャットツールが停止した場合に備えて、別のツールの連絡先も交換しておく、などです。

4. 障害情報のキャッチアップ方法を知る

「サービスがおかしいな?」と感じたら、やみくもに再起動を繰り返す前に、公式情報を確認する癖をつけましょう。

  • AWS Service Health Dashboard: AWS自体の障害情報を確認できます。
  • 各サービスの公式ステータスページやX (旧Twitter) アカウント: 利用しているサービス(SlackやZoomなど)が発信する情報を確認します。
  • Downdetector: ユーザーからの報告を基に障害状況を可視化しているサイトも参考になります。

まとめ:クラウドとの新たな付き合い方へ

2025年10月20日のAWS大規模障害は、私たちのデジタル社会が巨大なクラウドという単一障害点(SPOF)の上に成り立っているという現実を、痛みを伴って教えました。

企業は「クラウドは止まらない」という幻想を捨て、障害を前提としたマルチAZ、マルチリージョン、そして場合によってはマルチクラウドといった、より堅牢で回復力のあるアーキテクチャへの投資を加速させる必要があります。

私たち個人もまた、クラウドの利便性を享受するだけでなく、そのリスクを理解し、重要なデータを守り、オフラインでも生活が維持できるような自己防衛策を講じることが求められています。

この障害は終わりではなく、始まりです。これを教訓とし、より賢く、より強くクラウドと付き合っていくこと。それが、次の「インターネットが止まる日」を乗り越えるための、唯一の道筋となるでしょう。(と締めつつ、とりあえずはAmazonさんの再発防止策に期待)