ここ数週間、組織は、世界で最も信頼されているクラウドプラットフォームであっても障害が発生する可能性があるということを改めて思い知らされました。そうした瞬間において、セキュリティプロバイダーの真価が問われるのは、平常時のパフォーマンスではなく、予期せぬ事態が発生したときにどのように顧客を保護し続けるかという点です。
完璧なシステムは存在しません。私たちは一部のお客様が遅延を経験されたことを認識しており、その影響を非常に重く受け止めています。真の強さの尺度は、どのように備え、対応し、回復するかにあります。多くの場合、レジリエンス(強靭性)はニュースになったとき、つまり全員が同じ状況に陥ったときに初めて話題に上ります。しかし私たちにとって、それは常に最優先事項であり、特に2025年を通じて重視してきました。私たちは自らの経験から学び、それによってより強くなり、本当に重要なことに一層集中するようになりました。その取り組みは、99.999%のサービス稼働率という形で表れており、これは強靭な設計への継続的な投資の直接的な成果です。
レジリエンスは単なる機能ではなく、私たちのDNAの一部です
プルーフポイントにおいて、レジリエンスはチェックリストの項目でも、障害が発生した後に再検討する後付けの考えでもありません。それは私たちのエンジニアリング文化とアーキテクチャに織り込まれた要素です。私たちはクラウドの障害が起こりうることを前提にし、その現実に備えて日々設計を行っています。
AWSの障害により先週一時的にインターネットの一部が停止した際も、プルーフポイントのシステムは最小限の影響でお客様を保護し続けました。私たちはオンラインを維持し、数十億件のメールをスキャンし、休むことのない脅威アクターの攻撃をブロックし続けました。
この継続性は偶然に生まれたものではありません。それは、単一障害点を減らし、重要なサードパーティインフラが停止しても保護を継続できるように設計された、長年にわたる意図的なアーキテクチャ上の決断の結果です。
私たちのレジリエンス戦略は、長年にわたるエンジニアリングの洗練と運用経験に基づいて構築されています。今回のインシデントにおいてレジリエンスを確保した主要な原則には、次のようなものがあります。
- 複数リージョンの活用: サービスを地理的に分散させ、集中リスクを回避しています。
- 複数のクラウドプロバイダー: プラットフォームをまたいでアーキテクチャを設計し、特定のベンダーへの依存を減らしています。
- 非同期技術: 完全な停止ではなく、段階的な劣化(graceful degradation)を想定して設計しています。
1. 複数リージョン:メールの流れを維持し、ダウンタイムを防ぐ
先週、AWSのus-east-1リージョンで大規模な障害が発生した際、多くの組織で重要なサービスが停止しました。しかし、プルーフポイントのお客様はそうではありませんでした。
その理由は、当社の保護インフラが単一のAWSリージョンやアベイラビリティゾーンに限定されていないからです。私たちは大陸をまたぐ複数のリージョンおよび追加のクラウド環境で運用しており、地理的な多様性を確保しています。
たとえば、当社の欧州インフラは今回のAWSの障害の影響を受けませんでした。リージョン間の分離をシステム設計に組み込んでいるため、ある地域で問題が発生しても、他の地域のサービスは独立して稼働を続けることができます。
このようなリージョンの多様性は、単に停止を防ぐだけではありません。パフォーマンスを維持し、グローバルなお客様に対する遅延を軽減し、地域ごとのデータ主権要件への準拠も支援します。これはレジリエンス、セキュリティ、プライバシーを同時に高める原則なのです。
2. 複数のクラウドプロバイダー:稼働時間の向上と安全なメッセージ配信
クラウド中心の世界が進む中、多くのプロバイダーは業務を単一のクラウドプラットフォーム上に集約しています。それは展開を簡素化する一方で、リスクを集中させることにもなります。そのプロバイダーが障害を起こせば、それに依存するすべてのサービスが同時に停止してしまうのです。
プルーフポイントは異なるアプローチを採用しており、複数のクラウドプロバイダーで運用を行っています。このハイブリッド戦略により、各プラットフォームの強みを活かしながら、プロバイダーレベルでの冗長性を確保しています。
あるクラウドプラットフォームが利用できなくなった場合でも、当社のシステムはワークロードを動的に別のインフラへと再ルーティングします。この柔軟性によって稼働時間が維持されるだけでなく、サードパーティ障害の連鎖的な影響からお客様を保護することができます。
3. 非同期技術:メールが失われたり露出したりしないようにする
クラウドやリージョンをまたいだ冗長性を備えていても、プロバイダーに重大な障害が発生した場合には、共有サービスの一部が影響を受けることがあります。違いが生まれるのは、そのようなストレス下でサービスがどのように動作するかという点です。
プルーフポイントは、重要な機能に対して非同期処理モデルを採用しています。つまり、特定のAWSリージョンの障害によって一部のサービスが一時的にオフラインになった場合でも、全体の保護パイプラインが停止することはありません。その代わり、メッセージは安全にキューに保存され、サービスが復旧した時点で順番に処理されます。この非同期アプローチにより、メッセージが失われることはなく、セキュリティの有効性も維持されます。実際のところ、これは「一時的な遅延」を意味するものであり、「恒久的な障害」を意味するものではありません。
プルーフポイントの実際の対応:お客様が経験したこと
AWSの障害発生中も、プルーフポイントのお客様は安全で信頼性の高いメールフローを維持できました。当社のセキュアメールゲートウェイ(SEG)をご利用のお客様については、分散されたメールフローインフラのおかげでメール配送の中断は発生しませんでした。メールのルーティング、フィルタリング、配送を担うシステムは、影響を受けたAWSリージョンとは独立して稼働していました。
一部のお客様では、メッセージ処理機能に一時的な遅延が発生しましたが、上流のサービスが復旧すると同時に自動的に通常運用へ戻りました。また、悪意のあるメールが当社の防御をすり抜けることはありませんでした。私たちは、短時間の中断であってもお客様にご不便をおかけすることを理解しており、今回の事象を通じてシステムをさらに強化しました。
完璧ではなく、継続性を重視した設計
レジリエンスという言葉を聞くと、完全に障害を免れることだと考えがちですが、分散システムにおいては「完璧さ」は現実的でも望ましいものでもありません。最も重要なのは、個々のコンポーネントが障害を起こしても中核機能を維持できる「段階的な劣化(graceful degradation)」の能力です。
プルーフポイントでは、イベントが発生するかどうかではなく、それが起きたときにどのようにお客様を保護し続けるかによってレジリエンスを定義しています。私たちのチームは現実的な条件下で常に障害をシミュレーションし、インフラのストレステストを実施しています。次の障害を待って弱点を発見するのではなく、事前に見つけて修正するのです。
こうした運用マインドセットと、世界最大級のメールセキュリティプラットフォームを長年運用してきた経験が組み合わさることで、プルーフポイントはインターネット全体が揺らぐような状況においても、安定した稼働時間と揺るぎない保護を提供し続けているのです。