Proofpoint Aegisにおけるマシンラーニングの活用

Share with your network!

2023年3月24日 Adam Starr and Luis Blando

Transformerを利用した自然言語処理（NLP）、大規模言語モデル（LLM）、生成モデルにより、高度な機械学習（ML）システムが実現されています。ChatGPTなどのツールは、インターネットにアクセスできれば誰でも利用することができます。残念なことですが、このようなモデルはフィッシングメールの作成にも利用されています。

この記事では、人工知能（AI）で生成されたフィッシング脅威に対してプルーフポイントがどのような対策を講じているのか、また、プルーフポイントの検知システムで高度なMLモデルがどのように活用されているのかについて解説します。

AIで生成されたフィッシング脅威に対する防御

インターネットにアクセスできれば、誰もがAI、ML、NLPの最新技術を利用できるようになりました。ChatGPTがそのよい例です。

攻撃者もChatGPTのようなシステムを使ってフィッシングメールを作成していますが、このようなモデルで生成されるのはテキストだけです。人間が書いたメールよりもAIに作らせたフィッシングメールのほうが、リンクがクリックされやすいケースもあるようです。メッセージの文面から思わずクリックしてしまうのかもしれません。これらのモデルは標準的な文法に従ってプロフェッショナルなビジネス文章を生成できるため、文法的な誤りや、不自然な表現を含むステレオタイプのフィッシングメールに比べると、メッセージの信憑性が高くなるのでしょう。

生成モデルによって標的をさらに絞り込んだフィッシングメールが作成されるのではないか、と懸念する声もありますが、これは少し心配しすぎかもしれません。これらのモデルを使用すれば、どのようなトピックでも流暢な文章を作成できるかもしれませんが、現時点では、モデルが特定のベンダーや上司の文章の癖まで理解しているわけではありません。また、特定の受信者が何に心を動かすのかを把握しているわけでもありません。

LLMで生成された文章は一般的な内容になる傾向があり、特定の個人に合わせてカスタマイズされたものではありません。また、これらのモデルは最新の出来事を学習していないため、フィッシングメールにタイムリーな内容が含まれることはあまりないでしょう。現在、一般に公開されているモデルは、身近な人物や組織になりすませるほど高度なものではありません。

AIで生成されるフィッシングメールは、その言語を母国語としない人物が書いたメッセージよりも自然な文章になっていますが、これによってスピアフィッシングが著しく進化することはありません。

図1: 生成されたスピアフィッシングメール。プルーフポイントのCEOを装っているが、CEOからのメールには見えない。

モデルが生成するテキストはメールの一要素に過ぎません。包括的なメールセキュリティソリューションではメッセージの本文だけでなく、危険なURLや不正な添付ファイル、通常と異なる通信パターンなど、複数の要素が検証されます。ChatGPTのようなシステムで生成されるのはメールのテキストだけで（HTML形式の場合もあるかもしれませんが）、偽装したインフラから完全なメールを送信することはできません。この点は重要です。

送信者の認証にDMARCを使用することが、なりすましに対する効果的な防御策であることに変わりはありません。検知率を向上させるために、メールの要素がどのように使用されているのかについては、プルーフポイントのウェビナーをご覧ください。ここでは、プルーフポイントの検知パイプラインで使用されているAIとMLについて解説されています。プルーフポイントは、AIで生成されたフィッシング脅威に対しても強力な防御策を提供しています。

プルーフポイントでのTransformerモデルの使用

ChatGPTの「T」は「Transformer」の「T」を意味しています（BERTなどのTも同じです）。これらのMLモデルは、言語とテキストの処理に特化し、それに合わせて調整されています。プルーフポイントでは、他のモデルと合わせて、この種類のモデルを使用しています。では、これらのモデルがプルーフポイントで有効に活用されている例をいくつか紹介しましょう。

ChatGPTなどの無料サービスでTransformerベースのモデルが公開されていますが、プルーフポイントでは何年も前から自社製品にTransformerモデルを利用しています。技術的な細かい説明は省きますが、Transformerモデルは可変長の入力シーケンスを処理し、シーケンスに含まれる単語間の複雑な関係を正確に表現することができます。

この点を踏まえて、プルーフポイントの製品にTransformerがどのように組み込まれているのか見てみましょう。

プルーフポイントでは、より強固なピープルリスクアセスメントを可能にするため、Active Directoryに接続して従業員の職務内容と職位を把握するTitle Classifierを作成しました。ディレクトリに含まれている職名は短いものが多いため、Transformerを使用する必要はないように思えますが、Transformerを利用することで、Title Classifierは職名を構成する要素の位置とコンテキストを識別しています。たとえば、「product manager」と「manager, marketing」とでは、「manager」という職務の機能が異なります。

Transformerは、職名からメール全体まで、さまざまな長さのテキストを扱うことができます。実際、このモデルは長さの異なるシーケンスを効率的に処理し、シーケンスに含まれる単語間の複雑な関係を取得できるため、特にメールの処理には最適なモデルといえます。自由に書かれた複雑で、多様な構造のメールを処理するには理想的です。

プルーフポイントは、Transformerモデルを使用して、高度なメールセキュリティ製品を作成しています。この製品は、フィッシング、マルウェア、スパムなど、さまざまな脅威タイプを効率的に識別し、攻撃を防いでいます。このようなモデルの一つがProofpoint CLEAR (Closed-Loop Email Analysis and Response)製品に統合されています。CLEARでは、ユーザーがワンクリックでフィッシングメールを報告でき、セキュリティオペレーションセンター（SOC）の対応業務の多くが自動化されています。ユーザーから報告されるメールがすべてフィッシングと限りません。このため、プルーフポイントではBERTから派生したモデルを使用して、メッセージテキストやその他の兆候を調査します。これにより、SOCの負担が軽減されています。

プルーフポイントでは、Transformerを使用してNLPタスクを改善しています。また、マルウェアの言語処理を改善するため、新しい種類のモデルを作成しました。その一例として、キャンペーンを検知するツールがあります（コードネームCampDisco）。BERTやGPTと同様に、LLMはNLPに大変革をもたらしましたが、これらは厳格なトークナイザーモデルに依存しています。プルーフポイントでは、カスタムトークナイザーを利用して、より小規模でパフォーマンスの高いニュートラルネットワークを構築し、マルウェアキャンペーンを正確に識別できるようにしました。

CampDiscoは、人と機械学習をともに活用する、というプルーフポイントの考え方をよく表しています。プルーフポイントの脅威調査チームは、CampDiscoを使用して脅威状況を正確に把握し、検知までの時間を短縮しています。

図2: CampDiscoカスタムトークナイザーの例

強固で大規模なMLを構築する方法

プルーフポイントの製品はさまざまな部分でMLを利用しています。これは、データファースト企業として、常に変化する脅威状況から顧客を守るために革新的なソリューションを提供するという、プルーフポイントのアプローチに不可欠なものです。Transformerモデルは、プルーフポイントが使用するMLの一つに過ぎませんが、成功に導く原理はプルーフポイントのシステム全体で共通しています。

業界最先端の結果を提供するには、大量のデータを効率的かつ効果的に処理できる強力なモデルが必要です。また、モデルをトレーニングして脅威を正確に識別し、不正な挙動を識別できるようにするには、関連データも非常に重要です。変化の激しい脅威状況に対応するため、これらのデータは常に最新の状態にしておかなければなりません。

これらのモデルを大規模にデプロイして維持するには、強固な運用プロセスも必要です。正確性と効果を維持するには、モデルのパフォーマンスをモニタリングして、使用されているデータの品質を検証し、モデルの調整を継続的に行わなければなりません。プルーフポイントのMLエキスパートは経験豊富で、このような重要な成功要因をよく理解しています。そのおかげで、プルーフポイントは革新的で効果的なソリューションを顧客に提供することに成功しています。

モデル

MLモデルは、データサイエンスプログラムの基礎となるものです。これらのモデルの多くは無料で公開され、オープンソースで実装されています。データサイエンスの専門家チームは、このような公開モデルをいつ、どのように使うべきかを知っています。この点が初心者と異なる点です。

専門家チームはさまざまなモデルを熟知し、その長所と欠点を理解しているので、どの問題にどのモデルを使うべきかを適切に判断できます。また、適切なモデルを使ってデータから最大の価値を引き出す方法も知っています。ユースケースの個別の要件に合わせてモデルを調整するスキルもあり、モデルのパフォーマンスを大幅に向上させることもできます。

プルーフポイントの機械学習チームは、社内の調査プログラムだけでなく、大学とも協力関係を築き、最先端の機械学習の研究に取り組んでいます。大学との共同開発プログラムでは、公開されているデータセットを使ってモデルのアーキテクチャを開発しています。このアーキテクチャは、プルーフポイントのデータサイエンティストによってプルーフポイントのシステムに組み込まれています。

プルーフポイントのMLエキスパートチームはさまざまな分野で経験を積んでいます。こうした専門知識と経験のおかげで、顧客に合わせてカスタマイズされた高品質のソリューションの提供が可能になっています。また、このような知識と経験を生かして、データから最大の価値を引き出し、各プロジェクトで結果を残しています。

データ

効果的なMLモデルを開発してデプロイするには、高品質のデータが欠かせません。トレーニングデータの品質は、モデルの正確性と全体的なパフォーマンスを左右します。プルーフポイントの広範な顧客ネットワークと製品の優位性のおかげで、プルーフポイントのデータセットはセキュリティ領域で比類のないレベルに達しています。セキュリティソリューションのリーディングカンパニーとして、プルーフポイントは多くのグローバル企業を脅威から保護しています。毎日、数十億のメールと数百億のURLを処理し、脅威とサイバーセキュリティの動向について最新の分析情報を迅速に入手しています。

プルーフポイントでは、これらのデータを使用してMLモデルをトレーニングし、新たに発生する脅威にも対応できるようにしています。このモデルは、脅威を効率的に識別して回避し、顧客に提供する全体的な保護レベルを向上させています。プルーフポイントでは、MLエキスパートと脅威研究者が協業することで、業界をリードする、真に包括的なセキュリティソリューションを顧客に提供しています。

図3: プルーフポイントの機械学習で使用されているデータセットのサンプル

プロセス

しかし、ただデータが存在するだけでは意味はありません。優れたデータが揃っていても、そのデータを結集しなければ、優れたMLモデルを構築することはできません。プルーフポイントの機械学習のプロセスは、大規模なMLを成功させる上で重要な要因の一つとなっています。たとえば、次のような問題や質問に対して、適切な解答を見つけ出す必要があります。

新しいモデルをどのくらい速くトレーニングし、デプロイできるのか
本番環境にどのくらいの頻度で新しいモデルが配備されているのか
MLで新しい攻撃を検知するために、プロセスがどのようにサポートするのか

これらの問題（とそれに類似する課題）を解決するため、プルーフポイントは継続的な改善サイクルを維持しています。プルーフポイントでは、データサイエンティスト、脅威リサーチャー、顧客対応チームが既存のシステムに新しいモデルの導入や改善を行う機会を判断します。熟練したラベル付け担当者とProofpoint Aegis脅威プロテクションプラットフォームの自動ラベリングを組み合わせてトレーニングデータの「正解」を用意します。

その後、自動化されたパイプラインでモデルをトレーニングして結果を検証します。成功の条件はモデルのユースケースによって異なります。たとえば、モデルが予測スキャンで潜在的なリスクを含むURLを識別している場合は、無駄なスキャンになっても、すべての脅威を再評価することが最優先の課題になるかもしれません。また、モデルがメールをブロックした場合は、より高い予測信頼性が求められるかもしれません。

新しいモデルの検証が済むと、ボタン一つでモデルをデプロイできます。このプロセスのオーケストレーションをMLOps（machine learning operations）といいます。

blog graphic

図4: プルーフポイントでのMLOpsライフサイクルの概要

プルーフポイントの簡素化されたMLOpsプラットフォームは、本稼働までのパスを最適化し、最大の効果が得られるようにしています。プルーフポイントでは、新しいモデルのリリースまでの時間を短縮するために、一連の共通パターンを使用してこのプロセスをシステム化しています。これにより、最小限のオーバーヘッドで可能な限り速やかに、顧客に対するサービスでイノベーションの価値を実現しています。このプロセスでは大規模MLの基準を設定しています。また、プルーフポイントは、MLOps ベストプラクティスに関する情報をAWS re:Inventで共有するように求められています。

データを動員してモデルを継続的に改善していく運用プロセスがワールドクラスのMLチームを作り上げています。プルーフポイントでは、脅威を検知するために人の経験と機械学習を融合させただけでなく、データ分類製品のループの中に人の知識と経験を組み込むことで、より優れた情報保護システムを構築しています。

プルーフポイントで働いてみませんか

最先端のMLモデルを構築してサイバー犯罪を防ぐことに関心があれば、プルーフポイントのチームに参加してみませんか。プルーフポイントのMLエンジニアと脅威研究者は、ハービー・マッド大学、デューク大学、ワシントン州立大学などと共同で、複雑な問題を解決する革新的なソリューションの開発を進めています。膨大なデータ。ベストオブブリードのプロセス。そしてエキスパートチーム。機械学習に取り組む環境として、プルーフポイントは理想的な職場です。

プルーフポイントで働く機会について、さらに詳しい情報はこちらのページをご覧ください。

コラボレーションセキュリティ

データセキュリティ

AI セキュリティ

当社のプラットフォーム

ユースケース別

業界別

サービス

学ぶ

脅威インテリジェンス

パートナー

サポート