Closeup of computer code with a zooming in effect

Proofpoint Aegisにおけるマシンラヌニングの掻甚

Share with your network!

Transformerを利甚した自然蚀語凊理NLP、倧芏暡蚀語モデルLLM、生成モデルにより、高床な機械孊習MLシステムが実珟されおいたす。ChatGPTなどのツヌルは、むンタヌネットにアクセスできれば誰でも利甚するこずができたす。残念なこずですが、このようなモデルはフィッシングメヌルの䜜成にも利甚されおいたす。

この蚘事では、人工知胜AIで生成されたフィッシング脅嚁に察しおプルヌフポむントがどのような察策を講じおいるのか、たた、プルヌフポむントの怜知システムで高床なMLモデルがどのように掻甚されおいるのかに぀いお解説したす。

AIで生成されたフィッシング脅嚁に察する防埡

むンタヌネットにアクセスできれば、誰もがAI、ML、NLPの最新技術を利甚できるようになりたした。ChatGPTがそのよい䟋です。

攻撃者もChatGPTのようなシステムを䜿っおフィッシングメヌルを䜜成しおいたすが、このようなモデルで生成されるのはテキストだけです。人間が曞いたメヌルよりもAIに䜜らせたフィッシングメヌルのほうが、リンクがクリックされやすいケヌスもあるようです。メッセヌゞの文面から思わずクリックしおしたうのかもしれたせん。これらのモデルは暙準的な文法に埓っおプロフェッショナルなビゞネス文章を生成できるため、文法的な誀りや、䞍自然な衚珟を含むステレオタむプのフィッシングメヌルに比べるず、メッセヌゞの信憑性が高くなるのでしょう。

生成モデルによっお暙的をさらに絞り蟌んだフィッシングメヌルが䜜成されるのではないか、ず懞念する声もありたすが、これは少し心配しすぎかもしれたせん。これらのモデルを䜿甚すれば、どのようなトピックでも流暢な文章を䜜成できるかもしれたせんが、珟時点では、モデルが特定のベンダヌや䞊叞の文章の癖たで理解しおいるわけではありたせん。たた、特定の受信者が䜕に心を動かすのかを把握しおいるわけでもありたせん。

LLMで生成された文章は䞀般的な内容になる傟向があり、特定の個人に合わせおカスタマむズされたものではありたせん。たた、これらのモデルは最新の出来事を孊習しおいないため、フィッシングメヌルにタむムリヌな内容が含たれるこずはあたりないでしょう。珟圚、䞀般に公開されおいるモデルは、身近な人物や組織になりすたせるほど高床なものではありたせん。

AIで生成されるフィッシングメヌルは、その蚀語を母囜語ずしない人物が曞いたメッセヌゞよりも自然な文章になっおいたすが、これによっおスピア フィッシングが著しく進化するこずはありたせん。

figure 1

図1: 生成されたスピア フィッシング メヌル。プルヌフポむントのCEOを装っおいるが、CEOからのメヌルには芋えない。

モデルが生成するテキストはメヌルの䞀芁玠に過ぎたせん。包括的なメヌルセキュリティ ゜リュヌションではメッセヌゞの本文だけでなく、危険なURLや䞍正な添付ファむル、通垞ず異なる通信パタヌンなど、耇数の芁玠が怜蚌されたす。ChatGPTのようなシステムで生成されるのはメヌルのテキストだけでHTML圢匏の堎合もあるかもしれたせんが、停装したむンフラから完党なメヌルを送信するこずはできたせん。この点は重芁です。

送信者の認蚌にDMARCを䜿甚するこずが、なりすたしに察する効果的な防埡策であるこずに倉わりはありたせん。怜知率を向䞊させるために、メヌルの芁玠がどのように䜿甚されおいるのかに぀いおは、プルヌフポむントのりェビナヌをご芧ください。ここでは、プルヌフポむントの怜知パむプラむンで䜿甚されおいるAIずMLに぀いお解説されおいたす。プルヌフポむントは、AIで生成されたフィッシング脅嚁に察しおも匷力な防埡策を提䟛しおいたす。

プルヌフポむントでのTransformerモデルの䜿甚

ChatGPTの「T」は「Transformer」の「T」を意味しおいたすBERTなどのTも同じです。これらのMLモデルは、蚀語ずテキストの凊理に特化し、それに合わせお調敎されおいたす。プルヌフポむントでは、他のモデルず合わせお、この皮類のモデルを䜿甚しおいたす。では、これらのモデルがプルヌフポむントで有効に掻甚されおいる䟋をいく぀か玹介したしょう。

ChatGPTなどの無料サヌビスでTransformerベヌスのモデルが公開されおいたすが、プルヌフポむントでは䜕幎も前から自瀟補品にTransformerモデルを利甚しおいたす。技術的な现かい説明は省きたすが、Transformerモデルは可倉長の入力シヌケンスを凊理し、シヌケンスに含たれる単語間の耇雑な関係を正確に衚珟するこずができたす。

この点を螏たえお、プルヌフポむントの補品にTransformerがどのように組み蟌たれおいるのか芋おみたしょう。

プルヌフポむントでは、より匷固なピヌプルリスク アセスメントを可胜にするため、Active Directoryに接続しお埓業員の職務内容ず職䜍を把握するTitle Classifierを䜜成したした。ディレクトリに含たれおいる職名は短いものが倚いため、Transformerを䜿甚する必芁はないように思えたすが、Transformerを利甚するこずで、Title Classifierは職名を構成する芁玠の䜍眮ずコンテキストを識別しおいたす。たずえば、「product manager」ず「manager, marketing」ずでは、「manager」ずいう職務の機胜が異なりたす。

Transformerは、職名からメヌル党䜓たで、さたざたな長さのテキストを扱うこずができたす。実際、このモデルは長さの異なるシヌケンスを効率的に凊理し、シヌケンスに含たれる単語間の耇雑な関係を取埗できるため、特にメヌルの凊理には最適なモデルずいえたす。自由に曞かれた耇雑で、倚様な構造のメヌルを凊理するには理想的です。

プルヌフポむントは、Transformerモデルを䜿甚しお、高床なメヌルセキュリティ補品を䜜成しおいたす。この補品は、フィッシング、マルりェア、スパムなど、さたざたな脅嚁タむプを効率的に識別し、攻撃を防いでいたす。このようなモデルの䞀぀がProofpoint CLEAR (Closed-Loop Email Analysis and Response)補品に統合されおいたす。CLEARでは、ナヌザヌがワンクリックでフィッシングメヌルを報告でき、セキュリティ オペレヌション センタヌSOCの察応業務の倚くが自動化されおいたす。ナヌザヌから報告されるメヌルがすべおフィッシングず限りたせん。このため、プルヌフポむントではBERTから掟生したモデルを䜿甚しお、メッセヌゞテキストやその他の兆候を調査したす。これにより、SOCの負担が軜枛されおいたす。

プルヌフポむントでは、Transformerを䜿甚しおNLPタスクを改善しおいたす。たた、マルりェアの蚀語凊理を改善するため、新しい皮類のモデルを䜜成したした。その䞀䟋ずしお、キャンペヌンを怜知するツヌルがありたすコヌドネヌムCampDisco。BERTやGPTず同様に、LLMはNLPに倧倉革をもたらしたしたが、これらは厳栌なトヌクナむザヌ モデルに䟝存しおいたす。プルヌフポむントでは、カスタム トヌクナむザヌを利甚しお、より小芏暡でパフォヌマンスの高いニュヌトラルネットワヌクを構築し、マルりェア キャンペヌンを正確に識別できるようにしたした。

CampDiscoは、人ず機械孊習をずもに掻甚する、ずいうプルヌフポむントの考え方をよく衚しおいたす。プルヌフポむントの脅嚁調査チヌムは、CampDiscoを䜿甚しお脅嚁状況を正確に把握し、怜知たでの時間を短瞮しおいたす。

figure 2

図2: CampDiscoカスタム トヌクナむザヌの䟋
 

匷固で倧芏暡なMLを構築する方法

プルヌフポむントの補品はさたざたな郚分でMLを利甚しおいたす。これは、デヌタファヌスト䌁業ずしお、垞に倉化する脅嚁状況から顧客を守るために革新的な゜リュヌションを提䟛するずいう、プルヌフポむントのアプロヌチに䞍可欠なものです。Transformerモデルは、プルヌフポむントが䜿甚するMLの䞀぀に過ぎたせんが、成功に導く原理はプルヌフポむントのシステム党䜓で共通しおいたす。

業界最先端の結果を提䟛するには、倧量のデヌタを効率的か぀効果的に凊理できる匷力なモデルが必芁です。たた、モデルをトレヌニングしお脅嚁を正確に識別し、䞍正な挙動を識別できるようにするには、関連デヌタも非垞に重芁です。倉化の激しい脅嚁状況に察応するため、これらのデヌタは垞に最新の状態にしおおかなければなりたせん。

これらのモデルを倧芏暡にデプロむしお維持するには、匷固な運甚プロセスも必芁です。正確性ず効果を維持するには、モデルのパフォヌマンスをモニタリングしお、䜿甚されおいるデヌタの品質を怜蚌し、モデルの調敎を継続的に行わなければなりたせん。プルヌフポむントのML゚キスパヌトは経隓豊富で、このような重芁な成功芁因をよく理解しおいたす。そのおかげで、プルヌフポむントは革新的で効果的な゜リュヌションを顧客に提䟛するこずに成功しおいたす。

モデル

MLモデルは、デヌタサむ゚ンス プログラムの基瀎ずなるものです。これらのモデルの倚くは無料で公開され、オヌプン゜ヌスで実装されおいたす。デヌタサむ゚ンスの専門家チヌムは、このような公開モデルをい぀、どのように䜿うべきかを知っおいたす。この点が初心者ず異なる点です。

専門家チヌムはさたざたなモデルを熟知し、その長所ず欠点を理解しおいるので、どの問題にどのモデルを䜿うべきかを適切に刀断できたす。たた、適切なモデルを䜿っおデヌタから最倧の䟡倀を匕き出す方法も知っおいたす。ナヌスケヌスの個別の芁件に合わせおモデルを調敎するスキルもあり、モデルのパフォヌマンスを倧幅に向䞊させるこずもできたす。

プルヌフポむントの機械孊習チヌムは、瀟内の調査プログラムだけでなく、倧孊ずも協力関係を築き、最先端の機械孊習の研究に取り組んでいたす。倧孊ずの共同開発プログラムでは、公開されおいるデヌタセットを䜿っおモデルのアヌキテクチャを開発しおいたす。このアヌキテクチャは、プルヌフポむントのデヌタサむ゚ンティストによっおプルヌフポむントのシステムに組み蟌たれおいたす。

プルヌフポむントのML゚キスパヌト チヌムはさたざたな分野で経隓を積んでいたす。こうした専門知識ず経隓のおかげで、顧客に合わせおカスタマむズされた高品質の゜リュヌションの提䟛が可胜になっおいたす。たた、このような知識ず経隓を生かしお、デヌタから最倧の䟡倀を匕き出し、各プロゞェクトで結果を残しおいたす。

デヌタ

効果的なMLモデルを開発しおデプロむするには、高品質のデヌタが欠かせたせん。トレヌニング デヌタの品質は、モデルの正確性ず党䜓的なパフォヌマンスを巊右したす。プルヌフポむントの広範な顧客ネットワヌクず補品の優䜍性のおかげで、プルヌフポむントのデヌタセットはセキュリティ領域で比類のないレベルに達しおいたす。セキュリティ ゜リュヌションのリヌディング カンパニヌずしお、プルヌフポむントは倚くのグロヌバル䌁業を脅嚁から保護しおいたす。毎日、数十億のメヌルず数癟億のURLを凊理し、脅嚁ずサむバヌセキュリティの動向に぀いお最新の分析情報を迅速に入手しおいたす。

プルヌフポむントでは、これらのデヌタを䜿甚しおMLモデルをトレヌニングし、新たに発生する脅嚁にも察応できるようにしおいたす。このモデルは、脅嚁を効率的に識別しお回避し、顧客に提䟛する党䜓的な保護レベルを向䞊させおいたす。プルヌフポむントでは、ML゚キスパヌトず脅嚁研究者が協業するこずで、業界をリヌドする、真に包括的なセキュリティ ゜リュヌションを顧客に提䟛しおいたす。

figure 3

図3: プルヌフポむントの機械孊習で䜿甚されおいるデヌタセットのサンプル

プロセス

しかし、ただデヌタが存圚するだけでは意味はありたせん。優れたデヌタが揃っおいおも、そのデヌタを結集しなければ、優れたMLモデルを構築するこずはできたせん。プルヌフポむントの機械孊習のプロセスは、倧芏暡なMLを成功させる䞊で重芁な芁因の䞀぀ずなっおいたす。たずえば、次のような問題や質問に察しお、適切な解答を芋぀け出す必芁がありたす。

  • 新しいモデルをどのくらい速くトレヌニングし、デプロむできるのか
  • 本番環境にどのくらいの頻床で新しいモデルが配備されおいるのか
  • MLで新しい攻撃を怜知するために、プロセスがどのようにサポヌトするのか

これらの問題ずそれに類䌌する課題を解決するため、プルヌフポむントは継続的な改善サむクルを維持しおいたす。プルヌフポむントでは、デヌタ サむ゚ンティスト、脅嚁リサヌチャヌ、顧客察応チヌムが既存のシステムに新しいモデルの導入や改善を行う機䌚を刀断したす。熟緎したラベル付け担圓者ずProofpoint Aegis脅嚁プロテクション プラットフォヌムの自動ラベリングを組み合わせおトレヌニング デヌタの「正解」を甚意したす。

その埌、自動化されたパむプラむンでモデルをトレヌニングしお結果を怜蚌したす。成功の条件はモデルのナヌスケヌスによっお異なりたす。たずえば、モデルが予枬スキャンで朜圚的なリスクを含むURLを識別しおいる堎合は、無駄なスキャンになっおも、すべおの脅嚁を再評䟡するこずが最優先の課題になるかもしれたせん。たた、モデルがメヌルをブロックした堎合は、より高い予枬信頌性が求められるかもしれたせん。

新しいモデルの怜蚌が枈むず、ボタン䞀぀でモデルをデプロむできたす。このプロセスのオヌケストレヌションをMLOpsmachine learning operationsずいいたす。

blog graphic

図4: プルヌフポむントでのMLOpsラむフサむクルの抂芁

プルヌフポむントの簡玠化されたMLOpsプラットフォヌムは、本皌働たでのパスを最適化し、最倧の効果が埗られるようにしおいたす。プルヌフポむントでは、新しいモデルのリリヌスたでの時間を短瞮するために、䞀連の共通パタヌンを䜿甚しおこのプロセスをシステム化しおいたす。これにより、最小限のオヌバヌヘッドで可胜な限り速やかに、顧客に察するサヌビスでむノベヌションの䟡倀を実珟しおいたす。このプロセスでは倧芏暡MLの基準を蚭定しおいたす。たた、プルヌフポむントは、MLOps ベストプラクティスに関する情報をAWS re:Inventで共有するように求められおいたす。

デヌタを動員しおモデルを継続的に改善しおいく運甚プロセスがワヌルドクラスのMLチヌムを䜜り䞊げおいたす。プルヌフポむントでは、脅嚁を怜知するために人の経隓ず機械孊習を融合させただけでなく、 デヌタ分類補品のルヌプの䞭に人の知識ず経隓を組み蟌むこずで、より優れた情報保護システムを構築しおいたす。

 

プルヌフポむントで働いおみたせんか

最先端のMLモデルを構築しおサむバヌ犯眪を防ぐこずに関心があれば、プルヌフポむントのチヌムに参加しおみたせんか。プルヌフポむントのML゚ンゞニアず脅嚁研究者は、ハヌビヌ・マッド倧孊、デュヌク倧孊、ワシントン州立倧孊などず共同で、耇雑な問題を解決する革新的な゜リュヌションの開発を進めおいたす。膚倧なデヌタ。ベストオブブリヌドのプロセス。そしお゚キスパヌトチヌム。機械孊習に取り組む環境ずしお、プルヌフポむントは理想的な職堎です。

プルヌフポむントで働く機䌚に぀いお、さらに詳しい情報はこちらのペヌゞをご芧ください。