Utilisation de l'apprentissage automatique par la plate-forme Proofpoint Aegis

Share with your network!

L'émergence des modèles transformers de traitement du langage naturel (NLP, Naturel Language Processing), des grands modèles de langage (LLM, Large Language Model) et des modèles génératifs a permis à toute personne disposant d'un accès à Internet d'accéder aux systèmes d'apprentissage automatique au moyen d'outils tels que ChatGPT. Malheureusement, les cybercriminels peuvent également se servir de ces modèles pour créer des emails de phishing.

Dans cet article, nous vous expliquons comment Proofpoint lutte contre les menaces de phishing générées par l'intelligence artificielle (IA) et déploie des modèles d'apprentissage automatique avancés dans tous ses systèmes de détection.

Protection contre les menaces de phishing générées par l'intelligence artificielle

Toute personne disposant d'un accès à Internet peut désormais profiter des progrès les plus récents de l'intelligence artificielle, de l'apprentissage automatique et du traitement du langage naturel. ChatGPT est précisément l'une de ces avancées.

Les systèmes de ce type, qui ne produisent que du texte, sont utilisés par les cybercriminels pour rédiger des emails de phishing. Certains destinataires sont plus enclins à cliquer sur des liens contenus dans des emails de phishing générés par l'intelligence artificielle que sur des liens similaires présents dans des messages rédigés par l'homme, peut-être en raison du style du texte. Ces modèles peuvent en effet produire des messages dans un anglais commercial utilisant les règles grammaticales standard, ce qui accroît leur crédibilité par rapport aux emails de phishing stéréotypés truffés de fautes grammaticales et de tournures boiteuses.

Certaines personnes redoutent que les modèles génératifs créent des emails de phishing extrêmement ciblés, mais cette menace est souvent surestimée. Même si ces modèles peuvent être très éloquents sur pratiquement n'importe quel sujet, ils ne sont pas encore capables d'imiter la façon dont un commercial donné ou votre supérieur s'exprime par écrit, ni de déterminer ce qui pourrait motiver un destinataire spécifique.

Les textes générés par des LLM sont souvent génériques et ne restituent pas le ressenti des correspondants. De plus, ces modèles ne sont pas alimentés par l'actualité, ce qui limite leur capacité à créer des leurres de phishing opportuns. De ce fait, ces modèles publics ne sont pas encore suffisamment sophistiqués pour usurper de façon convaincante l'identité de vos interlocuteurs professionnels.

En outre, malgré l'amélioration de la grammaire des emails de phishing générés par l'intelligence artificielle par rapport aux messages rédigés par des non-anglophones, il y a peu de chance qu'ils conduisent à une hausse significative des attaques de spear phishing.

figure 1

Figure 1. Email de spear phishing généré par l'IA ne ressemblant en rien à un email envoyé par notre PDG

Le texte généré par ces modèles ne constitue que l'un des aspects d'un email. Outre le corps du texte, les solutions complètes de protection de la messagerie électronique prennent en considération de multiples facteurs, comme les URL à risque, les pièces jointes malveillantes et les schémas de communication inhabituels. Il est important de souligner que des systèmes tels que ChatGPT sont uniquement en mesure de générer le texte de l'email (et éventuellement le formatage HTML), mais pas d'envoyer des emails complets à partir d'une infrastructure usurpée.

L'utilisation du protocole DMARC pour authentifier les expéditeurs reste un outil efficace pour déjouer les tentatives d'usurpation d'identité. Pour comprendre comment améliorer la détection à partir des différents éléments d'un email, regardez notre webinaire sur l'intelligence artificielle et l'apprentissage automatique dans notre pipeline de détection. Proofpoint offre une protection sans précédent contre les menaces de phishing générées par l'intelligence artificielle.

Utilisation de modèles transformers par Proofpoint

Le « T » de ChatGPT (ainsi que de BERT et d'autres) correspond à « transformer », ou transformeur. Ces modèles d'apprentissage automatique sont spécialement conçus pour le traitement du langage et du texte. Proofpoint utilise ces types de modèles aux côtés de nombreux autres. Voici par conséquent quelques exemples de domaines où ces modèles s'avèrent utiles.

Cela fait maintenant quelques années que Proofpoint utilise dans ses produits des modèles transformers, qui ont été rendus accessibles grâce à des services gratuits tels que ChatGPT. Sans entrer dans les détails techniques, il est important de signaler que les modèles transformers peuvent traiter des séquences d'entrée de longueurs variables et restituer avec précision les relations complexes entre les mots d'une séquence.

Dans ce contexte, examinons quelques exemples d'intégration de transformers dans les solutions Proofpoint.

Pour améliorer nos évaluations des risques liés aux collaborateurs, nous avons créé un classificateur de fonction qui se connecte à Active Directory pour comprendre le rôle et l'ancienneté d'un collaborateur. Comme l'intitulé des fonctions dans Active Directory est généralement court, l'utilisation de transformers pourrait sembler inutile. Cependant, les transformers permettent au classificateur de fonction d'utiliser la position et le contexte des composants de la fonction. Par exemple, un « directeur » endossera des fonctions différentes selon qu'il est « directeur des produits » ou « directeur marketing ».

Les transformers peuvent traiter des textes de longueur variable, allant d'un intitulé de fonction à un email complet. Ils sont particulièrement adaptés au traitement des emails, car ils peuvent gérer efficacement des séquences de longueur variable et capturer les relations complexes entre les mots de la séquence. Ils se prêtent donc tout particulièrement au traitement des structures complexes et variées des emails à texte libre.

Proofpoint utilise des modèles transformers pour créer des solutions performantes de protection de la messagerie électronique à même d'identifier et de neutraliser efficacement un large éventail de menaces, comme le phishing, les malwares ou le spam. Nous avons intégré un modèle de ce type dans la solution Proofpoint Closed-Loop Email Analysis and Response (CLEAR). Proofpoint CLEAR permet aux utilisateurs de signaler les emails de phishing d'un simple clic et automatise la majeure partie de la réponse du centre d'opérations de sécurité (SOC, Security Operations Center). Cependant, tous les emails signalés par les utilisateurs ne sont pas des emails de phishing. C'est pourquoi Proofpoint utilise un modèle dérivé de BERT pour identifier, à partir du texte des messages et d'autres indicateurs, les emails en apparence inoffensifs, afin de réduire la charge de travail du SOC.

Proofpoint utilise des transformers pour améliorer les tâches NLP, mais a également créé de nouveaux modèles pour traiter plus efficacement le langage des malwares. L'outil CampDisco, utilisé pour la découverte de campagnes de malwares, en est un exemple. Les LLM, comme BERT et GPT, ont révolutionné le NLP, mais s'appuient sur des modèles d'analyseurs lexicaux (tokenizers) rigides. Grâce à l'utilisation d'un analyseur lexical personnalisé pour les investigations numériques portant sur les malwares, nous avons créé un réseau neuronal plus petit et plus performant qui regroupe avec précision les campagnes de malwares.

L'outil CampDisco met également en œuvre un principe cher à Proofpoint, à savoir qu'analyse humaine et apprentissage automatique fonctionnent mieux de concert. L'équipe Proofpoint de recherche sur les cybermenaces utilise CampDisco pour mieux comprendre le paysage des menaces et raccourcir les délais de détection.

figure 2

Figure 2. Exemple illustrant l'analyseur lexical personnalisé CampDisco en action

Implémentation d'un apprentissage automatique robuste à grande échelle

Proofpoint utilise l'apprentissage automatique à tous les niveaux de ses solutions. En tant qu'entreprise axée sur les données, son approche consiste à mettre au point des solutions innovantes pour protéger ses clients contre un paysage des menaces en constante évolution. Les modèles transformers ne constituent qu'un élément de notre arsenal d'apprentissage automatique, mais les principes à l'origine de leur succès se retrouvent à l'échelle de notre système.

Pour obtenir des résultats de premier ordre, il est essentiel de se doter de modèles puissants capables de traiter efficacement d'énormes quantités de données. Il est également indispensable d'entraîner les modèles avec des données pertinentes pour identifier avec précision les menaces et faire la distinction entre activités inoffensives et actes malveillants. Ces données doivent être mises à jour en continu pour garder une longueur d'avance sur le paysage des menaces en constante évolution.

Des processus opérationnels robustes sont également essentiels pour déployer et maintenir ces modèles à grande échelle. Cela nécessite notamment de surveiller les performances des modèles, de valider la qualité des données utilisées et de perfectionner constamment ces modèles afin de garantir leur précision et leur efficacité. Nos experts en apprentissage automatique ont à leur actif des années d'expérience et une compréhension approfondie de ces facteurs de réussite critiques, ce qui permet à Proofpoint de proposer à ses clients des solutions innovantes et performantes.

Modèles

Les modèles d'apprentissage automatique constituent la base de tout programme de traitement des données et nombreux sont ceux qui sont accessibles en open source. En revanche, ce qui fait la différence entre une équipe de traitement des données spécialisée et néophyte, c'est sa capacité à comprendre quand et comment utiliser ces modèles.

Une équipe experte possède une compréhension approfondie des différentes architectures de modèles, de leurs points forts et de leurs faiblesses. Elle sait quand utiliser un modèle donné pour résoudre un problème spécifique et comment tirer pleinement parti des données en utilisant le bon modèle. Elle est également à même d'adapter les modèles aux exigences spécifiques d'un cas d'utilisation, ce qui peut grandement améliorer les performances du modèle utilisé.

Outre nos programmes de recherche internes, nos experts en apprentissage automatique collaborent avec des universités pour faire avancer l'état des connaissances dans le domaine de l'apprentissage automatique. Ces programmes universitaires développent des architectures de modèles basées sur des ensembles de données publics que nos scientifiques des données se chargent d'intégrer dans les systèmes Proofpoint.

L'équipe Proofpoint d'experts en apprentissage automatique possède une grande expérience dans des domaines très variés. La combinaison de leur expertise et de leur expérience nous permet d'offrir à nos clients des solutions personnalisées de pointe. Nous nous appuyons sur l'expertise de notre équipe en matière d'apprentissage automatique pour tirer le meilleur parti des données et produire des résultats qui répondent aux besoins de chaque projet.

Données

Pour élaborer et déployer des modèles d'apprentissage automatique performants, il est indispensable de disposer de données de haute qualité. La qualité des données utilisées pour l'apprentissage a un impact significatif sur l'exactitude et les performances globales du module qui en résulte. Le vaste réseau de clients de Proofpoint et le positionnement de pointe de ses solutions par rapport à la concurrence font que ses ensembles de données sont sans égal dans le secteur de la sécurité informatique. En tant que leader des solutions de cybersécurité, Proofpoint protège bon nombre des plus grandes entreprises au monde et traite des milliards d'emails et des dizaines de milliards d'URL chaque jour, ce qui lui permet de collecter des renseignements en temps réel sur les dernières menaces et tendances du paysage de la cybersécurité.

Nous utilisons ces données pour entraîner nos modèles d'apprentissage automatique et nous assurer qu'ils sont toujours en phase avec les dernières informations sur les menaces émergentes. De ce fait, nos modèles sont en mesure d'identifier et de neutraliser les menaces plus efficacement, ce qui nous permet d'offrir une protection globale plus performante à l'ensemble de nos clients. Grâce à cette vue d'ensemble associée à une équipe d'experts en apprentissage automatique et de chercheurs spécialisés en menaces, Proofpoint se démarque des autres entreprises du secteur et offre à ses clients une solution de cybersécurité véritablement complète.

figure 3

Figure 3. Échantillon des ensembles de données utilisés par l'apprentissage automatique de Proofpoint

Processus

Il ne suffit toutefois pas de disposer de données de qualité. Encore faut-il pouvoir les utiliser pour créer des modèles d'apprentissage automatique de pointe. Le processus d'apprentissage automatique de Proofpoint est un autre facteur clé de réussite de l'apprentissage automatique à grande échelle. Il consiste essentiellement à apporter des réponses adéquates aux questions suivantes :

  • Combien de temps nous faut-il pour entraîner et déployer de nouveaux modèles ?
  • À quelle fréquence de nouveaux modèles sont-ils mis en production ?
  • Comment nos processus prennent-ils en charge la détection des nouvelles attaques au moyen de l'apprentissage automatique ?

Pour répondre à ces questions (et à leurs nombreuses variantes), Proofpoint a mis en place un cycle d'amélioration continue. Nos scientifiques des données, nos chercheurs spécialisés en menaces et nos équipes en contact direct avec les clients identifient les possibilités d'implémentation de nouveaux modèles ou les améliorations à apporter aux systèmes existants. Nous nous assurons ensuite de la fiabilité de nos données d'apprentissage grâce au travail conjoint d'experts humains en étiquetage et de la fonction d'étiquetage automatisé de Proofpoint Aegis, notre plate-forme de protection contre les menaces.

Nous pouvons alors entraîner le modèle au moyen de pipelines automatisés, puis le valider. Les critères de réussite dépendent du cas d'utilisation du modèle. Par exemple, si le modèle est chargé d'identifier des URL potentiellement dangereuses en vue d'une analyse prédictive, nous pouvons hiérarchiser le réexamen de toutes les menaces au risque d'effectuer des analyses inutiles. En revanche, si le modèle a été conçu pour bloquer un email, un degré de confiance plus élevé en matière de prédiction peut être requis.

Une fois le nouveau modèle validé, nous pouvons le déployer d'un simple clic. L'orchestration de ce processus est connue sous le nom de « MLOps » (Machine Learning Operations), ou opérations d'apprentissage automatique.

blog graphic

Figure 4. Vue d'ensemble du cycle de vie MLOps de Proofpoint

Notre plate-forme MLOps simplifiée optimise le parcours de production et maximise l'impact de nos collaborateurs. Nous avons systématisé ce processus au moyen d'un ensemble de schémas communs destinés à accélérer le lancement de nouveaux modèles. Moyennant une charge de travail limitée, nous pouvons concrétiser rapidement la valeur de nos innovations au bénéfice de nos clients. Ce processus ouvre la voie à un apprentissage automatique à grande échelle, et Proofpoint a été invité à partager ses bonnes pratiques en matière de MLOps à l'occasion de l'événement AWS re:Invent.

Le processus opérationnel consistant à mobiliser les données et à améliorer en continu les modèles est la marque de fabrique des équipes d'apprentissage automatique de premier plan. Chez Proofpoint, nous combinons expertise humaine et apprentissage automatique en matière de détection des menaces, en plus de créer des systèmes de protection des informations plus efficaces en intégrant des experts humains dans la boucle de développement de nos solutions de classification des données.

Rejoignez l'équipe Proofpoint

Si élaborer des modèles d'apprentissage automatique de pointe tout en luttant contre la cybercriminalité vous intéresse, rejoignez l'équipe Proofpoint. Chez Proofpoint, les ingénieurs et chercheurs en apprentissage automatique collaborent avec des universités telles que le Harvey Mudd College, la Duke University et la Washington State University pour mettre au point des solutions innovantes en réponse à des problèmes complexes. Grâce à ses données de qualité exceptionnelle, à ses processus et outils de pointe et à ses équipes d'experts, Proofpoint est idéalement placé pour mettre en pratique l'apprentissage automatique.

Si vous souhaitez en savoir plus sur les possibilités de carrière chez Proofpoint, consultez cette page.