Come la piattaforma Proofpoint Aegis utilizza il machine learning

Share with your network!

L'avvento di modelli trasformatori di elaborazione del linguaggio naturale (NLP, Natural Language Processing), di modelli linguistici di grandi dimensioni (LLP, Large Language Model) e di modelli generativi ha permesso a chiunque abbia accesso a Internet di accedere ai sistemi avanzati di machine learning attraverso strumenti come ChatGPT. Purtroppo, i criminali informatici possono anche utilizzare questi modelli per creare email di phishing.

In questo articolo spiegheremo come Proofpoint lotta contro e minacce di phishing generate dall'intelligenza artificiale e come implementa modelli avanzati di machine learning in tutti i suoi sistemi di rilevamento.

Protezione contro le minacce di phishing generate dall'intelligenza artificiale

Chiunque abbia accesso a Internet può oggi trarre vantaggio dai recenti progressi in ambito machine learning, intelligenza artificiale ed elaborazione del linguaggio naturale. ChatGPT è uno di questi progressi.

I sistemi di questo tipo, che sono in grado di produrre solo testo, vengono utilizzati dai criminali informatici per scrivere le email di phishing. Alcuni destinatari sono più propensi a fare clic sui link all’interno di email di phishing generate dall’intelligenza artificiale che su link simili all’interno di messaggi scritti dall’uomo, forse a causa dello stile del testo. Questi modelli possono in effetti produrre messaggi in un inglese commerciale utilizzando regole grammaticali standard, il che può aumentare la loro credibilità rispetto alle email di phishing stereotipate pieni di errori grammaticali e una formulazione strana.

Alcuni temono che i modelli generativi creino email di phishing altamente mirate, ma questa minaccia è spesso sopravvalutata. Sebbene questi modelli siano molto eloquenti su qualsiasi argomento, al momento non sono ancora in grado di imitare il modo in cui un un particolare fornitore o il tuo responsabile si esprime per iscritto, né riescono a determinare cosa potrebbe motivare uno specifico destinatario.

I testi generati da modelli LLM sono spesso generici e non catturano i sentimenti dei corrispondenti. Inoltre, questi modelli non vengono alimentati con notizie d’attualità, il che limita la loro capacità di creare esche di phishing tempestive. Di conseguenza, questi modelli pubblici non sono ancora sufficientemente sofisticati per impersonare in modo convincente la tua rete di contatti professionali.

Inoltre, nonostante il miglioramento della grammatica delle email di phishing generate dall'intelligenza artificiale rispetto ai messaggi scritti da persone non anglofone, è improbabile che portino a un aumento significativo degli attacchi di spear-phishing.

figure 1

Figura 1. Email di spear-phishing generata dall’intelligenza artificiale che non rispecchia assolutamente il modo di scrivere del nostro CEO.

Il testo generato da questi modelli è solo un aspetto di un’email. Oltre al testo, le soluzioni di sicurezza email complete prendono in considerazione molteplici fattori, come URL pericolosi, allegati dannosi e modelli di comunicazione insoliti. È importante notare che sistemi come quelli ChatGPT sono in grado di generare solo il testo delle email (ed eventualmente la formattazione HTML), ma non di inviare email complete dall’infrastruttura violata.

L’utilizzo del protocollo DMARC per l’autenticazione del mittente rimane uno strumento efficace per contrastare i tentativi di furto d’identità. Per una comprensione più approfondita di come migliorare il rilevamento a partire da diversi elementi di un'email, guarda il nostro webinar dedicato a intelligenza artificiale e machine learning nella nostra pipeline di rilevamento. Proofpoint si conferma una protezione formidabile contro le minacce di phishing generate dall’intelligenza artificiale.

Utilizzo dei modelli trasformatori da parte di Proofpoint

La “T” di ChatGPT (così come quella di BERT e altri) sta per “transformer” o trasformatore. Questi modelli di machine learning sono progettati specificamente per l'elaborazione del linguaggio e del testo. Proofpoint utilizza questi tipi di modelli insieme a molti altri. Ecco alcuni esempi dell’utilità di questi modelli.

Proofpoint utilizza da alcuni anni modelli trasformatori nei propri prodotti e li ha resi accessibili grazie a servizi gratuiti come ChatGPT. Senza addentrarci troppo nei dettagli tecnici, è importante notare che i modelli trasformatori possono gestire sequenze di input di diverse lunghezze e rappresentare accuratamente le intricate relazioni tra le parole di una sequenza.

In questo contesto, vediamo alcuni esempi di come i trasformatori sono stati integrati nelle soluzioni Proofpoint.

Per migliorare le nostre valutazioni dei rischi legati ai collaboratori, abbiamo creato un classificatore di mansione che si collega ad Active Directory per comprendere il ruolo e l'anzianità di servizio di un collaboratore. Poiché i titoli delle mansioni in Active Directory tendono a essere brevi, l'uso dei trasformatori potrebbe sembrare superflua. Tuttavia, i trasformatori consentono al classificatore di sfruttare la posizione e il contesto dei componenti della mansione. Ad esempio, un “manager” avrà funzioni diverse a seconda che sia “product manager” o “marketing manager”.

I trasformatori possono gestire testi di varia lunghezza, da titoli professionali a intere email. Sono particolarmente adatti all'elaborazione delle email perché possono gestire in modo efficiente sequenze di lunghezza variabile e catturare le relazioni complesse tra le parole della sequenza. Questo li rende ideali per l'elaborazione delle strutture complesse e diversificate delle email a testo libero.

Proofpoint utilizza i modelli trasformatori per creare potenti soluzioni di sicurezza dell’email che identificano e neutralizzano efficacemente un’ampia gamma di minacce, tra cui phishing, malware e spam. Abbiamo integrato un modello di questo tipo è integrato nella soluzione Proofpoint Closed-Loop Email Analysis and Response (CLEAR). Proofpoint CLEAR permette agli utenti di segnalare le email di phishing con un singolo clic e automatizza gran parte delle attività di risposta del centro per le operazioni di sicurezza (SOC, Security Operations Center). Tuttavia, non tutte le email segnalate dagli utenti sono email di phishing. Per questo motivo Proofpoint utilizza un modello derivato da BERT per identificare, a partire dal testo del messaggio e altri indicatori, le email apparentemente innocue al fine di ridurre il carico di lavoro del SOC.

Proofpoint utilizza i trasformatori per migliorare le attività NLP e ha anche creato nuovi modelli per elaborare in modo più efficiente il linguaggio del malware. Un esempio in tal senso è lo strumento CampDisco, utilizzato per il rilevamento delle campagne di malware. Gli LLM, come BERT e GPT, hanno rivoluzionato l’elaborazione del linguaggio naturale, ma si basano su modelli rigidi di analizzatori lessicali (tokenizer). Utilizzando un tokenizer personalizzato per le indagini forensi sul malware, abbiamo creato una rete neurale più piccola e più performante che raggruppa in modo accurato le campagne di malware.

Lo strumento CampDisco implementa anche un principio caro a Proofpoint, ovvero che analisi umana e machine learning funzionano meglio insieme. Il team di ricerca sulle minacce di Proofpoint utilizza CampDisco per meglio comprendere il panorama delle minacce e ridurre i tempi di rilevamento.

figure 2

Figura 2. Esempio che illustra il tokenizer personalizzato CampDisco in azione.

Implementazione di un machine learning solido su grande scala

Proofpoint utilizza il machine learning a tutti i livelli delle sue soluzioni. In quanto azienda basata sui dati, il suo approccio è quello di sviluppare soluzioni innovative per proteggere i suoi clienti da un panorama di minacce in costante evoluzione. I modelli trasformatori sono solo un aspetto del nostro arsenale di strumenti di machine learning, ma i principi che ne determinano il successo sono simili in tutti i nostri sistemi.

Per ottenere risultati di prim’ordine, è essenziale dotarsi di modelli potenti in grado di elaborare grandi quantità di dati in modo efficiente. Inoltre, è essenziale addestrare modelli con dati rilevanti per identificare con precisione le minacce e a distinguere tra attività innocue e dannose. Questi dati devono anche essere costantemente aggiornati per tenere il passo del panorama delle minacce in costante evoluzione.

Sono inoltre essenziali processi operativi solidi per implementare e mantenere con successo questi modelli su larga scala. Sono inclusi il monitoraggio delle prestazioni dei modelli, la convalida della qualità dei dati utilizzati e il continuo perfezionamento dei modelli per garantirne l'accuratezza e l'efficacia. I nostri esperti di machine learning vantano anni di esperienza e una profonda conoscenza di questi fattori critici di successo, che consentono a Proofpoint di offrire soluzioni innovative ed efficaci ai suoi clienti.

Modelli

I modelli di machine learning sono ala base di ogni programma di elaborazione dei dati e molti sono disponibili in open source. Tuttavia, ciò che contraddistingue un team di elaborazione dati esperto da uno alle prime armi è la capacità di comprendere quando e come utilizzare questi modelli.

Un team esperto ha una conoscenza approfondita delle differenti architetture di modelli e dei loro punti di forza e debolezza. Sanno quando utilizzare un particolare modello per risolvere un problema specifico e come ottenere il massimo valore dai dati utilizzando il modello corretto. Sono anche abili nell’adattare i modelli ai requisiti unici di un particolare caso d’uso, il che può migliorare notevolmente le prestazioni del modello utilizzato.

Oltre ai nostri programmi di ricerca interni, i nostri esperti di machine learning collaborano con le università per far progredire lo stato delle conoscenze nel campo del machine learning. Questi programmi universitari sviluppano architetture di modelli su set di dati pubblici, che i nostri data scienti integrano nei sistemi Proofpoint.

Il team di esperti di machine learning di Proofpoint vanta una grande esperienza in diversi settori. La combinazione delle loro competenze ed esperienze ci permette di offrire soluzioni personalizzate di elevata qualità ai nostri clienti. Sfruttiamo le competenze del nostro team in materia di machine learning per sfruttare al meglio i dati e produrre risultati che soddisfino le esigenze di ogni progetto.

Dati

Dati di elevata qualità sono fondamentali per elaborare e implementare modelli di machine learning efficaci. La qualità dei dati utilizzati per l’apprendimento ha un enorme impatto sull’accuratezza e le prestazioni complessive del modulo risultante. La vasta rete di clienti di Proofpoint e il posizionamento avanzato delle sue soluzioni rispetto alla concorrenza rendono i suoi set di dati senza rivali nel settore della sicurezza informatica. In qualità di fornitore leader di soluzioni di sicurezza informatica, Proofpoint protegge molte delle più grandi aziende del mondo ed elabora miliardi di email e decine di miliardi di URL ogni giorno, raccogliendo informazioni dettagliate in tempo reale sulle ultime minacce e tendenze nel panorama della sicurezza informatica.

Utilizziamo questi dati per addestrare i nostri modelli di machine learning e assicurarci che siano sempre aggiornati con le informazioni più recenti sulle minacce emergenti. Così facendo, i nostri modelli sono in grado di identificare e mitigare le minacce in modo più efficace, consentendoci di offrire una miglior protezione complessiva a tutti i nostri clienti. Grazie a questa visione d’insieme, combinata un team di esperti di machine learning e ricercatori sulle minacce, contraddistingue Proofpoint dalle altre aziende del settore e offre ai nostri clienti una soluzione di sicurezza informatica realmente completa.

figure 3

Figura 3. Esempio di set di dati utilizzati dal machine learning di Proofpoint.

Processo

Tuttavia, non è sufficiente disporre di dati di qualità. Si tratta di poterli utilizzare per creare modelli di machine learning all'avanguardia. Il processo relativo al machine learning di Proofpoint è un altro fattore chiave per il successo del machine learning su larga scala. Si tratta essenzialmente di fornire risposte adeguate alle seguenti domande:

  • Quanto tempo occorre per addestrare e implementare nuovi modelli?
  • Con quale frequenza vengono messi in produzione nuovi modelli?
  • I nostri processi come supportano il rilevamento di nuovi attacchi tramite machine learning?

Per rispondere a queste domande (e alle loro numerose varianti), Proofpoint ha implementato un ciclo di miglioramento continuo. I nostri data scientist, i ricercatori sulle minacce e i team delle relazioni con i clienti identificano le opportunità d’implementazione di nuovi modelli o miglioramenti da apportare ai sistemi esistenti. Assicuriamo poi l’affidabilità dei nostri dati di apprendimento grazie al lavoro congiunto di esperti umani in etichettatura e della funzione di etichettatura automatica di Proofpoint Aegis, la nostra piattaforma di protezione contro le minacce.

Dopodiché, possiamo addestrare il modello attraverso pipeline automatiche e poi convalidarlo. I criteri di successo dipendono dal caso d’uso del modello. Per esempio, se il modello ha il compito di identificare URL potenzialmente pericolosi per l’analisi predittiva, possiamo dare priorità al riesame di tutte le minacce, con il rischio di eseguire anali non necessarie. D’altra parte, se il modello è stato progettato per bloccare un’email, potrebbe essere necessaria un grado più elevato di fiducia nella previsione.

Una volta convalidato il nuovo modello, possiamo implementarlo con un semplice clic. L’orchestrazione di questo processo è nota come “MLOps” (Machine Learning Operations).

blog graphic

Figura 4. Panoramica del ciclo di vita MLOps di Proofpoint.

La nostra piattaforma MLOps semplificata ottimizza il percorso di produzione e massimizza l’impatto dei nostri collaboratori. Abbiamo sistematizzato questo processo con una serie di schemi comuni volti ad accelerare il lancio di nuovi modelli. Con un carico di lavoro limitato, possiamo concretizzare rapidamente il valore delle nostre innovazioni a favore dei nostri clienti. Questo processo apre la strada a un machine learning su larga scala e Proofpoint è stata invitata a condividere le sue best practice MLOps all'evento AWS re:Invent.

Il processo operativo per mobilitare i dati e migliorare costantemente i modelli è ciò che contraddistingue i team di machine learning di alto livello. In Proofpoint, combiniamo l’esperienza umana con il machine learning in materia di rilevamento delle minacce e creiamo anche sistemi di protezione delle informazioni più efficaci inserendo esperti umani nel ciclo di sviluppo delle nostre soluzioni di classificazione dei dati.

Unisciti al team Proofpoint

Se sei interessato a creare modelli di machine learning all’avanguardia e a combattere il crimine informatico, unisciti al team Proofpoint. In Proofpoint, gli ingegneri e i ricercatori in ambito machine learning collaborano con università come Harvey Mudd College, Duke University e Washington State University per sviluppare soluzioni innovative in risposta a problemi complessi. Grazie a dati di eccezionale qualità, a processi e strumenti all'avanguardia e a un team di esperti, Proofpoint è in una posizione unica per mettere in pratica il machine learning.

Se sei interessato a saperne di più sulle opportunità di lavoro in Proofpoint, visita questa pagina.