Nutzung von Machine Learning bei Proofpoint Aegis

Share with your network!

Seit dem Aufkommen Transformer-basierter Modelle für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), großer Sprachmodelle (Large Language Models, LLMs) und generativer Modelle sind erweiterte ML-Systeme (Machine Learning) über Tools wie ChatGPT für alle Internetnutzer zugänglich. Leider können diese Modelle auch von böswillige Akteuren missbraucht werden, um überzeugende Phishing-E-Mails zu erstellen.

In diesem Blog-Beitrag erklären wir, wie Proofpoint vor Phishing-Bedrohungen schützt, die mithilfe von künstlicher Intelligenz (KI) generiert wurden, und in allen Erkennungssystemen hochentwickelte ML-Modelle einsetzt.

Schutz vor KI-generierten Phishing-Bedrohungen

Alle Internetnutzer können heute von aktuellen Entwicklungen bei KI, ML und NLP profitieren, beispielsweise von ChatGPT.

Auch wenn einige Bedrohungsakteure mittlerweile Systeme wie ChatGPT zum Verfassen von Phishing-E-Mails nutzen, können diese Modelle lediglich Text produzieren. Einige Empfänger klicken eher auf Links in KI-generierten Phishing-E-Mails als in Nachrichten, die von Menschen geschrieben wurden. Ein Grund für diese größere Bereitschaft könnte der Stil der geschriebenen Texte sein. Die Modelle können professionell wirkende, grammatikalisch korrekte englische Geschäftssprache produzieren, was den Text vertrauenswürdiger erscheinen lässt. Das steht im krassen Gegensatz zu typischen Phishing-E-Mails mit ihrer schiefen Grammatik und seltsamen Ausdrucksweise.

Vereinzelt wurden Sorgen laut, dass generative Modelle äußerst gezielte Phishing-E-Mails schreiben könnten, doch diese Bedrohung wird überschätzt. Obwohl diese Modelle sich zu fast jedem Thema salbungsvoll äußern können, verstehen sie bislang noch nicht, wie ein konkreter Anbieter oder Ihr Vorgesetzter schreibt. Ebenso haben diese Modelle keine Ahnung, was einen bestimmten Empfänger motivieren würde.

Der von großen Sprachmodellen generierte Text ist meist generisch und kann das persönliche Gefühl vertrauter Gesprächspartner nicht imitieren. Hinzu kommt, dass diese Modelle nicht mit aktuellen Ereignissen trainiert werden, was ihre Möglichkeiten zur Erstellung aktueller Phishing-Köder einschränkt. Dadurch sind diese öffentlich verfügbaren Modelle noch nicht weit genug entwickelt, um Ihr berufliches soziales Netzwerk überzeugend zu imitieren.

Doch obwohl KI-generierte Phishing-E-Mails bessere Grammatik anwenden als solche, die nicht von Englisch-Muttersprachlern verfasst wurden, werden sie wohl kaum zu einer deutlichen Zunahme erfolgreicher Spearphishing-Angriffe beitragen.

figure 1

Abb. 1: Eine generierte Spearphishing-Nachricht, die nicht nach unserem CEO klingt.

Der von diesen Modellen generierte Text ist nur ein Aspekt einer E-Mail-Nachricht. Umfassende E-Mail-Sicherheitslösungen berücksichtigen neben dem E-Mail-Text noch verschiedene weitere Faktoren, z. B. riskante URLs, schädliche Anhänge und ungewöhnliche Kommunikationsmuster. Bedenken Sie, dass Systeme wie ChatGPT nur E-Mail-Text und vielleicht HTML-Formatierung generieren können. Es ist ihnen nicht möglich, vollständige E-Mails von einer nachgeahmten Infrastruktur zu versenden.

Die Nutzung von DMARC zur Absender-Authentifizierung ist auch weiterhin ein effektives Tool zur Abwehr von Nachahmungsversuchen. Um besser zu verstehen, wie unterschiedliche Elemente einer E-Mail zur verbesserten Erkennung beitragen können, sehen Sie sich unser Webinar zu KI und ML in unserer Erkennungspipeline an. Proofpoint bietet auch weiterhin zuverlässigen Schutz vor KI-generierten Phishing-Bedrohungen.

Nutzung von Transformer-Modellen bei Proofpoint

Das „T“ in ChatGPT (und bei BERT sowie anderen Kürzeln) steht für „Transformer“. Diese ML-Modelle sind für die Verarbeitung von Sprache und Text maßgeschneidert und spezialisiert. Bei Proofpoint nutzen wir diese parallel zu weiteren Modellen. Es ist sinnvoll, einige Beispiele dafür zu zeigen, wo sich diese Modelle als nützlich erwiesen haben.

Während Transformer-basierte Modelle durch kostenlose Dienste wie ChatGPT mittlerweile öffentlich verfügbar wurden, nutzen wir bei Proofpoint solche Modelle schon seit Jahren in unseren Produkten. Ohne allzu tief in die technischen Details eintauchen zu wollen, ist der Hinweis wichtig, dass Transformer-Modelle Eingabesequenzen mit verschiedenen Längen verarbeiten und die komplexen Beziehungen zwischen Wörtern in einer Sequenz zuverlässig abbilden können.

Mit diesem Kontext sehen wir uns nun an, wie wir bei Proofpoint Transformer in unsere Produkte integrieren.

Für zuverlässigere Mitarbeiter-Risikoanalysen haben wir einen Titel-Klassifizierer (Title Classifier) entwickelt, der sich mit Active Directory verbindet und auf diese Weise die Position und den Dienstgrad von Mitarbeitern ermittelt. Da Verzeichnistitel meist recht kurz sind, erscheint der Einsatz von Transformern unnötig. Sie ermöglichen es jedoch dem Titel-Klassifizierer, die Position und den Kontexts von Titelkomponenten zu verwenden. Beispielsweise hat „Manager“ im Titel „Produkt-Manager“ eine andere Funktion als in „Manager, Marketing“.

Transformer können Text mit unterschiedlicher Länge analysieren, von Positionen bis hin zu kompletten E-Mails. Tatsächlich eignen sie sich sogar besonders gut zur Analyse von E-Mails, da sie effektiv Sequenzen mit variabler Länge erfassen und die komplexen Beziehungen zwischen den Wörtern in der Sequenz erkennen können. Dadurch sind sie ideal für die Verarbeitung der komplexen und vielseitigen Strukturen in normalem E-Mail-Text geeignet.

Proofpoint setzt Transformer-Modelle in unseren hochentwickelten E-Mail-Sicherheitsprodukten ein, um verschiedene Bedrohungstypen wie Phishing, Malware und Spam effektiv identifizieren und abwehren zu können. Eines dieser Modelle ist in unser Produkt Closed-Loop Email Analysis and Response (CLEAR) integriert. Mit CLEAR können Anwender Phishing-E-Mails mit einem einzigen Klick melden. Gleichzeitig wird ein Großteil der Reaktionsmaßnahmen im SOC (Security Operations Center) automatisiert. Nicht bei allen von Anwendern gemeldeten E-Mails handelt es sich um Phishing. Daher nutzt Proofpoint ein von BERT abgeleitetes Modell, das den Nachrichtentext und weitere Indikatoren berücksichtigt, um wahrscheinlich harmlose E-Mails auszusieben und das SOC-Team zu entlasten.

Proofpoint nutzt Transformer zur Optimierung der Verarbeitung natürlicher Sprache. Zudem haben wir neue Modelle erstellt, um die Sprache der Malware besser verarbeiten zu können. Ein Beispiel dafür ist CampDisco, ein Tool zur Erkennung von Kampagnen. Obwohl große Sprachmodelle wie BERT und GPT eine Revolution für die Verarbeitung natürlicher Sprache darstellen, nutzen sie unflexible Tokenizer-Modelle. Mithilfe eines eigens erstellten Tokenizers für die Malware-Forensik haben wir ein kleineres und leistungsstärkeres neuronales Netzwerk entwickelt, das Malware-Kampagnen zuverlässig clustert.

CampDisco bestätigt auch einen ML-Grundsatz bei Proofpoint: Mensch und Maschine lernen gemeinsam besser. Dieses Tool des Proofpoint-Bedrohungsforscherteams verbessert das Verständnis der Bedrohungslandschaft und beschleunigt die Erkennung.

figure 2

Abb. 2: Ein Beispiel für den von Proofpoint erstellten CampDisco-Tokenizer in Aktion.

Entwicklung von zuverlässigem ML für den Großeinsatz

Proofpoint nutzt ML in allen Aspekten unserer Produkte. Als datenzentriertes Unternehmen sind wir stets auf der Suche nach innovativen Lösungen zum Schutz unserer Kunden vor der dynamischen Bedrohungslandschaft. Transformer-Modelle sind nur ein Aspekt unseres ML-Arsenals, doch die Prinzipien hinter ihrem Erfolg sind die gleichen wie bei allen unseren Systemen.

Um branchenführende Ergebnisse zu erreichen, sind leistungsstarke Modelle notwendig, die enorme Datenmengen effizient und effektiv verarbeiten können. Außerdem sind für das Training von Modellen relevante Daten unverzichtbar, um Bedrohungen zuverlässig zu identifizieren und zwischen zulässigen und schädlichen Aktivitäten zu unterscheiden. Diese Daten müssen kontinuierlich aktualisiert werden, um mit der dynamischen Bedrohungslandschaft Schritt zu halten.

Doch für die erfolgreiche Bereitstellung und Nutzung dieser Modelle in großem Maßstab sind auch robuste Betriebsprozesse wichtig. Diese umfassen die Überwachung der Modell-Performance, die Validierung der Datenqualität sowie die kontinuierliche Optimierung der Modelle, um Genauigkeit und Effektivität zu gewährleisten. Unsere ML-Experten verfügen über jahrelange Erfahrung und ein tiefgreifendes Verständnis dieser wichtigen Erfolgsfaktoren, sodass Proofpoint innovative und effektive Lösungen für unsere Kunden bereitstellen kann.

Modelle

ML-Modelle sind die Grundlage eines jeden Data-Science-Programms, zudem sind sie in freien und Open-Source-Implementierungen verfügbar. Ein erfahrenes Datenwissenschaftler-Team zeichnet sich jedoch dadurch aus, dass es versteht, wann und wie diese verfügbaren Modelle eingesetzt werden.

Es kennt die unterschiedlichen Modellarchitekturen sowie ihre Stärken und Schwächen genau und weiß, wann ein bestimmtes Modell für ein konkretes Problem genutzt werden kann und die richtige Wahl für die vorhandenen Daten ist. Ein solches Team beherrscht auch die Anpassung von Modellen für die individuellen Anforderungen eines spezifischen Anwendungsszenarios und kann so die Leistung des Modells erheblich verbessern.

Abgesehen von unseren internen Forschungsprogrammen arbeiten unsere Machine Learning-Teams mit Universitäten zusammen, um den Stand der Technik beim Machine Learning voranzutreiben. Im Rahmen dieser Universitätsprogramme werden Modellarchitekturen auf Grundlage öffentlicher Datensätze entwickelt und von unseren Datenwissenschaftlern in Proofpoint-Systeme integriert.

Unser ML-Expertenteam bei Proofpoint verfügt über enorme Erfahrung in verschiedenen Gebieten. Dank dieser kombinierten Expertise und Kompetenz können wir unseren Kunden hochwertige und individuell angepasste Lösungen bereitstellen. Dabei zieht unser ML-Team den maximalen Nutzen aus Daten und liefert bei jedem Projekt die angestrebten Ergebnisse.

Daten

Hochwertige Daten sind für die Entwicklung und den Einsatz effektiver ML-Modelle unverzichtbar. Die Qualität der Trainingsdaten hat große Auswirkungen auf die Genauigkeit und allgemeine Leistung des letztendlichen Modells. Dank unseres umfangreichen Kundennetzwerks und der Upstream-Position gegenüber anderen Produkten stehen die Proofpoint-Datensätze im Sicherheitsbereich unangefochten an der Spitze. Als ein führender Anbieter von Sicherheitslösungen schützt Proofpoint viele der weltweit größten Unternehmen und verarbeitet Milliarden von E-Mails sowie dutzende Milliarden an URLs pro Tag. Dadurch erhalten wir unmittelbare Erkenntnisse zu den neuesten Bedrohungen und Trends im Cybersicherheitsbereich.

Anhand dieser Daten trainieren wir unsere ML-Modelle und achten darauf, dass sie stets mit aktuellen Informationen über neue Bedrohungen auf dem neuesten Stand gehalten werden. Deshalb können unsere Modelle Bedrohungen effektiver identifizieren und abwehren, was den Schutz für alle unsere Kunden verbessert. Zusammen mit unserem Team aus ML-Experten und Bedrohungsforschern ist dieser Überblick der Grund, warum Proofpoint eine Spitzenposition in der Branche einnimmt und unseren Kunden eine wirklich umfassende Sicherheitslösung bereitstellt.

figure 3

Abb. 3: Beispiel für die Datensätze, die in das Machine Learning bei Proofpoint einfließen.

Prozesse

Es genügt jedoch nicht, einfach nur über die Daten zu verfügen. Selbst hervorragende Daten müssen mobilisiert werden, um hervorragende ML-Modelle zu erhalten. Die ML-bezogenen Prozesse bei Proofpoint sind ein weiterer Erfolgsfaktor für den Großeinsatz von Machine Learning. Letztendlich geht es darum, gute Lösungen für die folgenden Probleme (oder Fragen) zu bekommen:

  • Wie schnell können wir neue Modelle trainieren und einsetzen?
  • Wie häufig werden neue Modelle in den Produktiveinsatz gebracht?
  • Wie gut unterstützen unsere Prozesse die ML-basierte Erkennung neuartiger Angriffe?

Um diese Fragen (und ihre zahlreichen Varianten) zu beantworten, hat Proofpoint einen permanenten Verbesserungszyklus implementiert. Unsere Datenwissenschaftler, Bedrohungsforscher und Teams mit Kundenkontakt identifizieren Einsatzmöglichkeiten für neue Modelle oder Verbesserungen für bestehende Systeme. Anschließend stellen wir sicher, dass wir über „grundlegende Fakten“ für unsere Trainingsdaten verfügen. Dazu nutzen wir eine Kombination aus erfahrenen Experten für Datenklassifizierung und automatisierten Kennzeichnungen durch die Proofpoint Aegis Threat Protection-Plattform.

Anschließend können wir das Modell mit automatisierten Pipelines trainieren und die Ergebnisse validieren. Die Erfolgskriterien hängen vom jeweiligen Anwendungsszenario des Modells ab. Wenn das Modell beispielsweise potenziell riskante URLs identifiziert, die präventiv gescannt werden sollen, können wir der Neubewertung aller Bedrohungen Priorität einräumen, auch wenn das zu unnötigen Scans führen kann. Wenn das Modell jedoch schädliche E-Mails blockieren soll, könnte ein höherer Konfidenzwert für die Prognose erforderlich sein.

Sobald wir das neue Modell validiert haben, können wir es per Knopfdruck bereitstellen. Die Koordinierung dieses Prozesses wird als „Machine Learning Operations“ oder MLOps bezeichnet.

blog graphic

Abb. 4: Überblick über einen MLOps-Zyklus bei Proofpoint.

Unsere optimierte MLOps-Plattform vereinfacht den Weg zum Produktiveinsatz und gewährleistet, dass unsere erfahrenen Mitarbeiter maximal zum Erfolg beitragen können. Wir haben diesen Prozess mit einem Satz typischer Muster systematisiert und dadurch die Einführung neuer Modelle beschleunigt. Auf diese Weise können wir mit minimalem Aufwand sicherstellen, dass unsere Kunden so schnell wie möglich von den Vorteilen von Innovationen profitieren. Dieser Prozess setzt neue Maßstäbe für den Großeinsatz von ML. Daher wurde Proofpoint gebeten, unsere Best Practices bei MLOps auf der AWS re:Invent vorzustellen.

Weltklasse-Teams zeichnen sich durch ihre Betriebsprozesse zur Mobilisierung von Daten sowie die kontinuierliche Verbesserung ihrer Modelle aus. Bei Proofpoint verbinden wir nicht nur Expertenwissen und Machine Learning zur Bedrohungserkennung, sondern entwickeln auch bessere Informationsschutzsysteme, die menschliche Intelligenz in unsere Datenklassifizierungsprodukte einbindet.

Werden Sie Teil unseres Teams

Wenn Sie es spannend finden, führende ML-Modelle für die Abwehr von Cyberkriminalität zu entwickeln, sind Sie im Proofpoint-Team richtig. Bei Proofpoint arbeiten ML-Entwickler und -Forscher gemeinsam mit Universitäten wie Harvey Mudd College, Duke University und Washington State University an innovativen Lösungen für komplexe Probleme. Mit hochwertigen Daten, erstklassigen Prozessen und Tools sowie Expertenteams ist Proofpoint der ideale Arbeitsplatz für die Arbeit mit Machine Learning.

Weitere Informationen über die Karrieremöglichkeiten bei Proofpoint finden Sie auf dieser Seite.