Was ist Data Labeling?

Data Labeling, auch Data Tagging genannt, ist der Prozess, mit dem unterschiedliche Datenpunkte mit Informationen gekennzeichnet werden, damit Machine-Learning-Algorithmen deren Bedeutung besser verstehen können. Mithilfe von Data Labeling werden Machine-Learning-Modelle trainiert, damit der Output von Computersystemen möglichst genau ist und für Analyse- und Geschäftsentscheidungen herangezogen werden kann.

Unterschiede zwischen Data Labeling und Datenannotation

Data Labeling und Datenannotation sind sich ähnlich, verfolgen aber unterschiedliche Zwecke. Beide Begriffe werden in bestimmten Kontexten synonym verwendet, aber sie bezeichnen nicht den gleichen Prozess. Ein Machine-Learning-Modell mit Daten zu füttern, reicht allein nicht aus, damit der Computer versteht, wie er sie analysieren und verarbeiten soll. Annotationen und Labels beschreiben die Daten, damit die Algorithmen sich aus ihnen einen Reim machen können.

Annotationen sind im Machine Learning Metadaten, die Daten beschreiben. Machine Learning nutzt große Mengen unstrukturierter Daten, um aussagekräftige Informationen zu generieren, und Annotationen sind die Input-Informationen, die Computerprozesse dafür nutzen. Ein Bild mit verschiedenen Elementen kann beispielsweise mit Annotationen versehen werden, um identifizierbare Objekte im Bild zu benennen, damit Algorithmen dieselben Elemente in Zukunft in anderen Bildern verstehen und wiederfinden können.

Labeling ist ähnlich, aber hier geht es um die Definition von Datentypen. Der Input für einen Algorithmus kann Text oder Bild sein, aber ein Computersystem versteht den Unterschied zwischen verschiedenen Typen von Inputs nicht, wenn man es ihm nicht beibringt. Data Labeling versieht beide Input-Typen mit einem Label, damit Algorithmen beide voneinander unterscheiden und sie nutzen können, um Muster zu etablieren. Bei einem Bild teilt Data Labeling dem Algorithmus mit, welche Typen an Daten vorhanden sind, z.B. ein Mensch oder ein Tier. Dies ist insbesondere bei Natural Language Processing (NLP) wichtig, um Algorithmen zu helfen, verschiedene Aspekte menschlicher Kommunikation zu verstehen, einschließlich gesprochener Wörter, Akzente und Dialekte.

Wofür wird Data Labeling genutzt?

Data Labeling kommt in mehreren Computeranwendungen zum Einsatz. Für NLP, computergestütztes Sehen und Spracherkennung ist es eine notwendige Voraussetzung. Doch auch wenn es primär für diese drei Anwendungen genutzt wird, kommt Data Labeling auch in kleineren proprietären Anwendungen für Unternehmens-Analytics und Verbraucherprodukte vor.

Beim computergestützten Sehen hilft Data Labeling den Algorithmen dabei, Objekte innerhalb eines Bildes zu erkennen. Nutzer geben Text ein, um eine Bildersuche zu beschreiben, und Data Labeling hilft den Algorithmen, Elemente eines Bildes zu identifizieren, damit sie relevante Ergebnisse liefern können. Computergestütztes Sehen nutzt Labels und Annotationen, um Objekte in Bildern genau zu lokalisieren.

Elemente von Sätzen oder Wörtern bei NLP zu labeln hilft Algorithmen, Nuancen in der Art und Weise zu identifizieren, wie Menschen miteinander kommunizieren. Mit Labels versehener Text ermöglicht es NLP-Algorithmen, spezielle Zeichen zu erkennen und die gleichen informellen Redewendungen und Sätze wie Menschen mit spezifischen Dialekten oder Akzenten zu verwenden. Unternehmen verwenden Labels für Spamerkennung, Chatbots und virtuelle Assistenten.

Spracherkennung ist notwendig für Produkte, die aus einem Sprach-Input einen Text-Output machen oder eine bestimmte Handlung ausführen. Transkriptionsanwendungen nutzen Labels, um Video-Input zu verstehen und daraus Text zu generieren, oder den sprachlichen Input eines Nutzers bei einem Haushaltsautomatisierungssystem zu verstehen, um daraufhin eine bestimmte Handlung auszuführen.

Wie funktioniert Data Labeling?

Machine Learning nutzt überwachte oder unüberwachte Modelle. Data Labeling ist eine Komponente überwachten Maschinenlernens – die zurzeit am häufigsten genutzte Variante. In überwachten Modellen wird Input gelabelt und einem Output zugewiesen. Menschen definieren die Labels, die auf die Daten anzuwenden sind, weshalb überwachte Modelle menschlichen Input benötigen.

Den Algorithmen werden gelabelte Modelle gefüttert und der Output anschließend überprüft. Wenn der Output nicht den Erwartungen entspricht, werden die Labels überprüft und womöglich geändert, um den Algorithmen einen anderen Input zu geben und damit wiederum einen anderen Output zu erhalten. Machine Learning ist in hohem Maße abhängig von der Genauigkeit der menschengemachten Labels für die Analyse und einen akkuraten Output.

Zum Beispiel kann eine Machine-Learning-Anwendung dazu da sein, Autos in tausenden Bildern zu identifizieren. Menschen gehen jedes Bild durch und legen fest, welche von ihnen Autos abbilden und labeln diese entsprechend. Machine-Learning-Algorithmen bekommen die gleichen Bilder als Input (mit Labels) und identifizieren auf dieser Basis Muster, mit deren Hilfe sie später selbst Autos erkennen können. Die Genauigkeit des Ouputs basiert auf der Genauigkeit des Data-Labeling-Prozesses.

Data-Labeling-Methoden

Datenwissenschaftler gehen den Data-Labeling-Prozess auf fünf unterschiedliche Arten an. Jeder Ansatz hat seine Vor- und Nachteile, aber die meisten Wissenschaftler haben je nach Anwendung eine bevorzugte Methode zum Labeln von Daten. Die meisten Machine-Learning-Anwendungen nutzen tausende (potenziell Millionen) Datenpunkte, weshalb der Prozess des Data Labeling mühsam und zeitaufwändig ist. Es muss jedoch richtig gemacht werden, damit der Output genau wird, weshalb der Data-Labeling-Prozess unbedingt sorgfältig durchgeführt werden muss.

Welcher Ansatz zur Anwendung kommt, ist bestimmt durch die Komplexität und Größe des Projekts. Die fünf Methoden zum Labeln von Daten sind:

  • In-House: Diese Methode eignet sich für Organisationen mit einem bereits vorhandenen Team an Datenwissenschaftlern, die die Daten labeln. Dabei handelt es sich gleichzeitig um den günstigsten Ansatz, weil die Mitarbeiter bereits angestellt und mit dem Labeln vertraut sind. In-House-Wissenschaftler sind meist effizienter und können direkt mit dem Labeling-Prozess arbeiten, um die Funktionalität zu verbessern. Jedoch hat nicht jedes Unternehmen das Budget, Datenwissenschaftler intern anzustellen.
  • Outsourcing: Für Organisationen, die nicht über ein dezidiertes Data-Science-Team verfügen, ist Outsourcing an eine dritte Partei eine Option. Datenwissenschaftler, die als unabhängige Dienstleister agieren, helfen Ihrem Unternehmen beim Labeln der Daten und setzen damit einen Prozess in Gang, den Sie intern nicht stemmen könnten. Organisationen können hierfür ein temporäres Team aufbauen, deren Mitarbeiter unabhängig und als Fremddienstleister arbeiten, wodurch es keine langfristige Verpflichtung gibt. Der Nachteil dieser Methode ist, dass Sie Ihr temporäres Team in Ihre internen Prozesse einarbeiten müssen.
  • Crowdsourcing: Falls Sie jemals Bilder in einem CAPTCHA identifiziert haben, um zu verifizieren, dass sie ein Mensch sind, haben Sie bereits Bekanntschaft mit Crowdsourcing für Data Labeling gemacht. Mithilfe eines Systems, das potenziell tausende Menschen erreicht, kann sich eine Organisation das Internet zunutze machen, um Daten für Machine-Learning-Modelle zu labeln. Der Nachteil von Crowdsourcing ist Qualitätskontrolle. Es gibt zwar Plattformen, die Individuen für Crowdsourcing für Sie finden, aber die Qualität der Teilnehmenden variiert stark und es treten fast garantiert Fehler auf.
  • Synthetisch: Datenwissenschaftler nutzen synthetische Methoden, um computergenerierte „Fake-Daten“ mit für das Labeln von Daten notwendigen Eigenschaften zu erstellen, und generieren daraus „echte“ Daten. Generative Adversarial Networks (GDA) nutzen neuronale Netzwerke, die miteinander „wetteifern“, die besten Fake-Daten zu produzieren, sie mit echten Daten zu vergleichen und die Ergebnisse dann zu nutzen, um die richtigen Daten-Labels festzulegen. Labels werden auf Basis von bereits bestehenden Datensets erstellt, was sich in manchen Projekten als effizienter erweist. Der Nachteil dieser Methode ist, dass sie große Mengen an Computerressourcen erfordert, was sie zu einer eher teuren Option macht.
  • Programmiert: Dabei handelt es sich um das Labeln von Daten mithilfe benutzerdefinierter Skripte, die typischerweise von Wissenschaftlern für eine größere Genauigkeit und Effizienz geschrieben werden. Skripte sind normalerweise effizienter als Menschen beim Labeln und können genauer sein als Crowdsourcing, aber sie benötigen dennoch ein Qualitätssicherungssystem, um Fehler zu vermeiden.

Die Bedeutung von Data Labeling

Computer sind nur so schlau, wie Menschen sie programmieren. Ohne Datenlabel wären sie nicht zu Maschinenlernen und Künstlicher Intelligenz in der Lage, wie sie für moderne Anwendungen gebraucht werden. Data Labeling ist eine Komponente von überwachtem Lernen.

Der zeitaufwändigste Teil jedes Machine-Learning-Projekts ist das Aufbereiten der Daten. Die Effizienz und Genauigkeit des Aufbereitungsprozesses bestimmen die Genauigkeit der Ergebnisse. Verständlicherweise ist Data Labeling eines der kritischsten Bestandteile von Maschinenlernen, weil Fehler oder schlechte Label eine Anwendung unbrauchbar machen können. In extremen Situationen können Fehler katastrophale Konsequenzen haben, die den Fortbestand des Unternehmens oder die Gewinne beeinträchtigen.

Arten von Data Labeling

Während Data-Labeling-Methoden bestimmen, wie Ihre Organisation diese Funktion umsetzt, gibt es drei verschiedene Arten von Data Labeling, unter denen Wissenschaftler auswählen können.

Diese drei Arten von Data Labeling sind:

  • Computergestütztes Sehen: Maschinenlernen identifiziert Objekte in Bildern, aber Algorithmen brauchen Datenlabel, um diese Objekte zu finden. Data Label definieren die Art des Bilds (z.B. ein Reisefoto oder ein persönliches Foto) oder sie werden genutzt, um Objekte innerhalb des Bildes zu identifizieren. Ein Bild kann dutzende unterschiedliche Objekte enthalten, weshalb Sie sich Data Label vorstellen können wie Kästen um einzelne Objekte mit einem Text, der die Definition enthält. Nach dem Labeln der Bilder nimmt Machine Learning das Modell und nutzt es, um Bilder automatisch zu kategorisieren oder Objekte innerhalb von Bildern zu erkennen.
  • Natural Language Processing (NLP): Textanwendungen nutzen NLP-Label zum Erkennen von Wörtern oder Sätzen, die in menschlicher geschriebener Kommunikation vorkommen. NLP kann auch zusammen mit computergestütztem Sehen eingesetzt werden, um Text innerhalb eines Bilds zu erkennen. Machine Learning setzt NLP ein, um Text zu kategorisieren, Sprachen zu erkennen, Videos zu transkribieren und Intention zu bestimmen. Kundenservice-Anwendungen nutzen beispielsweise Chatboxen, um häufige Kundenfragen auf einer E-Commerce-Website zu beantworten.
  • Audioverarbeitung: Das Labeln von Audio transkribiert Sprachinhalte zu Text oder labelt bestimmte Geräusche innerhalb von Audio-Inhalten, um Geräusche wiedererkennen zu können. Getaggte Geräusche kommen häufig bei Spracherkennung vor oder bei Anwendungen, die Kontrolle über Dezibel brauchen (z.B. Alarmanlagen, die einen Einbruch anhand des Geräuschs von splitterndem Glas erkennen). Die Geräusche identifizierenden Tags fungieren als das Datenset, mit dem Machine-Learning-Algorithmen trainiert werden.

Vorteile von Data Labeling

Mit Data Labeling haben Sie die Kontrolle über den Output. Genaues Data Labeling bedeutet einen genauen Datenoutput. Wenn Organisationen jemanden brauchen, der Data Labeling für sie durchführt, ist es äußerst wichtig für den Erfolg des Maschinenlernprojekts, den richtigen Prozess dafür zu haben.

Zu den Vorteilen von Data Labeling gehören:

  • Genauigkeit der Daten: Die Methode für das Labeln von Daten beeinflusst unmittelbar die Genauigkeit der Ergebnisse.
  • Qualität: Data Labeling verbessert die Qualität Ihrer Machine-Learning-Anwendungen.
  • Bessere Ergebnisse: Bessere Ergebnisse bedeuten, dass die Nutzer Ihrer Anwendung effektiver beim Ausüben Ihrer Tätigkeiten sind.
  • Geschäftschancen auftun: Genaues Data Labeling zusammen mit Analytics hilft Unternehmen dabei, Chancen für neue Profite zu identifizieren.

Herausforderungen von Data Labeling

Wie jedes Datenprojekt bringt auch Data Labeling Herausforderungen mit sich. Unternehmen müssen in der Lage sein, diese Herausforderungen zu überwinden, um effektive Anwendungen mit genauen Ergebnissen zu erstellen.

Hier sind einige Herausforderungen bei Data-Labeling-Projekten:

  • Koordination von Labeling-Arbeitskräften: Insbesondere bei Crowdsourcing und Outsourcing müssen Unternehmen menschliche Labeler koordinieren, trainieren und Personal für die Qualitätssicherung einstellen, die die Ergebnisse kontrollieren.
  • Einhaltung einer konsistenten Qualität: Die Datensets, mit denen Modelle erstellt werden, müssen qualitativ hochwertige Daten enthalten, damit sie genaue Ergebnisse bringen. Datenwissenschaftler müssen sich die Zeit nehmen, die Datensets zu überprüfen, um sicherzugehen, dass sie die richtigen Daten für die Zielanwendung enthalten.
  • Finanzielle Kosten: Mehrere Methoden sind zwar kosteneffizient, aber Datenwissenschaftler und Analytics sind teuer, insbesondere wenn ein Unternehmen synthetische oder durch Programmierung generierte Daten verwendet.
  • Datenschutz: Bei den Daten, die für das Erstellen von Modellen zum Einsatz kommen, sollte es sich nicht um personenbezogene Daten handeln, die unter Compliance-Gesetzgebungen fallen. Die Daten sollten außerdem keinen Bias aufweisen und in Bezug auf die Ergebnisse objektiv sein.
  • Werkzeuge: Manche Data-Science-Tools sind teuer; das Gleiche gilt für Machine-Learning-Algorithmen, die ebenfalls kostspielig sein können.

Best Practices für Data Labeling

Um die besten Ergebnisse zu erzielen, sollten Ihre Datenwissenschaftler die Best Practices für Data Labeling befolgen. Hier sind einige Arten, wie Organisationen die Qualität der Ergebnisse und die Genauigkeit der Datenmodelle verbessern können:

  • Prüfen Sie, ob Machine Learning praktikabel ist: Nicht jedes Projekt sollte Machine Learning verwenden. Stellen Sie deshalb sicher, dass Machine Learning für Ihr Projekt auch wirklich am besten geeignet ist.
  • Nutzen Sie mindestens 5000 Datenpunkte: Tausende Datenpunkte sind notwendig, um ein gutes Datenmodell zu erstellen – Experten empfehlen mindestens 5000. Je mehr Datenpunkte, desto genauer.
  • Speichern Sie alle repräsentativen Daten: Sammeln und speichern Sie so viele Datenpunkte wie möglich, damit Sie auf sie zurückkommen können, sollten Änderungen oder Verbesserungen an Labels notwendig werden.
  • Speichern Sie alle konkreten verwandten Daten: Vielleicht möchten Sie irgendwann Ihre Anwendungen skalieren, sodass sie verwandte Analytics abdecken. Diese Daten zu speichern, wird die spätere Skalierung erleichtern.
  • Erstellen Sie Backups: Systemversagen kann ein Projekt ruinieren, aber wenn Sie Backups parat haben, wird die Wiederherstellung einfacher und günstiger.
  • Denken Sie an die Skalierung: Wenn das Unternehmen wächst, braucht es womöglich weitere Analytics oder veränderte Datenmodelle. Speichern Sie Daten für die zukünftige Nutzung.

Data Labeling und Cybersicherheit

Der Schutz von Daten sollte für jede Organisation Priorität haben, und Machine Learning kommt in der Cybersicherheitsindustrie zum Einsatz. Beide spielen eine Rolle bei sicheren und effektiven Machine-Learning-Analytics. Cybersicherheitsanwendungen, die sich Machine Learning zunutze machen, nutzen Datenlabel oft, um Viren und Malware zu identifizieren, verdächtige Traffic-Muster festzulegen, Benachrichtigungen über Anomalien bei einem Nutzeraccount auszulösen und Traffic auf verdächtige Egress- und Ingress-Datentransfers zu analysieren.

Data Labeling hilft Verbrauchern dabei, die richtigen IoT-Geräte auszuwählen. Zusammen mit IoT schafft Data Labeling physische Sicherheit in Privat- und Geschäftsräumen. Sicherheitskameras können beispielsweise Menschen in Echtzeitvideos erkennen, um zu identifizieren, ob eine Organisation gerade einen Einbruch erleidet.

Für die Sicherheit der Daten selbst ist es wichtig, Zugriffskontrollen beim Outsourcen und Crowdsourcen von Projekten einzusetzen. Bei einer großen, outgesourcten Arbeiterschaft kann sich die Gewährleistung der Cybersicherheit als schwierig erweisen, aber es ist dennoch wichtig, Daten vor Diebstahl zu schützen und Compliance einzuhalten. Jede Cloud-Tools sollten ebenfalls die gesetzlichen Vorgaben erfüllen und vor Datendiebstahl geschützt sein.

Anwendungsfälle

Data Labeling ist für überwachte Machine-Learning-Projekte notwendig, aber nicht jedes Machine-Learning-Projekt ist überwacht. Überwachtes Machine Learning hat für manche Anwendungen jedoch deutliche Vorteile.

Einige Anwendungsfälle sind:

  • In Projekten zum computergestützten Sehen wird Data Labeling für Deep-Learning-Modelle in Cloud- und Edge-Computing verwendet, wodurch sie für mehrere Branchen nützlich werden. Zum Beispiel nutzt man in der Fertigung Bilder und Machine Learning, um Probleme mit der Produktion zu erkennen, Fehler zu beseitigen und zu bestimmen, wann Maschinen beschädigt werden können.
  • Natural Language Processing (NLP): Spracherkennung und das Verstehen von Text funktioniert nur mit gutem Data Labeling. Firmen, die Spracherkennung für Haushaltsautomatisierung anbieten, nutzen beispielsweise NLP, um Akzente und menschliche Sprache zu verstehen und mit Sprache verschiedene Anwendungen und IoT-Geräte zu steuern.