Le data labeling, ou étiquetage des données en français, consiste à attribuer des informations à divers points de données afin que les algorithmes de machine learning (ML) puissent mieux en comprendre la signification.

Il est utilisé pour entraîner les modèles d'apprentissage automatique afin que les systèmes informatiques puissent produire des informations précises à utiliser dans l'analyse et la prise de décision commerciale.

Différences entre le data labeling et l'annotation de données

Le data labeling et l'annotation des données sont similaires mais ont des objectifs différents. Les deux termes sont utilisés de manière interchangeable dans certaines circonstances mais ne constituent pas le même processus.

Il ne suffit pas de fournir des données à un modèle d'apprentissage automatique pour que l'ordinateur comprenne comment les analyser et les traiter. Les annotations et le labeling décrivent les données afin que ces algorithmes puissent les déchiffrer.

Les annotations dans l'apprentissage automatique sont des métadonnées utilisées pour décrire les données. L'apprentissage automatique utilise de grandes quantités de données non structurées pour produire des informations significatives, et les annotations fournissent chaque élément d'information d'entrée utilisé par les processus informatiques. Par exemple, une image comportant divers éléments utilise des annotations pour définir les objets identifiables dans l'image afin que les algorithmes puissent comprendre et identifier les mêmes éléments dans les entrées futures.

Le labeling est similaire, mais il est utilisé pour définir les types de données. L'entrée d'un algorithme peut être un texte ou une image, mais un système informatique ne fait pas la différence entre les types d'entrée si vous ne lui dites pas. Le data labeling marque les deux types d'entrée afin que les algorithmes puissent les déchiffrer et les utiliser pour établir des modèles.

Dans une image, il indique aux algorithmes le type de données présentes, par exemple un humain ou un animal. Le data labeling est essentiel dans le traitement du langage naturel (NLP) pour aider les algorithmes à identifier les aspects de la communication humaine, notamment les mots prononcés, les accents et les dialectes.

À quoi sert le data labeling ?

Le data labeling est utilisé dans plusieurs applications informatiques. Il est nécessaire pour le traitement automatique des langues, la vision par ordinateur et la reconnaissance vocale. Bien qu'il soit principalement utilisé dans ces trois applications, le data labeling est également utilisé dans des applications propriétaires plus petites conçues pour l'analyse d'entreprise et les produits de consommation.

En vision par ordinateur, le data labeling aide les algorithmes à identifier les éléments d'une image. Les utilisateurs saisissent du texte pour décrire une recherche d'image, et le data labeling aide les algorithmes à identifier les éléments d'une image pour renvoyer des résultats pertinents. La vision par ordinateur utilise le labeling et les annotations pour localiser des éléments dans les images.

Le labeling d'éléments de phrases ou de mots dans le traitement automatique des langues aide les algorithmes à identifier les nuances dans la façon dont les humains communiquent. Les étiquettes attribuées à un texte permettent aux algorithmes du traitement automatique des langues de reconnaître les caractères spéciaux et d'utiliser les mêmes expressions familières que les humains ayant des dialectes ou des accents spécifiques. Les entreprises utilisent les étiquettes pour travailler avec la détection des spams, les chatbots et l'assistance virtuelle.

La reconnaissance vocale est nécessaire pour les produits qui prennent la parole en entrée et la restituent sous forme de texte ou exécutent une action spécifique. Les applications de transcription utilisent des étiquettes pour comprendre les entrées vidéo et produire du texte, ou pour prendre la parole à partir des entrées de l'utilisateur sur un système domotique et effectuer une action basée sur les entrées de l'utilisateur.

Comment fonctionne le data labeling ?

L'apprentissage automatique utilise des modèles supervisés ou non supervisés. Le data labeling est un composant de l'apprentissage automatique supervisé, la méthode la plus utilisée actuellement. Dans les modèles supervisés, l'entrée est étiquetée et mise en correspondance avec une sortie. Les humains définissent les étiquettes qui s'appliquent aux données, de sorte que les modèles supervisés nécessitent un apport humain.

Les modèles étiquetés sont transmis à des algorithmes, et les résultats sont examinés. Si les résultats ne sont pas ceux escomptés, les étiquettes sont réexaminées et éventuellement modifiées afin de fournir des données différentes pour alimenter à nouveau les algorithmes et obtenir des résultats différents. L'apprentissage automatique dépend fortement de l'exactitude des étiquettes de données appliquées par l'homme pour l'analyse et l'obtention de résultats précis.

Par exemple, on peut demander à une application d'apprentissage automatique d'identifier des voitures sur des milliers de photos. Les humains parcourent chaque photo, identifient celles qui contiennent des voitures et les étiquettent comme telles. Les algorithmes d'apprentissage automatique reçoivent les mêmes images avec les étiquettes et identifient des modèles pour reconnaître les voitures dans les futures images. La précision des résultats dépend de la précision du processus de data labeling.

Méthodes de data labeling

Les spécialistes des données abordent le processus de data labeling de cinq manières différentes. Chaque approche présente des avantages et des inconvénients, mais la plupart des spécialistes des données utilisent une méthode privilégiée pour étiqueter les données en fonction de l'application.

La plupart des applications d'apprentissage automatique utilisent des milliers (voire des millions) de points de données, de sorte que le processus de data labeling est fastidieux et prend du temps. Il doit être effectué correctement pour que la sortie soit précise, il est donc également essentiel que le processus d'étiquetage soit minutieux.

Le type d'approche du data labeling est déterminé par la complexité et la taille du projet. Les cinq méthodes utilisées pour le data labeling sont les suivantes :

  • En interne : pour les organisations disposant d'une équipe de data scientists qui étiquettent les données. Cette approche est également la moins chère, car elle nécessite des personnes déjà salariées et familiarisées avec le data labeling. Les data scientists internes sont plus efficaces et peuvent travailler directement avec le processus de labellisation pour améliorer les fonctionnalités. Cependant, toutes les entreprises ne disposent pas d'un budget pour une équipe interne complète de data scientists.
  • Externalisation : pour les organisations qui ne disposent pas d'une équipe de science des données dédiée, l'externalisation à un tiers est une option. Les scientifiques des données travaillant en tant qu'entrepreneurs indépendants aident votre organisation à étiqueter les données et à faciliter un processus qui ne serait pas possible en interne. Les organisations peuvent constituer une équipe temporaire qui travaille de manière indépendante et en tant qu'entrepreneurs, de sorte qu'il n'y a pas d'engagement à long terme. L'inconvénient de cette méthode est que votre équipe temporaire aura besoin de formation et d'aide pour s'intégrer à vos procédures internes.
  • Crowdsourcing : si vous avez déjà identifié des images dans un CAPTCHA pour vérifier que vous êtes un humain, vous avez fait l'expérience du data labeling crowdsourcé. En utilisant un système qui rassemble potentiellement des milliers de personnes, une organisation peut tirer parti de l'internet pour labelliser des données pour des modèles d'apprentissage automatique. L'inconvénient du crowdsourcing est le contrôle de la qualité. Les plateformes offrent une solution pour trouver des personnes crowdsourcées, mais la qualité des participants est très variable, et les erreurs sont presque garanties.
  • Synthétique : les scientifiques des données utilisent des méthodes synthétiques pour utiliser des “fausses” données générées par ordinateur avec les attributs nécessaires pour labelliser les données et créer de “vraies” données à partir de celles-ci. Les réseaux adversaires génératifs (GAN) utilisent des réseaux neuronaux qui “rivalisent” pour créer de fausses données, les comparer à des données réelles, puis utiliser les résultats pour déterminer les étiquettes correctes des données. Les étiquettes sont créées à partir de jeux de données préexistants, ce qui les rend plus efficaces dans certains projets. L'inconvénient de cette méthode est qu'elle nécessite une grande puissance de calcul, ce qui peut en faire une option plus coûteuse.
  • Programmé : labellisation des données à l'aide de scripts personnalisés, généralement créés par des spécialistes des données dans un souci de précision et d'efficacité. Les scripts sont plus efficaces que les étiqueteurs humains et peuvent être plus précis que le crowdsourcing, mais ils nécessitent toujours un système d'assurance qualité pour garantir qu'aucune erreur n'est commise.

L'importance du data labeling

Les ordinateurs sont aussi intelligents que les humains les programment. Sans le data labeling, ils seraient incapables d'effectuer l'apprentissage automatique et l'intelligence artificielle nécessaires aux applications modernes. Le data labeling est une composante de l'apprentissage supervisé, il est donc courant que les data scientists étiquettent leurs données dans le cadre du développement de l'apprentissage automatique.

La préparation des données est la partie la plus longue d'un projet d'apprentissage automatique. L'efficacité et la précision du processus de préparation déterminent la précision des résultats. Il va de soi que le data labeling est l'un des composants les plus critiques de l'apprentissage automatique, car des erreurs ou un mauvais labeling peuvent conduire à des applications inutilisables. Dans des situations graves, les erreurs peuvent avoir des conséquences catastrophiques qui affectent la continuité des activités et les revenus.

Types de data labeling

Bien que les méthodes de labellisation des données déterminent la façon dont votre organisation exécute la fonction, les scientifiques peuvent choisir entre trois types différents de data labeling. Le type choisi dépend du projet, il est donc important de choisir le bon pour obtenir des résultats précis des applications d'apprentissage automatique.

Les trois types de data labeling sont les suivants :

  • La vision par ordinateur : l'apprentissage automatique est utilisé pour identifier des objets dans des images, mais les algorithmes ont besoin de data labeling pour trouver ces objets. Les étiquettes de données définissent le type d'image (par exemple, voyage ou personnel) ou peuvent être utilisées pour identifier des objets dans l'image. Une image pouvant contenir une douzaine d'objets différents, les data labeling sont des boîtes entourant un objet spécifique et contenant du texte pour le décrire. Chaque objet a une boîte de délimitation avec une étiquette pour le définir. Après avoir étiqueté les images, l'apprentissage automatique prend le modèle et l'utilise pour catégoriser automatiquement les images ou identifier des objets dans les images.
  • Traitement du langage naturel (NLP) : les applications textuelles utilisent des étiquettes NLP pour identifier des mots ou des phrases afin de travailler avec la communication écrite humaine. Le NLP peut également être utilisé avec la vision par ordinateur pour identifier du texte dans une image. L'apprentissage automatique utilise le NLP pour catégoriser le texte, identifier les langues, transcrire des vidéos ou déterminer l'intention. Par exemple, les applications de service client utilisent des boîtes de dialogue pour répondre aux questions courantes du service client sur les sites Web de commerce électronique.
  • Traitement audio : l'étiquetage audio transcrit le contenu vocal en texte ou étiquette les sons du contenu audio afin que les algorithmes d'apprentissage automatique puissent reconnaître les sons. Les sons étiquetés sont souvent utilisés dans les applications vocales ou celles qui nécessitent un contrôle des décibels (par exemple, les alarmes qui utilisent le bris de verre pour identifier une effraction). Les étiquettes identifiant les sons sont utilisées comme ensemble de données pour l'entraînement des algorithmes d'apprentissage automatique.

Avantages du data labeling

Le data labeling vous permet de contrôler le résultat. Un data labeling précis est synonyme de données de sortie précises. Pour les organisations qui ont besoin de personnel pour effectuer le data labeling, un bon processus est essentiel à la réussite de votre projet d'apprentissage automatique.

Voici quelques avantages du data labeling :

  • Précision des données : la méthode utilisée pour étiqueter les données a un impact direct sur la précision des résultats.
  • Qualité : le data labeling améliore la qualité de vos applications d'apprentissage automatique.
  • De meilleurs résultats : de meilleurs résultats signifient que les utilisateurs des applications sont plus efficaces dans leur travail.
  • Découverte d'opportunités commerciales : un data labeling précis avec des analyses aide les entreprises à définir des opportunités génératrices de revenus.

Les défis du data labeling

Comme tout projet de données, le data labeling comporte des défis. Les entreprises doivent être en mesure de surmonter ces défis pour créer des applications efficaces avec des résultats précis.

Voici quelques défis liés aux projets de data labeling :

  • Gérer une main-d'œuvre d'étiquetage : en particulier dans le cadre du crowdsourcing et de l'externalisation, les entreprises doivent gérer des étiqueteurs humains, les former et engager des personnes chargées de l'assurance qualité pour superviser les résultats.
  • Maintenir une qualité constante : les ensembles de données utilisés pour construire des modèles doivent avoir des données de qualité pour produire des résultats précis. Les data scientists doivent prendre le temps d'examiner les ensembles de données pour s'assurer qu'ils contiennent les bonnes données pour construire l'application cible.
  • Coûts financiers : plusieurs méthodes sont rentables, mais les data scientists et l'analytique sont coûteux, surtout si une organisation utilise des données synthétiques ou générées par programme.
  • Confidentialité des données : les données utilisées pour construire des modèles ne doivent pas utiliser des données privées protégées par des règlements de conformité. De même, les données ne doivent pas introduire de biais et doivent rester objectives dans les résultats.
  • Outillage : certains outils de science des données sont coûteux, et les algorithmes d'apprentissage automatique peuvent également être coûteux.

Meilleures pratiques en matière de data labeling

Pour obtenir les meilleurs résultats, vos data scientists doivent suivre les meilleures pratiques en matière de data labeling. Voici quelques façons dont les organisations peuvent améliorer la qualité des résultats et la précision des modèles de données :

  • Déterminez si l'apprentissage automatique est viable : tous les projets ne doivent pas utiliser l'apprentissage automatique, alors assurez-vous que votre projet est le mieux adapté à l'apprentissage automatique.
  • Utilisez au moins 5000 points de données : de bons résultats nécessitent des milliers de points de données pour construire un modèle, et les experts recommandent au moins 5000. La précision s'améliore avec un plus grand nombre de points de données.
  • Stockez toutes les données représentatives : collectez et stockez autant de points de données que possible pour y revenir si vous devez apporter des modifications ou améliorer les étiquettes.
  • Stockez les données liées de manière tangible : vous souhaitez peut-être faire évoluer les applications pour couvrir les analyses liées, le stockage de ces données facilitera donc l'évolution.
  • Conservez des sauvegardes : une défaillance du système peut ruiner un projet, mais le fait de disposer de sauvegardes rendra la récupération plus rapide et plus facile.
  • Pensez en termes d'échelle : à mesure que l'organisation se développe, davantage d'analyses peuvent être nécessaires, ou des modifications des modèles de données peuvent s'avérer indispensables. Stockez et utilisez les données à des fins futures.
  • Audit : vérifiez de temps en temps les données et les labels pour en assurer la qualité.

Data labeling et cybersécurité

La protection des données doit être une priorité pour toute organisation, et l'apprentissage automatique est utilisé dans le secteur de la cybersécurité. Les deux jouent un rôle dans l'analyse sûre et efficace de l'apprentissage automatique. Les applications de cybersécurité qui s'appuient sur l'apprentissage automatique utilisent souvent les data labeling pour aider à identifier les virus et les malware, déterminer les schémas de trafic suspects, déclencher des alertes lors d'anomalies de compte utilisateur et analyser le trafic pour détecter les transferts de données d'entrée et de sortie suspects.

Le data labeling aide les consommateurs à choisir les bons appareils IoT et fonctionne avec l'IoT pour renforcer la sécurité physique dans les maisons et les entreprises. Les caméras de sécurité, par exemple, peuvent détecter les personnes dans les vidéos en temps réel pour identifier si une organisation est en train de subir une effraction.

Pour la sécurité des données elles-mêmes, il est essentiel d'utiliser des contrôles d'accès lors des projets d'externalisation et de crowdsourcing. Il peut être difficile d'assurer la sécurité avec une main-d'œuvre importante et externalisée, mais il reste essentiel de protéger les données contre le vol et de rester conforme. Tout outil dans le cloud doit également être conforme et protégé contre le vol de données.

Cas d'utilisation du data labeling

Le data labeling est nécessaire pour les projets d'apprentissage automatique supervisé, mais tous les projets d'apprentissage automatique ne sont pas supervisés. Cependant, l'apprentissage automatique supervisé profite à certaines applications.

Voici quelques cas d'utilisation :

  • Dans les projets de vision par ordinateur, le data labeling est utilisé pour les modèles d'apprentissage profond pour le cloud et l'edge computing, ce qui leur permet de travailler avec plusieurs industries. Par exemple, le secteur de la fabrication utilise des images et l'apprentissage automatique pour identifier les problèmes de production, éliminer les erreurs et déterminer quand les machines pourraient être endommagées.
  • Traitement du langage naturel (NLP) : la reconnaissance vocale et la compréhension du texte ne peuvent être réalisées qu'avec un bon data labeling. Par exemple, les entreprises qui fournissent une reconnaissance vocale pour la domotique utilisent le NLP pour comprendre les accents et la parole humaine afin de contrôler divers appareils et IoT.

Services gérés Proofpoint de protection contre les risques numériques

Surveillez les ressources numériques de votre entreprise de manière proactive.

Proofpoint Managed Services pour la protection des informations

Les Proofpoint Managed Services pour la protection des informations (MSIP, Managed Services for Information Protection) mettent à votre disposition des experts hautement qualifiés pour gérer votre programme de protection des données.

Webinaire : La classification pour mettre en place une solution DLP efficace

Proofpoint Intelligent Classification and Protection calibre le DLP en le nourrissant de dictionnaires précis, sur-mesure, créés en direct, sur la base de l’analyse de votre donnée.