À travers la planète, “travailleurs du clic”, “turks”, ou “data cleaners” s’activent discrètement pour faire fonctionner les algorithmes d’intelligence artificielle… ils s’avèrent nécessaires pour nettoyer, classifier ou enrichir des données, puis entraîner les modèles. Mais pour combien de temps ?
C’est un secret encore bien gardé : ce qu’on appelle aujourd’hui “Intelligence Artificielle” est encore très largement dépendant des humains, en particulier d’une multitude de petites mains qui oeuvrent en coulisses… La startup américaine DefinedCrowd, qui vient de lever en mai dernier 50 millions de dollars, propose ainsi à tout un chacun d’”être payé pour façonner l’avenir” sur le site de son service Neevo. Dans la réalité, il s’agit de réaliser des micro-tâches, telles que traduire des enregistrements audio en son, reconnaitre des images, enregistrer des phrases. Chacune est rémunérée quelques centimes de dollars et sert à améliorer les algorithmes de reconnaissance d’image, les assistants vocaux ou les outils de génération de textes.
Un homme se cache derrière l’automate…
Amazon est l’un des acteurs clés de ce marché, avec sa plateforme “Amazon Mechanical Turk”, du nom de ce joueur d’échecs du XVIIIe siècle, présenté comme un automate, alors qu’un humain était caché dedans… Sur cette place de marché mondiale, il est possible de poster des petites annonces pour trouver des “microworkers” prêts par exemple à extraire des informations sur des tickets de caisse, annoter des vidéos de 10 secondes, lister toutes les marques citées dans un podcast ou identifier les émotions véhiculées par des oeuvres d’art, entre autres.
Dans des pays à faible coût de main d’oeuvre
Des entreprises se sont spécialisées dans le recrutement de ces petites mains, essentiellement dans des pays à faible coût de main-d’oeuvre. La startup américaine Samasource en a même fait un argument de vente : créée en 2008, elle indique avoir permis à plus de 50 000 personnes de sortir de la pauvreté en Afrique grâce à la réalisation de ces micro-tâches. Une stratégie qui fait débat, tant les rémunérations sont minimes, et les tâches ingrates… Sans aller aussi loin, il faut évidemment savoir que nous sommes tous, souvent à notre insu, acteurs de ce processus : les petites mains de l’IA sont aussi les nôtres, car au quotidien, les plateformes numériques mettent mine de rien leurs utilisateurs à contribution pour enrichir leurs bases de données, améliorer leurs modèles et in fine, optimiser en continu leurs IA.
Les travailleurs du clic
Une réalité que les sociologues Dominique Cardon et Antonio Casilli qualifient de “digital labour”. “Ce ne sont pas les ‘machines’ qui font le travail des hommes, mais les hommes qui sont poussés à réaliser un digital labor pour les machines” écrit Antonio Casilli dans son ouvrage “En attendant les robots, enquête sur les travailleurs du clic”. L’exemple le plus emblématique est sans doute la solution “recaptcha” de Google, acquise par le moteur de recherche en 2009 : elle permet de distinguer un robot d’un être humain parmi les visiteurs d’un site, mais aussi d’entraîner des IA. A l’origine, il s’agissait de taper les mots affichés sur des photos – permettant de numériser les archives du New York Times. Désormais, il faut reconnaître des images : elles serviront demain aux véhicules autonomes…
Les entreprises cherchent à automatiser le process
Les choses pourraient pourtant évoluer rapidement : le recours aux humains montre ses limites, et, sans surprise, de plus en plus d’entrepreneurs cherchent à automatiser réellement ces processus de labellisation de données. Il s’agit même l’un des champs de l’IA qui attire le plus d’investissements actuellement. Snorkel.ai a ainsi levé 15 millions de dollars en juillet alors que son concurrent Labelbox a levé 39 millions de dollars en moins de deux ans d’existence. Sans oublier le pionnier, Scale AI : 122 millions en trois ans. Toutes trois sont basées dans la Silicon Valley.
“Même si elles ont dépensé des milliards de dollars dans l’IA, peu d’entreprises sont capables de l’utiliser aussi largement et efficacement qu’elles le souhaiteraient. C’est parce qu’elles s’appuient encore sur des armées d’humains” explique le CEO de Snorkel AI, Alex Ratner. L’enjeu est donc de taille : parvenir à labelliser automatiquement et à très grande échelle des données issues d’images, textes ou sons devrait ouvrir la voie à une adoption bien plus large de l’intelligence artificielle.