Les Youtubeurs vendent-ils leur âme – en même temps que leur contenu – en pactisant avec les IA ?

Alors que de nombreuses personnalités publiques redoutent l'utilisation illicite de leur image ou de leur contenu pour entrainer les modèles d'IA, le média Bloomberg nous apprend que certains créateurs de contenu collaborent directement – contre rémunération – avec les entreprises qui les développent. Il y a-t-il danger ?

Tout comme un être humain a besoin d’apprendre et d’emmagasiner des informations pour développer ses capacités cognitives, les intelligences artificielles ont besoin d’être alimentées en contenus pour se perfectionner. Ce concept, que l’on connait sous le terme de machine learning, ou apprentissage automatique en français, est le même pour tous les modèles d’IA qui sont constamment gavés de contenus – articles, vidéos, peintures, photos, etc. – par les entreprises qui les développent. Raison pour laquelle si vous discutez aujourd’hui avec un chatbot comme ChatGPT ou si vous demandez à un modèle d’image générative, telle que Midjourney, de réaliser un auto portrait de Van Gogh, les résultats sont toujours plus saisissants. On a fait le test.

Comme disait Antoine Lavoisier, même si le sujet n’était pas vraiment le même : rien ne se perd, tout se transforme… en l’occurrence, avec ou sans consentement. Ces derniers mois, de plus en plus d’artistes se sont justement insurgés contre l’utilisation sans licence de leurs œuvres pour l’apprentissage des modèles d’IA. Fin 2024, ils étaient plusieurs milliers – à l’image de Björn Ulvaeus, le guitariste d’ABBA, de l’actrice Julianne Moore ou du chanteur de Radiohead Thom Yorke – à signer une tribu ne en ligne pour dénoncer cette « menace majeure et injuste pour les moyens de subsistance des personnes à l’origine de ces œuvres ». Sans oublier la grève des acteurs de 2023 aux États-Unis – qui aura couté six milliards d’euros à Hollywood – pour réclamer la protection des comédiens vis-à-vis de l’IA, alors que des projets de films avec des avatars numériques ont déjà pointé le bout de leur nez.

Et internet dans tout ça ?

Côté créateurs de contenu, et français qui plus est, le Youtubeur Cyprien avait publié une vidéo en avril 2024 pour alerter sa communauté sur l’utilisation de son image – sans son consentement, vous l’aurez compris – par des entreprises pour créer de fausses publicités. Le tout présenté par une fausse Anne-Claire Coudray, la – vraie – présentatrice du JT de 20h de TF1 parce que… pourquoi pas. Quitte à voler l’image d’une personnalité jugée comme légitime par les consommateurs pour vendre son produit, certainement une arnaque, autant voir les choses en grand. En juillet 2024, certains des plus gros géants de l’IA, dont Apple, Nvidia, Salesforce et Anthropic, subissait les foudres de l’opinion public pour avoir utilisé les transcriptions de plus de 170 000 vidéos YouTube sans le consentement des créateurs, violant ainsi les conditions d’utilisation de la plateforme.

« Cela faisait quelques années déjà que je voyais des deepfakes sur les réseaux sociaux. C’était de l’ordre de l’amusement, et ça se voyait que c’était un peu grotesque », expliquait Cyprien au média Tech&Co. « Mais les choses ont pris une tournure différente » et il lui fallait donc agir. Il sera donc certainement déçu d’apprendre que d’autres créateurs de contenu ont fait un autre choix. Selon un article publié par Bloomberg, OpenAI, Google et la société de médias spécialisés en intelligence artificielle Moonvalley rémunèrent des créateurs de contenu – venus de Youtube, TikTok ou Instagram – pour acheter leurs vidéos non publiées, souvent des rushs qu’ils laissent de côté au moment du montage final, afin d’entraîner leurs algorithmes.

On se calme avec l’IA non ? J’en peux plus de ces pubs… vous faites pas avoir par l’arnaque pic.twitter.com/a5JKAyrqfD
— cyprien (@MonsieurDream) April 12, 2024

Les prix du marché

Bien évidemment, les prix varient selon la qualité et le format du contenu en question. Les vidéos tournées en 4K se vendent à un prix plus élevé, tout comme les images non traditionnelles, telles que celles capturées par des drones ou utilisant des animations 3D. En général, les vidéos initialement destinées à YouTube, Instagram ou TikTok, se négocient entre 1 et 2 dollars la minute. Une pratique qui semble avoir du sens : chaque année, les créateurs de contenu tournent des centaines d’heures de vidéos pour leurs plateformes qui ne seront jamais mis en ligne… et donc qui ne leur rapportent rien. En revendant ce contenu à des développeurs d’intelligence artificielle, ils peuvent ainsi diversifier leurs revenus, au-delà des partenariats publicitaires avec les marques.

Moonvalley, l’une des entreprises citées par Bloomberg précise cependant dans un communiqué que chez elle, « la grande majorité de nos données d’entraînement proviennent directement de créateurs de contenu et de réalisateurs qui souhaitent monétiser leurs vidéos ». Tant que la transaction se fait entre professionnels consentants, tout est – au moins – dans les règles. OpenAI et Google n’ont toujours pas commenté.

Un terrain propice pour les affaires

Pour les entreprises qui développent ces modèles, tous ces contenus qui ne sont visibles nulle par ailleurs valent de l’or. En effet, le média Nature nous apprenait fin décembre que « les développeurs vont bientôt commencer à manquer de données conventionnelles pour entraîner leurs modèles ». Ils auraient déjà exploité la quasi-totalité des informations gratuites disponibles sur Internet alors que les modèles d’IA sont de plus en plus voraces.

D’après des chercheurs d’Epoch AI, un institut de recherche spécialisé sur les questions liées à l’intelligence artificielle, d’ici à 2028, la taille d’un jeu de données nécessaire pour entraîner un modèle sera équivalente à celle du stock total estimé de textes publics en ligne. Pour être plus clair, dans quatre ans environ, il n’y aura plus assez de données textuelles disponibles. Certaines entreprises explorent déjà la piste des données synthétiques fabriquées directement par d’autre IA – un vrai serpent de mer –.

Est-ce vraiment si grave que cela ?

Déjà, dans ce contexte, nous pouvons au moins nous réjouir que ces entreprises acquièrent légalement cette denrée qui leur fait tant défaut et n’aillent pas piquer la voix de Pierre Niney – sans son consentement – pour nous vendre des jeux mobiles. Sans oublier que la situation est bien plus carrée – légalement – que certains voudraient le faire croire sur internet. La plupart des contrats signés entre les entreprises d’IA et les créateurs de contenu incluent des clauses interdisant les premières à créer des répliques numériques des seconds avec qui ils travaillent, ainsi que d’imiter des scènes exactes de leurs vidéos ou d’utiliser les images d’une manière pouvant nuire à leur réputation, précise dans le sujet de Bloomberg Andrew Graham, responsable du conseil en stratégie numérique et des partenariats chez CAA – pour Creative Artists Agency – (CAA).

Son agence représente plus d’une douzaine de clients en discussion pour conclure des accords avec des entreprises d’intelligence artificielle.Il déclare en guise de conclusion : « Notre plus grande priorité, en tant qu’agents, est de nous assurer que nos clients sont non seulement justement rémunérés mais aussi correctement protégés, afin que leur image de marque ne soit ni ternie ni compromise ». En espérant que tous les créateurs soient aussi attentifs pour eux-mêmes que M. Graham pour ses clients. Sur les réseaux sociaux, garantir l’intégrité de son image est seul gage de réussite…

Mais pour tous les autres qui refusent toujours de pactiser avec les machines – c’est tout de suite très dramatique dit de cette manière –, la résistance se met en marche. Sans même revenir sur les personnalités ou les chercheurs qui prennent la parole dans l’espace médiatique, comme nous l’avons déjà signalé, de nombreux outils se développent pour contrer le problème sur le terrain technologique. Il y a un an, on apprenait le lancement d’un programme informatique créé par une équipe de chercheurs de l’Université de Chicago. Baptisé Glaze, le dispositif permet aux créateurs d’insérer dans leur œuvre des pixels invisibles à l’œil nu permettant de flouter l’image aussitôt qu’une IA serait tentée de l’utiliser. Une initiative qui, on l’espère, en appellera d’autres.