IA générative : NVIDIA attaquée pour violation du Copyright

La pile fragile sur laquelle est assise l'IA générative

Publié dans

13/03/2024 5 minutes

Nouvel épisode dans l'opposition juridique qui est en train de se former entre l'industrie de l'IA générative et la culture. Cette fois, c'est NVIDIA qui est attaquée par des auteurs pour l'entrainement de sa famille de modèles de langage NeMo Megatron.

NVIDIA fabrique les GPU qui permettent d'entrainer – dans la plupart des cas – tous les grands modèles de langage sur lesquels s'appuient les IA génératives. Mais l'entreprise propose aussi ses propres modèles.

Notamment, en septembre 2022, alors qu'OpenAI s'apprêtait à sortir ChatGPT, NVIDIA ouvrait son framework et son service « Nemo » permettant d'accéder à sa famille de langage « NeMo Megatron ».

Mais trois auteurs américains de nouvelles accusent l'entreprise d'avoir entrainé ses modèles sur une compilation de livres dans laquelle apparaissent leurs textes, a révélé l'agence de presse Reuters.

Entrainement sur des données venant des « bibliothèques clandestines »

Dans une plainte déposée dans un tribunal de Californie [PDF], les avocats d'Abdi Nazemian (Like a Love Story), Brian Keene (Ghost Walk) et Stewart O’Nan (Last Night at the Lobster) affirment qu'ils possèdent le copyright de certains livres inclus « dans l'ensemble de données d'entraînement que NVIDIA a admis avoir copié pour entraîner ses modèles NeMo Megatron ». Et bien sûr, ils précisent que les auteurs n'ont jamais autorisé NVIDIA à utiliser leur travail copyrighté comme matériau d'entrainement.

Ils arguent que NVIDIA a copié de « multiples fois » ces livres pour entrainer ses modèles de langage. Mais aussi bien d'autres livres, puisqu'ils expliquent que l'entreprise a utilisé le regroupement de 196 640 livres nommé « The Pile ».

L'affaire vous en rappelle peut-être déjà une autre : celle de Sarah Silverman, Christopher Golden et Richard Kadrey contre Meta. Et ce n'est pas une coïncidence. En effet, les deux affaires sont portées notamment par le même cabinet d'avocats, celui de Joseph Saveri.

Plusieurs auteurs attaquent Meta et OpenAI pour plagiat

Comme face à Meta, ces avocats expliquent que NVIDIA a entrainé ses modèles Megatron sur des collections de fichiers epub récupérées dans des bibliothèques clandestines comme LibGen, Z-Librar, Sci-Hub et Bibliotik.

« The Pile », la source

Ils citent notamment un regroupement de livres nommé Books3, dérivé du torrent bibliotik, qui comprend 108 Go de données et qui est inclus dans « The Pile ». Les avocats des auteurs affirment que, jusqu'en octobre 2023, Books3 était téléchargeable sur la plateforme Hugging Face. Et les plaignants ont retrouvé plusieurs de leurs livres dans ce regroupement de fichiers. Plus précisément, Hugging Face hébergeait un script Python qui permettait de télécharger le jeu de données. La page indique maintenant que « le jeu de données "the_pile_books3" est obsolète et n'est plus accessible en raison d'une violation de copyright ».

Et sur la page Hugging Face de ses modèles, NVIDIA explique à chaque fois que « le modèle a été entrainé sur le jeu de données « The Pile » préparé par EleutherAI ». Aucun doute donc pour les avocats des auteurs : l'entreprise a admis avoir entraîné ses modèles sur une compilation contenant les livres de leurs clients.

« Nous respectons les droits de tous les créateurs de contenu et pensons avoir créé NeMo en pleine conformité avec la législation sur le copyright », a déclaré un porte-parole de NVIDIA au Wall Street Journal.

Si l'entreprise n'en dit pas plus pour l'instant, ce cas rappelle l'affaire ouverte par le New York Times contre OpenAI. Celle-ci a récemment répliqué à la plainte du journal, considérant « qu'il est clair depuis longtemps que l'utilisation non consommatrice de matériel protégé par le copyright (comme la formation de grands modèles de langage) est protégée par le "fair use" ».

OpenAI contre-attaque et accuse le New York Times d’avoir « hacké » ses produits

Si les avocats d'OpenAI l'affirment, aucun cas similaire n'a encore été jugé pour l'entrainement de modèles de langage. Et des avocats consultés par le Washington Post estiment à plusieurs centaines de millions de dollars la somme que pourrait réclamer Abdi Nazemian, Brian Keene et Stewart O’Nan.

Moins de transparence dans l'entrainement des modèles

En fin d'année 2023, Stanford pointait le manque de transparence dans les grands modèles d’intelligence artificielle. Nous relevions aussi que, même dans les modèles qui se voulaient « open », comme Llama-2 de Meta, le flou restait sur les données d'entrainement.

Seuls quelques modèles, comme GPT-Neo proposé par EleutherAI, semblent maintenant assumer d'être entrainés sur les données de The Pile. La multiplication des procès sur la base de cette information pousse les entreprises créatrices d'IA générative à cacher leurs sources d'entrainement.

IA générative : NVIDIA attaquée pour violation du Copyright

La pile fragile sur laquelle est assise l'IA générative

Entrainement sur des données venant des « bibliothèques clandestines »

« The Pile », la source

Moins de transparence dans l'entrainement des modèles

Tiens, en parlant de ça :

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

FAED y verse

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Schrems vs Meta, encore et encore

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Rogntudjuuu !

Sommaire de l'article

Introduction

Entrainement sur des données venant des « bibliothèques clandestines »

« The Pile », la source

Moins de transparence dans l’entrainement des modèles

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

Commentaires (1)