IA générative : NVIDIA attaquée pour violation du Copyright

La pile fragile sur laquelle est assise l'IA générative

Nouvel épisode dans l'opposition juridique qui est en train de se former entre l'industrie de l'IA générative et la culture. Cette fois, c'est NVIDIA qui est attaquée par des auteurs pour l'entrainement de sa famille de modèles de langage NeMo Megatron.

Martin Clavey

Le 13 mars 2024 à 16h36

5 min

Droit

NVIDIA fabrique les GPU qui permettent d'entrainer – dans la plupart des cas – tous les grands modèles de langage sur lesquels s'appuient les IA génératives. Mais l'entreprise propose aussi ses propres modèles.

Notamment, en septembre 2022, alors qu'OpenAI s'apprêtait à sortir ChatGPT, NVIDIA ouvrait son framework et son service « Nemo » permettant d'accéder à sa famille de langage « NeMo Megatron ».

Mais trois auteurs américains de nouvelles accusent l'entreprise d'avoir entrainé ses modèles sur une compilation de livres dans laquelle apparaissent leurs textes, a révélé l'agence de presse Reuters.

Entrainement sur des données venant des « bibliothèques clandestines »

Dans une plainte déposée dans un tribunal de Californie [PDF], les avocats d'Abdi Nazemian (Like a Love Story), Brian Keene (Ghost Walk) et Stewart O’Nan (Last Night at the Lobster) affirment qu'ils possèdent le copyright de certains livres inclus « dans l'ensemble de données d'entraînement que NVIDIA a admis avoir copié pour entraîner ses modèles NeMo Megatron ». Et bien sûr, ils précisent que les auteurs n'ont jamais autorisé NVIDIA à utiliser leur travail copyrighté comme matériau d'entrainement.

Ils arguent que NVIDIA a copié de « multiples fois » ces livres pour entrainer ses modèles de langage. Mais aussi bien d'autres livres, puisqu'ils expliquent que l'entreprise a utilisé le regroupement de 196 640 livres nommé « The Pile ».

L'affaire vous en rappelle peut-être déjà une autre : celle de Sarah Silverman, Christopher Golden et Richard Kadrey contre Meta. Et ce n'est pas une coïncidence. En effet, les deux affaires sont portées notamment par le même cabinet d'avocats, celui de Joseph Saveri.

Plusieurs auteurs attaquent Meta et OpenAI pour plagiat

Comme face à Meta, ces avocats expliquent que NVIDIA a entrainé ses modèles Megatron sur des collections de fichiers epub récupérées dans des bibliothèques clandestines comme LibGen, Z-Librar, Sci-Hub et Bibliotik.

« The Pile », la source

Ils citent notamment un regroupement de livres nommé Books3, dérivé du torrent bibliotik, qui comprend 108 Go de données et qui est inclus dans « The Pile ». Les avocats des auteurs affirment que, jusqu'en octobre 2023, Books3 était téléchargeable sur la plateforme Hugging Face. Et les plaignants ont retrouvé plusieurs de leurs livres dans ce regroupement de fichiers. Plus précisément, Hugging Face hébergeait un script Python qui permettait de télécharger le jeu de données. La page indique maintenant que « le jeu de données "the_pile_books3" est obsolète et n'est plus accessible en raison d'une violation de copyright ».

Et sur la page Hugging Face de ses modèles, NVIDIA explique à chaque fois que « le modèle a été entrainé sur le jeu de données « The Pile » préparé par EleutherAI ». Aucun doute donc pour les avocats des auteurs : l'entreprise a admis avoir entraîné ses modèles sur une compilation contenant les livres de leurs clients.

« Nous respectons les droits de tous les créateurs de contenu et pensons avoir créé NeMo en pleine conformité avec la législation sur le copyright », a déclaré un porte-parole de NVIDIA au Wall Street Journal.

Si l'entreprise n'en dit pas plus pour l'instant, ce cas rappelle l'affaire ouverte par le New York Times contre OpenAI. Celle-ci a récemment répliqué à la plainte du journal, considérant « qu'il est clair depuis longtemps que l'utilisation non consommatrice de matériel protégé par le copyright (comme la formation de grands modèles de langage) est protégée par le "fair use" ».

OpenAI contre-attaque et accuse le New York Times d’avoir « hacké » ses produits

Si les avocats d'OpenAI l'affirment, aucun cas similaire n'a encore été jugé pour l'entrainement de modèles de langage. Et des avocats consultés par le Washington Post estiment à plusieurs centaines de millions de dollars la somme que pourrait réclamer Abdi Nazemian, Brian Keene et Stewart O’Nan.

Moins de transparence dans l'entrainement des modèles

En fin d'année 2023, Stanford pointait le manque de transparence dans les grands modèles d’intelligence artificielle. Nous relevions aussi que, même dans les modèles qui se voulaient « open », comme Llama-2 de Meta, le flou restait sur les données d'entrainement.

Seuls quelques modèles, comme GPT-Neo proposé par EleutherAI, semblent maintenant assumer d'être entrainés sur les données de The Pile. La multiplication des procès sur la base de cette information pousse les entreprises créatrices d'IA générative à cacher leurs sources d'entrainement.

Commentaires (1)

tazvld Abonné

Le 13/03/2024 à 17h57

À noter que sur le site de Eleuther, la description de "The Pile" est :

What is the Pile?

The Pile is a 825 GiB diverse, open source language modelling data set that consists of 22 smaller, high-quality datasets combined together.