IA générative : NVIDIA attaquée pour violation du Copyright

La pile fragile sur laquelle est assise l'IA générative

Avatar de l'auteur
Martin Clavey

Publié dans

DroitIA et algorithmes

13/03/2024 5 minutes
1

Nouvel épisode dans l'opposition juridique qui est en train de se former entre l'industrie de l'IA générative et la culture. Cette fois, c'est NVIDIA qui est attaquée par des auteurs pour l'entrainement de sa famille de modèles de langage NeMo Megatron.

NVIDIA fabrique les GPU qui permettent d'entrainer – dans la plupart des cas – tous les grands modèles de langage sur lesquels s'appuient les IA génératives. Mais l'entreprise propose aussi ses propres modèles.

Notamment, en septembre 2022, alors qu'OpenAI s'apprêtait à sortir ChatGPT, NVIDIA ouvrait son framework et son service « Nemo » permettant d'accéder à sa famille de langage « NeMo Megatron ».

Mais trois auteurs américains de nouvelles accusent l'entreprise d'avoir entrainé ses modèles sur une compilation de livres dans laquelle apparaissent leurs textes, a révélé l'agence de presse Reuters.

Entrainement sur des données venant des « bibliothèques clandestines »

Dans une plainte déposée dans un tribunal de Californie [PDF], les avocats d'Abdi Nazemian (Like a Love Story), Brian Keene (Ghost Walk) et Stewart O’Nan (Last Night at the Lobster) affirment qu'ils possèdent le copyright de certains livres inclus « dans l'ensemble de données d'entraînement que NVIDIA a admis avoir copié pour entraîner ses modèles NeMo Megatron ». Et bien sûr, ils précisent que les auteurs n'ont jamais autorisé NVIDIA à utiliser leur travail copyrighté comme matériau d'entrainement.

Ils arguent que NVIDIA a copié de « multiples fois » ces livres pour entrainer ses modèles de langage. Mais aussi bien d'autres livres, puisqu'ils expliquent que l'entreprise a utilisé le regroupement de 196 640 livres nommé « The Pile ».

L'affaire vous en rappelle peut-être déjà une autre : celle de Sarah Silverman, Christopher Golden et Richard Kadrey contre Meta. Et ce n'est pas une coïncidence. En effet, les deux affaires sont portées notamment par le même cabinet d'avocats, celui de Joseph Saveri.

Comme face à Meta, ces avocats expliquent que NVIDIA a entrainé ses modèles Megatron sur des collections de fichiers epub récupérées dans des bibliothèques clandestines comme LibGen, Z-Librar, Sci-Hub et Bibliotik.

« The Pile », la source

Ils citent notamment un regroupement de livres nommé Books3, dérivé du torrent bibliotik, qui comprend 108 Go de données et qui est inclus dans « The Pile ». Les avocats des auteurs affirment que, jusqu'en octobre 2023, Books3 était téléchargeable sur la plateforme Hugging Face. Et les plaignants ont retrouvé plusieurs de leurs livres dans ce regroupement de fichiers. Plus précisément, Hugging Face hébergeait un script Python qui permettait de télécharger le jeu de données. La page indique maintenant que « le jeu de données "the_pile_books3" est obsolète et n'est plus accessible en raison d'une violation de copyright ».

Et sur la page Hugging Face de ses modèles, NVIDIA explique à chaque fois que « le modèle a été entrainé sur le jeu de données « The Pile » préparé par EleutherAI ». Aucun doute donc pour les avocats des auteurs : l'entreprise a admis avoir entraîné ses modèles sur une compilation contenant les livres de leurs clients.

« Nous respectons les droits de tous les créateurs de contenu et pensons avoir créé NeMo en pleine conformité avec la législation sur le copyright », a déclaré un porte-parole de NVIDIA au Wall Street Journal.

Si l'entreprise n'en dit pas plus pour l'instant, ce cas rappelle l'affaire ouverte par le New York Times contre OpenAI. Celle-ci a récemment répliqué à la plainte du journal, considérant « qu'il est clair depuis longtemps que l'utilisation non consommatrice de matériel protégé par le copyright (comme la formation de grands modèles de langage) est protégée par le "fair use" ».

Si les avocats d'OpenAI l'affirment, aucun cas similaire n'a encore été jugé pour l'entrainement de modèles de langage. Et des avocats consultés par le Washington Post estiment à plusieurs centaines de millions de dollars la somme que pourrait réclamer Abdi Nazemian, Brian Keene et Stewart O’Nan.

Moins de transparence dans l'entrainement des modèles

En fin d'année 2023, Stanford pointait le manque de transparence dans les grands modèles d’intelligence artificielle. Nous relevions aussi que, même dans les modèles qui se voulaient « open », comme Llama-2 de Meta, le flou restait sur les données d'entrainement.

Seuls quelques modèles, comme GPT-Neo proposé par EleutherAI, semblent maintenant assumer d'être entrainés sur les données de The Pile. La multiplication des procès sur la base de cette information pousse les entreprises créatrices d'IA générative à cacher leurs sources d'entrainement.

Écrit par Martin Clavey

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Entrainement sur des données venant des « bibliothèques clandestines »

« The Pile », la source

Moins de transparence dans l’entrainement des modèles

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Fermer

Commentaires (1)


À noter que sur le site de Eleuther, la description de "The Pile" est :
What is the Pile?
The Pile is a 825 GiB diverse, open source language modelling data set that consists of 22 smaller, high-quality datasets combined together.