OpenAI a détruit les jeux de données de livres sur lesquels elle a entrainé ses premiers modèles
Catch me if you can
Dans le procès qui oppose l'organisation américaine Authors Guild à OpenAI, des documents descellés révèlent que l'entreprise de Sam Altman a affirmé à la FTC avoir détruit toutes ses copies des jeux de données contenant des milliers de livres sur lesquels elle a entrainé ses grands modèles de langage. Pour l'Authors Guild, OpenAI a détruit une preuve directe du contenu copyrighté qu'elle a utilisé pour entrainer ses modèles.
Le 10 mai à 16h16
5 min
IA et algorithmes
IA
OpenAI ne voulait pas que ces documents soient publiés. Mais finalement, la justice américaine n'a pas suivi l'avis de l'entreprise. Ils proviennent d'un des multiples procès intentés contre OpenAI pour violation de copyright lors de l'entrainement de ses modèles de langage. Ces documents révèlent que l'entreprise a détruit des jeux de données visés par la plainte, comme l'a découvert Business Insider.
Plainte de nombreux auteurs américains
L'organisation américaine Authors Guild, qui rassemble environ 9 000 membres, a porté plainte en septembre 2023 contre l'entreprise aux côtés d'auteurs célèbres comme George R.R. Martin, Michael Connelly, David Baldacci, Mary Bly, Sylvia Day ou encore Roxana Robinson (pdf).
Dans ce document, les plaignants ciblent en particulier l'utilisation de trois jeux de données utilisés par l'entreprise : « OpenAI admet que parmi les jeux de données "d'entraînement" qu'elle a utilisés pour "entraîner" le modèle [GPT-3] figuraient "Common Crawl" et deux "corpus de livres basés sur l'internet" de "haute qualité" qu'elle appelle "Books1" et "Books2" », citant un article scientifique des chercheurs de l'entreprise.
Mais, si le contenu de Common Crawl est connu (car disponible en accès libre), ceux de Books1 et Books2 ne le sont pas. En effet, ils ont été créés en interne à OpenAI pour entrainer ses modèles de façon unique et notamment GPT-3, le grand modèle de langage sur lequel l'entreprise s'est appuyée, à l'époque, pour sortir ChatGPT.
Des pièces à conviction détruites ?
Après plusieurs mois infructueux de recherche d'information sur Books1 et Books2, car OpenAI se retranchait derrière leur « confidentialité », l'Authors Guild a pu obtenir de l'entreprise de Sam Altman « qu'elle avait détruit toutes ses copies de books1 et books2, et que les deux chercheurs d'OpenAI responsables de la création de ces ensembles de données ne sont plus employés » par la société (PDF). Cette destruction aurait eu lieu mi 2022.
Pour l'association de défense des droits des auteurs américains, « étant donné qu'OpenAI a détruit les preuves directes du contenu des books 1 et 2, ces anciens employés sont d'une importance cruciale dans cette affaire ». Elle a donc demandé à l'entreprise leur identité et l'accuse de ne pas donner suffisamment d'information pour les identifier.
Les avocats de l'Authors Guild en profitent pour demander l'accès aux réponses d'OpenAI à la Federal Trade Commission (FTC) lors de différentes enquêtes de l'agence indépendante américaine. Celles-ci pourraient, en effet, contenir les informations que l'organisation cherche.
Destruction « avant litige »
Mais OpenAI se défend (PDF) en expliquant qu'elle a apporté à l'Authors Guild des informations sur ces deux chercheurs et qu'elle est prête à répondre à ses questions si elles n'étaient pas suffisamment claires.
Elle ajoute que « les jeux de données Books1 et Books2 ont été supprimés pour cause de non-utilisation avant qu'un litige n'ait été intenté contre OpenAI, et qu'OpenAI a activement enquêté pour déterminer si elle pouvait trouver d'autres copies des jeux de données ou d'autres documents à partir desquels les jeux de données peuvent être reconstruits ».
OpenAI s'oppose donc à ce que l'Authors Guild puisse accéder à ses réponses données à la FTC dans des enquêtes se concentrant sur les données personnelles et les aspects liés au consommateur, informations « sans rapport avec la présente affaire ».
Dans une déclaration citée par Business Insider, OpenAI affirme que « les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à l'aide de ces jeux de données » et ajoute que « ces jeux de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021 et supprimés pour cause de non-utilisation en 2022 ».
Il n'en reste pas moins que, dans sa réponse récente à la plainte du New York Times, OpenAI affirmait qu' « étant donné que le copyright couvre aujourd’hui pratiquement toutes les formes d’expression humaine – y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux – il serait impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le copyright ».
OpenAI a détruit les jeux de données de livres sur lesquels elle a entrainé ses premiers modèles
-
Plainte de nombreux auteurs américains
-
Des pièces à conviction détruites ?
-
Destruction « avant litige »
Commentaires (9)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 10/05/2024 à 20h17
Pourquoi lesquelles est accordé avec les données plutôt que les jeux ?
"des documents descellés révèle"
Pas d'accord pluriel ?
"Ce sont des documents qu'OpenAI ne voulait pas qu'ils soient publiés."
Pourquoi ça doit être si alambiqué.
"il serait impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le copyright"
C'est fameux.
Le 10/05/2024 à 21h34
Le 11/05/2024 à 15h20
Ça évite de retrouver ensuite ce genre de commentaire dans les commentaires justement.
Merci.
Le 11/05/2024 à 17h47
Modifié le 12/05/2024 à 16h11
Le 12/05/2024 à 10h36
J'envisage sérieusement de te mettre sur liste de blocage.
Modifié le 12/05/2024 à 20h15
Mea culpa.
Le 12/05/2024 à 09h57
Les USA ont aussi une grosse visibilité en matière de production d'IA (vu que les géants de la tech sont US et se sont tous engouffrés dedans tôt ou tard) et c'est clairement le secteur économique porteur du moment. On en bouffe à toutes les sauces, ces produits sont intégrés jusque dans votre grille-pain, et ça fait les choux gras de Nvidia notamment.
On a donc deux intérêts économiques forts entre le protectionnisme de la propriété intellectuelle et le business de l'IA qui entrent en confrontation. Je me demande ce que ça pourrait amener, car mécaniquement, l'un va freiner l'autre en l'état actuel des choses.
Le 13/05/2024 à 14h08
B répond au enquêteurs qu'il a indiqué à A la marque de la lessive utilisé et qu'il a fait le ménage avant que A n'interpelle à la police.
Est-ce une bonne analogie ?