OpenAI a détruit les jeux de données de livres sur lesquels elle a entrainé ses premiers modèles

Catch me if you can

Dans le procès qui oppose l'organisation américaine Authors Guild à OpenAI, des documents descellés révèlent que l'entreprise de Sam Altman a affirmé à la FTC avoir détruit toutes ses copies des jeux de données contenant des milliers de livres sur lesquels elle a entrainé ses grands modèles de langage. Pour l'Authors Guild, OpenAI a détruit une preuve directe du contenu copyrighté qu'elle a utilisé pour entrainer ses modèles.

Martin Clavey

Le 10 mai à 16h16

5 min

IA et algorithmes

OpenAI ne voulait pas que ces documents soient publiés. Mais finalement, la justice américaine n'a pas suivi l'avis de l'entreprise. Ils proviennent d'un des multiples procès intentés contre OpenAI pour violation de copyright lors de l'entrainement de ses modèles de langage. Ces documents révèlent que l'entreprise a détruit des jeux de données visés par la plainte, comme l'a découvert Business Insider.

Plainte de nombreux auteurs américains

L'organisation américaine Authors Guild, qui rassemble environ 9 000 membres, a porté plainte en septembre 2023 contre l'entreprise aux côtés d'auteurs célèbres comme George R.R. Martin, Michael Connelly, David Baldacci, Mary Bly, Sylvia Day ou encore Roxana Robinson (pdf).

Dans ce document, les plaignants ciblent en particulier l'utilisation de trois jeux de données utilisés par l'entreprise : « OpenAI admet que parmi les jeux de données "d'entraînement" qu'elle a utilisés pour "entraîner" le modèle [GPT-3] figuraient "Common Crawl" et deux "corpus de livres basés sur l'internet" de "haute qualité" qu'elle appelle "Books1" et "Books2" », citant un article scientifique des chercheurs de l'entreprise.

Mais, si le contenu de Common Crawl est connu (car disponible en accès libre), ceux de Books1 et Books2 ne le sont pas. En effet, ils ont été créés en interne à OpenAI pour entrainer ses modèles de façon unique et notamment GPT-3, le grand modèle de langage sur lequel l'entreprise s'est appuyée, à l'époque, pour sortir ChatGPT.

Des pièces à conviction détruites ?

Après plusieurs mois infructueux de recherche d'information sur Books1 et Books2, car OpenAI se retranchait derrière leur « confidentialité », l'Authors Guild a pu obtenir de l'entreprise de Sam Altman « qu'elle avait détruit toutes ses copies de books1 et books2, et que les deux chercheurs d'OpenAI responsables de la création de ces ensembles de données ne sont plus employés » par la société (PDF). Cette destruction aurait eu lieu mi 2022.

Pour l'association de défense des droits des auteurs américains, « étant donné qu'OpenAI a détruit les preuves directes du contenu des books 1 et 2, ces anciens employés sont d'une importance cruciale dans cette affaire ». Elle a donc demandé à l'entreprise leur identité et l'accuse de ne pas donner suffisamment d'information pour les identifier.

Les avocats de l'Authors Guild en profitent pour demander l'accès aux réponses d'OpenAI à la Federal Trade Commission (FTC) lors de différentes enquêtes de l'agence indépendante américaine. Celles-ci pourraient, en effet, contenir les informations que l'organisation cherche.

Destruction « avant litige »

Mais OpenAI se défend (PDF) en expliquant qu'elle a apporté à l'Authors Guild des informations sur ces deux chercheurs et qu'elle est prête à répondre à ses questions si elles n'étaient pas suffisamment claires.

Elle ajoute que « les jeux de données Books1 et Books2 ont été supprimés pour cause de non-utilisation avant qu'un litige n'ait été intenté contre OpenAI, et qu'OpenAI a activement enquêté pour déterminer si elle pouvait trouver d'autres copies des jeux de données ou d'autres documents à partir desquels les jeux de données peuvent être reconstruits ».

OpenAI s'oppose donc à ce que l'Authors Guild puisse accéder à ses réponses données à la FTC dans des enquêtes se concentrant sur les données personnelles et les aspects liés au consommateur, informations « sans rapport avec la présente affaire ».

Dans une déclaration citée par Business Insider, OpenAI affirme que « les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à l'aide de ces jeux de données » et ajoute que « ces jeux de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021 et supprimés pour cause de non-utilisation en 2022 ».

Il n'en reste pas moins que, dans sa réponse récente à la plainte du New York Times, OpenAI affirmait qu' « étant donné que le copyright couvre aujourd’hui pratiquement toutes les formes d’expression humaine – y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux – il serait impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le copyright ».

Commentaires (9)

Winderly

Le 10/05/2024 à 20h17

"OpenAI a détruit les jeux de données de livres sur lesquelles elle a entrainé ses premiers modèles"

Pourquoi lesquelles est accordé avec les données plutôt que les jeux ?

"des documents descellés révèle"

Pas d'accord pluriel ?

"Ce sont des documents qu'OpenAI ne voulait pas qu'ils soient publiés."

Pourquoi ça doit être si alambiqué.

"il serait impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le copyright"

C'est fameux.

Martin Clavey Équipe

Le 10/05/2024 à 21h34

Oups, c'est corrigé... Merci.

Erwan123 Abonné

Le 11/05/2024 à 15h20

À la fin de chaque article, il y a un bouton bien en évidence qui s'appelle "Signaler une erreur".

Ça évite de retrouver ensuite ce genre de commentaire dans les commentaires justement.

Merci.

Winderly

Le 11/05/2024 à 17h47

Lorsque je ne suis pas sur de moi (c'est le cas ici), je préfère avoir des avis supplémentaires.

Erwan123 Abonné

Modifié le 12/05/2024 à 16h11

Winderly

Le 12/05/2024 à 10h36

J'ai certainement fait quelque chose méritant ce déchainement de haine, mais j'ignore quoi.
J'envisage sérieusement de te mettre sur liste de blocage.

Erwan123 Abonné

Modifié le 12/05/2024 à 20h15

Désolé, ma réaction était clairement exagérée (répondu sous le coup de l'émotion) et je m'en excuse sincèrement. C'était pas cool.

Mea culpa.

SebGF Abonné

Le 12/05/2024 à 09h57

Il n'en reste pas moins que, dans sa réponse récente à la plainte du New York Times, OpenAI affirmait qu' « étant donné que le copyright couvre aujourd’hui pratiquement toutes les formes d’expression humaine – y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux – il serait impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le copyright ».

C'est quand même une remarque intéressante.

Les USA ont aussi une grosse visibilité en matière de production d'IA (vu que les géants de la tech sont US et se sont tous engouffrés dedans tôt ou tard) et c'est clairement le secteur économique porteur du moment. On en bouffe à toutes les sauces, ces produits sont intégrés jusque dans votre grille-pain, et ça fait les choux gras de Nvidia notamment.

On a donc deux intérêts économiques forts entre le protectionnisme de la propriété intellectuelle et le business de l'IA qui entrent en confrontation. Je me demande ce que ça pourrait amener, car mécaniquement, l'un va freiner l'autre en l'état actuel des choses.

RuMaRoCO Abonné

Le 13/05/2024 à 14h08

Si je métaphorise, A reproche à B d'avoir fait le ménage de chez lui alors que A le soupçonne B d'avoir commis un meurtre.
B répond au enquêteurs qu'il a indiqué à A la marque de la lessive utilisé et qu'il a fait le ménage avant que A n'interpelle à la police.

Est-ce une bonne analogie ?

OpenAI a détruit les jeux de données de livres sur lesquels elle a entrainé ses premiers modèles

Plainte de nombreux auteurs américains
Des pièces à conviction détruites ?
Destruction « avant litige »

Catégories

Nous Suivre

À propos

OpenAI a détruit les jeux de données de livres sur lesquels elle a entrainé ses premiers modèles