OpenAI contre-attaque et accuse le New York Times d’avoir « hacké » ses produits
Alors que l'entreprise d'intelligence artificielle est, depuis décembre, visée par une plainte du journal américain, OpenAI répond maintenant devant les tribunaux en accusant le New York Times d'appuyer son action judiciaire sur le hacking de ses modèles.
Le 29 février à 16h27
5 min
Droit
Droit
En décembre dernier, le New York Times attaquait OpenAI et Microsoft pour violation du copyright. Le journal considère que les deux entreprises leaders du monde de l'IA générative ont violé le copyright de ses archives et le concurrencent de manière déloyale.
Dans sa plainte, le média américain affirme que Microsoft et OpenAI ont utilisé des millions de ses articles pour entrainer leurs grands modèles de langage au cœur de leurs outils d'intelligence artificielle générative ChatGPT, Bing Chat et Copilot.
OpenAI a d'abord, en janvier, répondu sur le terrain de la communication publique en expliquant qu'elle considérait que l'entrainement de ses modèles sur des contenus accessibles était un usage raisonnable encadré par le « fair use » des contenus sous copyright aux États-Unis.
Mais le leader de l'IA générative passe maintenant à la contre-offensive juridique. Dans une déclaration écrite [PDF] déposée lundi 26 février à la cour fédérale du District sud de New York, OpenAI explique à la justice américaine qu'elle considère que le journal a dû « hacker » ses produits pour sortir ses exemples.
« Hack » et violation des conditions d'utilisation
Alors que dans sa plainte, le New York Times vantait la qualité de ses articles, mettant en avant son travail important de production de journalisme de « classe internationale », d'investigation, d'informations exclusives, de journalisme spécialisé, de critique et d'analyse, etc., les avocats d'OpenAI rétorquent que « les allégations contenues dans la plainte du Times ne répondent pas aux normes journalistiques rigoureuses qui font sa renommée ».
Le journal américain reproche à OpenAI et à Microsoft une concurrence déloyale en fournissant aux utilisateurs de leurs outils des contenus quasi-complets. Pour prouver ses accusations, le New York Times a assorti sa plainte de plusieurs exemples qui permettent de constater que les utilisateurs de ChatGPT peuvent accéder au quasi-verbatim de ses articles sous paywall.
Mais l'entreprise argue que le journal a utilisé de façon problématique son outil pour en arriver là. « La vérité, qui apparaîtra au cours de cette affaire, est que le Times a payé quelqu'un pour hacker les produits d'OpenAI », affirment les avocats de l'entreprise d'IA générative dans leur déclaration écrite.
Ils ajoutent qu' « il leur a fallu des dizaines de milliers de tentatives pour générer les résultats hautement anormaux » qui servent d'exemples dans la plainte du New York Times, suggérant que cela n'a rien d'une utilisation ordinaire.
Pour les avocats d'OpenAI, « contrairement aux allégations de la plainte, ChatGPT n'est en aucun cas un substitut à un abonnement au New York Times. Dans le monde réel, les gens n'utilisent pas ChatGPT ou tout autre produit d'OpenAI à cette fin. Ils ne le pourraient d'ailleurs pas ».
Bug ou feature ?
Comme dans sa communication publiée le mois dernier, l'entreprise assure que c'est l'exploitation d'un bug dans son système qui a permis de générer ces exemples. Elle rappelle qu'elle s'est « engagée à [le] corriger » et que l'exploitation de ce « bug » viole « de manière flagrante les conditions d'utilisation d'OpenAI ».
Une partie de la discussion devrait tourner autour de cette question, que nous connaissons bien dans le numérique : est-ce un bug ou une fonctionnalité ? Ou encore, est-ce une erreur corrigeable ou une propriété du système mis en place qui peut être atténuée ou cachée, mais inhérente à la conception ? Mais alors que les utilisateurs sont habitués à se poser cette question, ici, c'est la justice américaine qui va devoir trancher.
« Fair use » ou « vol »
L'autre sujet sur lequel les avocats du New York Times et ceux d'OpenAI vont argumenter pendant cette action en justice est la qualification de « fair use » pour l'usage de millions de contenus afin d'entraîner les IA génératives.
Dans sa plainte, le journal affirme n'avoir « jamais donné l'autorisation à aucune entité, y compris les accusés, d'utiliser son contenu à des fins d'IA générative ». Mais OpenAI considère que « qu'il est clair depuis longtemps que l'utilisation non consommatrice de matériel protégé par le copyright (comme la formation de grands modèles de langage) est protégée par le "fair use" ».
L'entreprise donne des exemples d'utilisation du fair use en montrant avec ironie que le New York Times l'utilise (ce qui n'est pas très étonnant) mais aussi que le fair use a été utilisé en justice pour « protéger des innovations utiles comme l'enregistrement vidéo à domicile, la recherche sur internet, les outils de recherche de livres, la réutilisation d'API, et bien d'autres encore ».
Mais ici, nous sommes dans un cas un peu différent puisque c'est l'utilisation de millions de contenus entiers par une seule entité commerciale qui est pointée par le journal. C'est d'ailleurs en ce sens que ce cas est très suivi : il pourrait instaurer une jurisprudence sur l'utilisation massive par les entreprises d'IA génératives de contenus créés par d'autres.
OpenAI contre-attaque et accuse le New York Times d’avoir « hacké » ses produits
-
« Hack » et violation des conditions d'utilisation
-
Bug ou feature ?
-
« Fair use » ou « vol »
Commentaires (20)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousModifié le 29/02/2024 à 17h23
Le 29/02/2024 à 18h10
Egalement, la démonstration d'OpenAI indique que seuls de cours extraits (une centaine de mots) ont été produits pour des articles de plus de 16 000.
Autre élément intéressant qui a été mis de côté, toujours de ma compréhension à la lecture du rapport d'audience, les griefs indiquant que ChatGPT imitait le style journalistique du New York Times. Il a été rappelé qu'aux USA, il n'est pas possible de copyright un style artistique, ce n'est pas suffisamment discriminant (ex : copyrighter l’impressionnisme).
Le 29/02/2024 à 18h49
Où est la différence ? Google contre Perfect 10 ou Authors Guild c'était pareil.
Et le résultat sera le même. La création d'un LLM est hautement transformative -> fair use
Le 01/03/2024 à 08h57
Les API, en dernier exemple, ferme le ban: Le fait d'en restreindre l'usage si on ne se conforme pas à des conditions est très commun. Cf EXPORT_SYMBOL_GPL du noyau Linux.
OpenAI doit penser que les données du monde, c'est OpenBar?
Modifié le 01/03/2024 à 13h28
Mais oui des données accessibles au public (ex. d'un journal) sont par définition accessibles de manière openbar (au paiement de l'abonnement près éventuellement). Si quelqu'un veut vraiment protéger ses données, cette personne doit commencer par ne pas les partager largement sur internet. Les données du monde sont openbar. La lettre que tu écris à ta tante, ou le contenu du site familial protégé par mot de passe, ne le sont pas.
Le 01/03/2024 à 13h47
Le 01/03/2024 à 18h29
Le 01/03/2024 à 19h36
Il y a un aspect qui ne correspond pas au fair use : la régurgitation de texte qui a servi à l'entraînement.
Mais,
1) le cas du NYT a l'air de correspondre à un bug qui sera (ou est) corrigé. Comme ce n'est pas volontaire et que c'est assez restreint, ça peut ne pas être condamné.
2) les requêtes ont été travaillées pour arriver à ressortir le texte et peut-être le texte a peut-être été introduit dans les requêtes (prompts)
Le 02/03/2024 à 14h49
Le 02/03/2024 à 15h05
Concernant le fair use, on verra ce que le tribunal prononcera.
Le 03/03/2024 à 02h05
On n'est pas du tout dans les cas d'enseignement, de critique, de citation courte, etc.
Le 03/03/2024 à 10h28
On ne peut donc pas dire qu'ils font du business sur l'accès aux données d'entraînement, cela n'a aucun sens car ça signifierait qu'ils commercialiseraient le dataset, pas le modèle.
Par contre le terme utilisation, voire même exploitation est correct pour indiquer l'usage fait des données d'entraînement. Elles servent à produire un modèle statistique (les poids) dont l'accès et l'usage est commercialisé derrière.
Personnellement j'attend vraiment de voir ce que donnera la décision car elle pourrait potentiellement faire très mal aux entreprises de la tech aux USA (vu que la jurisprudence s'appliquera là bas). A voir la portée qu'elle aura.
Le 03/03/2024 à 16h01
Le 03/03/2024 à 16h40
En particulier, le (2) couvre le cas de la société Common Crawl qui servait d'intermédiaire à OpenAI et donc je parlais dans mon commentaire d'hier. C'est peut-être bien cette société qui est en faute ici, comme je le suggérais hier.
Je sais que tu parles de façon plus générale pour toutes les sources de contenu, mais je pense qu'il faut que ces sources se protègent comme le NYT si elles ne veulent pas que leur contenu serve à l'entraînement des AI.
Modifié le 06/03/2024 à 12h10
Le 06/03/2024 à 12h40
https://www.copyright.gov/fair-use/
Si on prend les critères :
1. commercial
2. là c'est le point faible, les articles c'est du factuel
3. amount : c'est bien simple, ils ont _tout_ aspiré
4. impact : c'est là que c'est subjectif, pour l'instant.
Ça me semble loin d'être évident que c'est du fair use.
Le 06/03/2024 à 17h47
1.“transformative” uses are more likely to be considered fair. Transformative uses are those that add something new, with a further purpose or different character, and do not substitute for the original use of the work.
Le 01/03/2024 à 19h44
Violation du Copyright : Non comme l'a dit SebGF si le fair use est retenu
Violation des conditions d'utilisation du site du NYT : est-ce que ces condition d'utilisation interdisaient cela au moment de l’entraînement ? Je n'en suis pas sûr. À l'époque, personne ne pensait qu'il fallait se protéger contre ce genre d'utilisation.
Sur ce troisième point, celui qui accuse de violation des conditions d'utilisation, c'est OpenAI.
Le 02/03/2024 à 14h47
Modifié le 03/03/2024 à 16h41
Le contenu du NYT restitué par ChatGPT cité dans leur plainte date du 19 mai 2019, donc après la l'interdiction d'utilisation des robots.
Finalement, OpenAI est assez mal sur ce point.
L'utilisation commerciale (interdite depuis au moins le 27 octobre 2017 et probablement depuis toujours) me semble concerner le contenu lui-même et pas une utilisation liée à l'entraînement d'une IA.
Les dates viennent de la way back machine d'archive.org
Remarque : en relisant la plainte du NYT, je vois que Open AI est passé par la société Common Crawl qui décrit ici sa "mission". Il est possible que ça soit eux qui sont en tort en mettant à disposition du contenu que leurs robots n'auraient pas dû colleter chez le NYT.