Façade du bâtiment du New York TimesPhoto de Jakayla Toney sur Unsplash

OpenAI contre-attaque et accuse le New York Times d’avoir « hacké » ses produits

Façade du bâtiment du New York TimesPhoto de Jakayla Toney sur Unsplash

Alors que l'entreprise d'intelligence artificielle est, depuis décembre, visée par une plainte du journal américain, OpenAI répond maintenant devant les tribunaux en accusant le New York Times d'appuyer son action judiciaire sur le hacking de ses modèles.

En décembre dernier, le New York Times attaquait OpenAI et Microsoft pour violation du copyright. Le journal considère que les deux entreprises leaders du monde de l'IA générative ont violé le copyright de ses archives et le concurrencent de manière déloyale.

Dans sa plainte, le média américain affirme que Microsoft et OpenAI ont utilisé des millions de ses articles pour entrainer leurs grands modèles de langage au cœur de leurs outils d'intelligence artificielle générative ChatGPT, Bing Chat et Copilot.

OpenAI a d'abord, en janvier, répondu sur le terrain de la communication publique en expliquant qu'elle considérait que l'entrainement de ses modèles sur des contenus accessibles était un usage raisonnable encadré par le « fair use » des contenus sous copyright aux États-Unis.

Mais le leader de l'IA générative passe maintenant à la contre-offensive juridique. Dans une déclaration écrite [PDF] déposée lundi 26 février à la cour fédérale du District sud de New York, OpenAI explique à la justice américaine qu'elle considère que le journal a dû « hacker » ses produits pour sortir ses exemples.

« Hack » et violation des conditions d'utilisation

Alors que dans sa plainte, le New York Times vantait la qualité de ses articles, mettant en avant son travail important de production de journalisme de « classe internationale », d'investigation, d'informations exclusives, de journalisme spécialisé, de critique et d'analyse, etc., les avocats d'OpenAI rétorquent que « les allégations contenues dans la plainte du Times ne répondent pas aux normes journalistiques rigoureuses qui font sa renommée ».

Le journal américain reproche à OpenAI et à Microsoft une concurrence déloyale en fournissant aux utilisateurs de leurs outils des contenus quasi-complets. Pour prouver ses accusations, le New York Times a assorti sa plainte de plusieurs exemples qui permettent de constater que les utilisateurs de ChatGPT peuvent accéder au quasi-verbatim de ses articles sous paywall.

Mais l'entreprise argue que le journal a utilisé de façon problématique son outil pour en arriver là. « La vérité, qui apparaîtra au cours de cette affaire, est que le Times a payé quelqu'un pour hacker les produits d'OpenAI », affirment les avocats de l'entreprise d'IA générative dans leur déclaration écrite.

Ils ajoutent qu' « il leur a fallu des dizaines de milliers de tentatives pour générer les résultats hautement anormaux » qui servent d'exemples dans la plainte du New York Times, suggérant que cela n'a rien d'une utilisation ordinaire.

Pour les avocats d'OpenAI, « contrairement aux allégations de la plainte, ChatGPT n'est en aucun cas un substitut à un abonnement au New York Times. Dans le monde réel, les gens n'utilisent pas ChatGPT ou tout autre produit d'OpenAI à cette fin. Ils ne le pourraient d'ailleurs pas ».

Bug ou feature ?

Comme dans sa communication publiée le mois dernier, l'entreprise assure que c'est l'exploitation d'un bug dans son système qui a permis de générer ces exemples. Elle rappelle qu'elle s'est « engagée à [le] corriger » et que l'exploitation de ce « bug » viole « de manière flagrante les conditions d'utilisation d'OpenAI ».

Une partie de la discussion devrait tourner autour de cette question, que nous connaissons bien dans le numérique : est-ce un bug ou une fonctionnalité ? Ou encore, est-ce une erreur corrigeable ou une propriété du système mis en place qui peut être atténuée ou cachée, mais inhérente à la conception ? Mais alors que les utilisateurs sont habitués à se poser cette question, ici, c'est la justice américaine qui va devoir trancher.

« Fair use » ou « vol »

L'autre sujet sur lequel les avocats du New York Times et ceux d'OpenAI vont argumenter pendant cette action en justice est la qualification de « fair use » pour l'usage de millions de contenus afin d'entraîner les IA génératives.

Dans sa plainte, le journal affirme n'avoir « jamais donné l'autorisation à aucune entité, y compris les accusés, d'utiliser son contenu à des fins d'IA générative ». Mais OpenAI considère que « qu'il est clair depuis longtemps que l'utilisation non consommatrice de matériel protégé par le copyright (comme la formation de grands modèles de langage) est protégée par le "fair use" ».

L'entreprise donne des exemples d'utilisation du fair use en montrant avec ironie que le New York Times l'utilise (ce qui n'est pas très étonnant) mais aussi que le fair use a été utilisé en justice pour « protéger des innovations utiles comme l'enregistrement vidéo à domicile, la recherche sur internet, les outils de recherche de livres, la réutilisation d'API, et bien d'autres encore ».

Mais ici, nous sommes dans un cas un peu différent puisque c'est l'utilisation de millions de contenus entiers par une seule entité commerciale qui est pointée par le journal. C'est d'ailleurs en ce sens que ce cas est très suivi : il pourrait instaurer une jurisprudence sur l'utilisation massive par les entreprises d'IA génératives de contenus créés par d'autres.

Commentaires (20)


le NYT va dire que leur "piratage" était du "fair use" de openai ;)
Modifié le 29/02/2024 à 17h23

Historique des modifications :

Posté le 29/02/2024 à 17h22


le NYT va dire que c'était du "fair use" de openai ;)

Le "bug" en question serait, si j'ai bien compris, de l'exploitation de faille en soumettant des prompts très orientés incluant des morceaux de texte attendus. Une façon de biaiser le moteur statistique derrière pour orienter ses calculs de probabilité et reproduire au plus fidèle le contenu d'articles du New York Times. Cela rappelle la faille qui permettait de faire cracher des données d'entraînement en répétant plusieurs fois le même mot dans un prompt.

Egalement, la démonstration d'OpenAI indique que seuls de cours extraits (une centaine de mots) ont été produits pour des articles de plus de 16 000.

Autre élément intéressant qui a été mis de côté, toujours de ma compréhension à la lecture du rapport d'audience, les griefs indiquant que ChatGPT imitait le style journalistique du New York Times. Il a été rappelé qu'aux USA, il n'est pas possible de copyright un style artistique, ce n'est pas suffisamment discriminant (ex : copyrighter l’impressionnisme).
« il leur a fallu des dizaines de milliers de tentatives pour générer les résultats hautement anormaux » qui servent d'exemples dans la plainte du New York Times


ça alors quelle surprise
Mais ici, nous sommes dans un cas un peu différent puisque c'est l'utilisation de millions de contenus entiers par une seule entité commerciale qui est pointée par le journal.


Où est la différence ? Google contre Perfect 10 ou Authors Guild c'était pareil.
Et le résultat sera le même. La création d'un LLM est hautement transformative -> fair use
Mettre en premier l'enregistrement vidéo à domicile dans les exemples de "fair-use" c'est quand même bien gonflé: Rien de comparable entre une copie exacte à usage familial/restreint et le fait d'ingurgiter des montagnes d'info pour les recracher sous une forme plus ou moins fidèlement prédigérée répondant à une question de n'importe qui.
Les API, en dernier exemple, ferme le ban: Le fait d'en restreindre l'usage si on ne se conforme pas à des conditions est très commun. Cf EXPORT_SYMBOL_GPL du noyau Linux.
OpenAI doit penser que les données du monde, c'est OpenBar?
Ce n'est pas open bar, car ChatGPT ne peut en répéter que des petits bouts, et cela uniquement si on l'y pousse de manière forcenée.

Mais oui des données accessibles au public (ex. d'un journal) sont par définition accessibles de manière openbar (au paiement de l'abonnement près éventuellement). Si quelqu'un veut vraiment protéger ses données, cette personne doit commencer par ne pas les partager largement sur internet. Les données du monde sont openbar. La lettre que tu écris à ta tante, ou le contenu du site familial protégé par mot de passe, ne le sont pas.
Modifié le 01/03/2024 à 13h28

Historique des modifications :

Posté le 01/03/2024 à 13h28


Ce n'est pas open bar, car ChatGPT ne peut en répéter que des petits bouts, et cela uniquement si on l'y pousse de manière forcenée.

Mais oui des données accessibles au public (ex. d'un journal) sont par définition accessible de manière openbar (au paiement de l'abonnement près éventuellement). Si quelqu'un veut vraiment protéger ses données, cette personne doit commencer par ne pas les partager largement sur internet. Les données du monde sont openbar. La lettre que tu écris à ta tante, ou le contenu du site familial protégé par mot de passe, ne le sont pas.

Je ne comprends pas où est le problème : même s'il faut ruser et bourriner un peu pour lui faire cracher le morceaux, si ChatGPT est capable de ressortir des passages d'articles du NYT, c'est quand même bien la preuve qu'il a été entraîné avec des articles du NYT, et donc violation du copyright & condition d'utilisation du site du NYT, non ?
Pas si ça tombe dans le cas d'usage du fair use derrière lequel OpenAI se retranche pour sa défense.

SebGF

Pas si ça tombe dans le cas d'usage du fair use derrière lequel OpenAI se retranche pour sa défense.
Le fair use comme donnée d'entraînement, pourquoi pas. C'est un peu le point de vue que je soutiens depuis que l'on parle de ces problèmes d'entraînement à partir de données sous copyright/soumise au droit d'auteur.

Il y a un aspect qui ne correspond pas au fair use : la régurgitation de texte qui a servi à l'entraînement.

Mais,

1) le cas du NYT a l'air de correspondre à un bug qui sera (ou est) corrigé. Comme ce n'est pas volontaire et que c'est assez restreint, ça peut ne pas être condamné.

2) les requêtes ont été travaillées pour arriver à ressortir le texte et peut-être le texte a peut-être été introduit dans les requêtes (prompts)

SebGF

Pas si ça tombe dans le cas d'usage du fair use derrière lequel OpenAI se retranche pour sa défense.
Le fair use quand tout le business de la boîte repose sur l'entraînement d'une IA, donc sur la qualité des données d'entraînement ? Ça me semble un peu tiré par les cheveux. Ce que vend OpenAI, ce sont les données d'entraînement sous une forme digérée.

alex.d.

Le fair use quand tout le business de la boîte repose sur l'entraînement d'une IA, donc sur la qualité des données d'entraînement ? Ça me semble un peu tiré par les cheveux. Ce que vend OpenAI, ce sont les données d'entraînement sous une forme digérée.
Ce que vend OpenAI, ce sont les données d'entraînement sous une forme digérée.


Non, ils vendent l'accès à des API de modèles d'IA générative. Les données d'entraînement, c'est ce qui a servi à produire ces modèles. Ces données sont perdues une fois le modèle entraîné (la régurgitation en l'état est un défaut appelé "mémorisation"). Ce que tu appelles la "forme digérée", ce sont les poids, un gros fichier binaire chargé par le programme pour calculer les probabilités de résultat. OpenAI ne fourni par les poids à ma connaissance en dehors de leurs rares modèles open-source mais juste des interfaces pour les exploiter. Je ne me souviens pas d'avoir vu si les modèles actuels d'OpenAI sont disponibles on-premise ou non, à ma connaissance ce n'est que du managé via leur offre en propre ou celle d'Azure.

Concernant le fair use, on verra ce que le tribunal prononcera.

SebGF

Ce que vend OpenAI, ce sont les données d'entraînement sous une forme digérée.


Non, ils vendent l'accès à des API de modèles d'IA générative. Les données d'entraînement, c'est ce qui a servi à produire ces modèles. Ces données sont perdues une fois le modèle entraîné (la régurgitation en l'état est un défaut appelé "mémorisation"). Ce que tu appelles la "forme digérée", ce sont les poids, un gros fichier binaire chargé par le programme pour calculer les probabilités de résultat. OpenAI ne fourni par les poids à ma connaissance en dehors de leurs rares modèles open-source mais juste des interfaces pour les exploiter. Je ne me souviens pas d'avoir vu si les modèles actuels d'OpenAI sont disponibles on-premise ou non, à ma connaissance ce n'est que du managé via leur offre en propre ou celle d'Azure.

Concernant le fair use, on verra ce que le tribunal prononcera.
Peu importe la forme, le business repose entièrement sur l'accès aux données d'entraînement, et l'utilisation des données est _massive_. Ça ne semble pas du tout correspondre au cas du fair use.
On n'est pas du tout dans les cas d'enseignement, de critique, de citation courte, etc.

alex.d.

Peu importe la forme, le business repose entièrement sur l'accès aux données d'entraînement, et l'utilisation des données est _massive_. Ça ne semble pas du tout correspondre au cas du fair use.
On n'est pas du tout dans les cas d'enseignement, de critique, de citation courte, etc.
le business repose entièrement sur l'accès aux données d'entraînement, et l'utilisation des données est _massive_.


Non justement, c'est même le plus gros reproche qu'on peut faire aux entreprises de l'IA : les données d'entraînement ne sont PAS divulguées ni officiellement connues ! Contrairement à des dataset publics tels que LAION (même si 5B est actuellement retiré pour problèmes de légalité dans le contenu), celui utilisé par OpenAI est privé.

On ne peut donc pas dire qu'ils font du business sur l'accès aux données d'entraînement, cela n'a aucun sens car ça signifierait qu'ils commercialiseraient le dataset, pas le modèle.

Par contre le terme utilisation, voire même exploitation est correct pour indiquer l'usage fait des données d'entraînement. Elles servent à produire un modèle statistique (les poids) dont l'accès et l'usage est commercialisé derrière.

Personnellement j'attend vraiment de voir ce que donnera la décision car elle pourrait potentiellement faire très mal aux entreprises de la tech aux USA (vu que la jurisprudence s'appliquera là bas). A voir la portée qu'elle aura.

SebGF

le business repose entièrement sur l'accès aux données d'entraînement, et l'utilisation des données est _massive_.


Non justement, c'est même le plus gros reproche qu'on peut faire aux entreprises de l'IA : les données d'entraînement ne sont PAS divulguées ni officiellement connues ! Contrairement à des dataset publics tels que LAION (même si 5B est actuellement retiré pour problèmes de légalité dans le contenu), celui utilisé par OpenAI est privé.

On ne peut donc pas dire qu'ils font du business sur l'accès aux données d'entraînement, cela n'a aucun sens car ça signifierait qu'ils commercialiseraient le dataset, pas le modèle.

Par contre le terme utilisation, voire même exploitation est correct pour indiquer l'usage fait des données d'entraînement. Elles servent à produire un modèle statistique (les poids) dont l'accès et l'usage est commercialisé derrière.

Personnellement j'attend vraiment de voir ce que donnera la décision car elle pourrait potentiellement faire très mal aux entreprises de la tech aux USA (vu que la jurisprudence s'appliquera là bas). A voir la portée qu'elle aura.
Tu n'as pas compris mon message : leur business n'est pas de donner accès aux données ; leur business nécessite impérativement l'accès aux données. Sans ces données d'entraînement, OpenAI n'existe plus. On est indéniablement dans l'usage commercial des données.

alex.d.

Tu n'as pas compris mon message : leur business n'est pas de donner accès aux données ; leur business nécessite impérativement l'accès aux données. Sans ces données d'entraînement, OpenAI n'existe plus. On est indéniablement dans l'usage commercial des données.
Le NYT n'a indiqué dans ces "Terms of Service" le 3 Août 2023 que :
Non-commercial use does not include the use of Content without prior written consent from The New York Times Company in connection with: (1) the development of any software program, including, but not limited to, training a machine learning or artificial intelligence (AI) system; or (2) providing archived or cached data sets containing Content to another person or entity.


Avant cette date, ils n'avaient pas suffisamment bien définir l'usage non commercial à mon avis.
En particulier, le (2) couvre le cas de la société Common Crawl qui servait d'intermédiaire à OpenAI et donc je parlais dans mon commentaire d'hier. C'est peut-être bien cette société qui est en faute ici, comme je le suggérais hier.

Je sais que tu parles de façon plus générale pour toutes les sources de contenu, mais je pense qu'il faut que ces sources se protègent comme le NYT si elles ne veulent pas que leur contenu serve à l'entraînement des AI.

alex.d.

Tu n'as pas compris mon message : leur business n'est pas de donner accès aux données ; leur business nécessite impérativement l'accès aux données. Sans ces données d'entraînement, OpenAI n'existe plus. On est indéniablement dans l'usage commercial des données.
Oui, mais c'est un usage hautement transformatif. Tu peux donc aller relire la définition de fair use ainsi que les différends jugements rendus à ce sujet.
Modifié le 06/03/2024 à 12h10

Historique des modifications :

Posté le 06/03/2024 à 12h05


Oui, mais c'est un usage hautement transformatif. Tu peux donc aller relire la définition de fair use ainsi que les différentd jugements rendus à ce sujet.

psikobare

Oui, mais c'est un usage hautement transformatif. Tu peux donc aller relire la définition de fair use ainsi que les différends jugements rendus à ce sujet.
Je la connais la définition de fair use :
https://www.copyright.gov/fair-use/
Si on prend les critères :
1. commercial
2. là c'est le point faible, les articles c'est du factuel
3. amount : c'est bien simple, ils ont _tout_ aspiré
4. impact : c'est là que c'est subjectif, pour l'instant.

Ça me semble loin d'être évident que c'est du fair use.

alex.d.

Je la connais la définition de fair use :
https://www.copyright.gov/fair-use/
Si on prend les critères :
1. commercial
2. là c'est le point faible, les articles c'est du factuel
3. amount : c'est bien simple, ils ont _tout_ aspiré
4. impact : c'est là que c'est subjectif, pour l'instant.

Ça me semble loin d'être évident que c'est du fair use.
Visiblement tu as du mal à lire

1.“transformative” uses are more likely to be considered fair. Transformative uses are those that add something new, with a further purpose or different character, and do not substitute for the original use of the work.
Preuve que ChatGPT a été entraîné avec des articles du NYT, oui, sans aucun doute.
Violation du Copyright : Non comme l'a dit SebGF si le fair use est retenu
Violation des conditions d'utilisation du site du NYT : est-ce que ces condition d'utilisation interdisaient cela au moment de l’entraînement ? Je n'en suis pas sûr. À l'époque, personne ne pensait qu'il fallait se protéger contre ce genre d'utilisation.

Sur ce troisième point, celui qui accuse de violation des conditions d'utilisation, c'est OpenAI.

fred42

Preuve que ChatGPT a été entraîné avec des articles du NYT, oui, sans aucun doute.
Violation du Copyright : Non comme l'a dit SebGF si le fair use est retenu
Violation des conditions d'utilisation du site du NYT : est-ce que ces condition d'utilisation interdisaient cela au moment de l’entraînement ? Je n'en suis pas sûr. À l'époque, personne ne pensait qu'il fallait se protéger contre ce genre d'utilisation.

Sur ce troisième point, celui qui accuse de violation des conditions d'utilisation, c'est OpenAI.
Les conditions d'utilisations interdisaient sans doute toute utilisation commerciale, comme c'est souvent le cas.

alex.d.

Les conditions d'utilisations interdisaient sans doute toute utilisation commerciale, comme c'est souvent le cas.
À mon avis, ce n'est pas tant l'utilisation commerciale qui est en jeu ici que l'utilisation de robots qui est interdite depuis le 3 janvier 2019 :
Without NYT’s prior written consent, you shall not:
use robots, spiders, scripts, service, software or any manual or automatic device, tool, or process designed to data mine or scrape the Content, data or information from the Services, or otherwise access or collect the Content, data or information from the Services using automated means;


Le contenu du NYT restitué par ChatGPT cité dans leur plainte date du 19 mai 2019, donc après la l'interdiction d'utilisation des robots.
Finalement, OpenAI est assez mal sur ce point.

L'utilisation commerciale (interdite depuis au moins le 27 octobre 2017 et probablement depuis toujours) me semble concerner le contenu lui-même et pas une utilisation liée à l'entraînement d'une IA.

Les dates viennent de la way back machine d'archive.org

Remarque : en relisant la plainte du NYT, je vois que Open AI est passé par la société Common Crawl qui décrit ici sa "mission". Il est possible que ça soit eux qui sont en tort en mettant à disposition du contenu que leurs robots n'auraient pas dû colleter chez le NYT.
Modifié le 03/03/2024 à 16h41

Historique des modifications :

Posté le 02/03/2024 à 17h10


À mon avis, ce n'est pas tant l'utilisation commerciale qui est en jeu ici que l'utilisation de robots qui est interdite depuis le 3 janvier 2019 :

Without NYT’s prior written consent, you shall not:
use robots, spiders, scripts, service, software or any manual or automatic device, tool, or process designed to data mine or scrape the Content, data or information from the Services, or otherwise access or collect the Content, data or information from the Services using automated means;


Le contenu du NYT restitué par ChatGPT cité dans leur plainte date du 19 mai 2019, donc après la l'interdiction d'utilisation des robots.
Finalement, OpenAI est assez mal sur ce point.

L'utilisation commerciale (interdite depuis au moins le 27 octobre 2017 et probablement depuis toujours) me semble concerner le contenu lui-même et pas une utilisation liée à l'entraînement d'une IA.

Les dates viennent de la way back machine d'archive.org

Remarque : en relisant la plainte du NYT, je vois que Open AI est passé par la société Common Crawl qui décrit ici sa "mission". Il est possible que ça soit eux qui sont en tort en mettant à disposition du contenu que leurs robots n'auraient pas dû colleter chez le NYT.

Fermer