Façade du bâtiment du New York TimesPhoto de Jakayla Toney sur Unsplash

Plainte pour violation du Copyright : OpenAI répond au New York Times

Anciens vs Modernes ?

Avatar de l'auteur
Martin Clavey

Publié dans

DroitIA et algorithmes

11/01/2024 8 minutes
20

Façade du bâtiment du New York TimesPhoto de Jakayla Toney sur Unsplash

Après l'annonce par le journal américain du dépôt d'une plainte pour violation du copyright, OpenAI répond en argumentant notamment que l'entrainement des modèles d'intelligence artificielle correspond à un usage du « fair use » et que la « régurgitation » d'extraits d'articles du journal n'est qu'un bug rare.

Fin décembre, le New York Times annonçait via un article publié par deux de ses journalistes avoir porté plainte contre OpenAI et Microsoft. La plainte affirme notamment que ces entreprises ont utilisé des millions d'articles du journal pour entraîner leur famille de grands modèles de langage (Large language models en anglais, LLM) GPT utilisée par ChatGPT, Bing Chat et Copilot.

Mais elle expliquait aussi que « le grand modèle de langage GPT-4 actuel produit des copies quasi-verbatim de parties significatives des œuvres du Times ». Le journal montrait aussi dans ce document que les utilisateurs de ChatGPT pouvaient accéder au quasi-verbatim de ses articles sous paywall. La plainte donne quelques exemples comme ceux-ci :

Cette semaine, l'entreprise propriétaire de ChatGPT a publié une réponse sur son blog contredisant cette attaque en justice.

« Training is fair use » selon OpenAI

L'argument principal d'OpenAI contre la plainte du New York Times est d'expliquer que « l'entraînement de modèles d'intelligence artificielle à l'aide de contenu Internet accessible au public constitue un usage raisonnable [« fair use » en anglais], comme le montrent des précédents anciens et largement acceptés ».

Le créateur de ChatGPT met aussi en avant son processus d'opt-out simple en précisant que le New York Times l'a adopté en aout 2023. Il oublie cependant d'expliquer que ce processus n'a été, lui aussi, mis en place qu'à cette date-là. Les auteurs des contenus utilisés pour l'entrainement des modèles d'OpenAI avant aout 2023 n'ont donc pas pu bénéficier de ce mécanisme d'opt-out simple. La plainte du New York Times précisait aussi que le journal « exige des tiers qu'ils obtiennent une autorisation avant d'utiliser son contenu et ses marques à des fins commerciales, et depuis des décennies, le Times concède son contenu dans le cadre d'accords de licence négociés ».

Et l'entreprise de citer plusieurs textes publiés par des chercheurs, des associations de bibliothèques et autres, qui seraient en faveur d'une inclusion dans le « fair use » de l'entraînement de modèles d'intelligence artificielle. OpenAI cite même des législations non-américaines (notamment la directive européenne d'avril 2019 sur le droit d'auteur et les droits voisins) qui iraient dans ce sens.

Mais quand on lit certains de ces documents cités par OpenAI, il n'est pas si clair qu'ils aillent tous dans le sens de l'entreprise.

Des positions pas si nettes

OpenAI cite par exemple la réponse des chercheurs en droit Pamela Samuelson, Christopher Sprigman et Matthew Sag aux questions que leur a posées le Bureau du Copyright. Mais dans celle-ci, ils notent que « contrairement aux technologies antérieures reposant sur la copie que les tribunaux ont jugé relevant du "fair use", il est impossible d'affirmer catégoriquement que les entrées et sorties de l'IA générative relèveront toujours du "fair use" ».

Et à la question « dans quelles circonstances l'utilisation non autorisée d'œuvres protégées par le Copyright pour former des modèles d'IA relèverait du "fair use" ? », ces trois chercheurs expliquent qu' « en résumé : si les résultats d'un modèle d'IA ne sont pas substantiellement similaires à l'expression protégée incorporée dans des œuvres spécifiques dans les données d'entraînement, alors [...] la copie impliquée dans l'assemblage et le prétraitement des données d'entraînement relèverait du fair use ».

Mais, en l'occurrence, le New York Times reproche justement à OpenAI que ChatGPT renvoie des extraits entiers de ses articles. Nous ne sommes pas dans le seul cas évoqué par ces chercheurs.

Dans la directive européenne d'avril 2019 citée par OpenAI est prévue une exception au droit d'auteur pour effectuer une fouille de textes et de données. Celle-ci inclut la possibilité aux auteurs de réserver l'utilisation de leurs œuvres lorsque la fouille est faite par d'autres acteurs que des chercheurs, un système d'opt-out, donc. Mais cette directive européenne n'autorise pas le fait de reproduire en sortie des passages entiers d'articles collectés comme ceux du New York Times.

Bug ou fonctionnalité ?

Cette reproduction, ou « régurgitation » des textes fouillés, selon OpenAI, ne serait qu'un « bug rare » sur lequel l'entreprise travaille pour le réduire à zéro. « La mémorisation est une défaillance rare du processus d'apprentissage sur laquelle nous progressons continuellement, mais elle est plus fréquente lorsqu'un contenu particulier apparaît plus d'une fois dans les données d'apprentissage », explique-t-elle.

Le problème est, comme nous avons pu le montrer avec MidJourney, que cette « régurgitation » par les IA génératives ne semble pas si rare que ça.

On peut aussi observer que ces IA génératives s'appuient sur une technique principale : les modèles de langage. Ceux-ci sont des « robots perroquets probabilistes » qui « assembl[ent] au hasard des séquences de formes linguistiques qu'il [ont] observées dans ses vastes données d'apprentissage, comme l'expliquaient déjà en 2021 Emily Bender, Timnit Gebru, Angelina McMillan-Major et Margaret Mitchell. Il est donc normal, quand un contenu apparait beaucoup de fois dans les données d'apprentissage, qu'ils aient tendance à le « régurgiter ».

Des IA génératives impossibles à créer sans accès aux contenus copyrightés

Ce procès pourrait être un moment difficile à passer pour les entreprises qui se sont lancées dans cet émergent marché de l'IA générative. Dimanche, le journal britannique Telegraph expliquait qu'OpenAI avouait, dans une lettre [PDF] au comité restreint de la Chambre des Lords sur les communications et le numérique, qu'elle ne pourrait pas entraîner ses grands modèles de langage sans utiliser des contenus copyrightés :

« Étant donné que le Copyright couvre aujourd'hui pratiquement toutes les formes d'expression humaine — y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux — il serait impossible d'entraîner les meilleurs modèles d'IA actuels sans utiliser des documents protégés par le droit d'auteur ».

Autre complexité : Reuters Institute explique qu' « à la fin 2023, environ la moitié des principaux éditeurs ont cessé d'autoriser les grandes plateformes d'IA à accéder à leur contenu ». Si l'étude est encore en cours, « cela va de près de 80 % des principaux éditeurs aux États-Unis à moins de 20 % au Mexique ».

« En supprimant l'autorisation, les éditeurs sont mieux à même de conclure des accords avec les plateformes », commente le Reuters Institute. Le contrat entre Axel Springer et OpenAI pourrait faire tache d'huile dans le secteur.

D'ailleurs, OpenAI accuse le New York Times de ne pas raconter « toute l'histoire » et d'avoir été en négociation avec le journal : « nos discussions avec le New York Times semblaient progresser de manière constructive jusqu'à notre dernière communication du 19 décembre », soit 8 jours seulement avant la publication de l'enquête des journalistes du New York Times.

Ces négociations « portaient sur un partenariat de grande valeur autour de l'affichage en temps réel avec attribution dans ChatGPT, dans lequel le New York Times gagnerait un nouveau moyen de se connecter avec ses lecteurs existants et nouveaux, et nos utilisateurs auraient accès à leurs reportages ».

Dans sa plainte, le New York Times précisait que ces discussions, entamées à l'initiative du journal auprès de Microsoft et d'OpenAI depuis le mois d'avril, n'avaient pas abouti sur une résolution à l'amiable.


Mise à jour : une première version de l'article affirmait que la directive européenne n'était pas claire sur le mécanisme d'opt-out. Suite à un commentaire ci-dessous, cette partie a été corrigée.

Écrit par Martin Clavey

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

« Training is fair use » selon OpenAI

Des positions pas si nettes

Bug ou fonctionnalité ?

Des IA génératives impossibles à créer sans accès aux contenus copyrightés

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Fermer

Commentaires (20)


De même, il n’est pas clair que la directive européenne d’avril 2019 citée par OpenAI aille dans son sens. En effet, il y est écrit que, dans le cadre de la fouille de textes par des acteurs qui ne font pas partie d’organisme de recherche, « les titulaires de droits devraient conserver la possibilité d’autoriser les utilisations de leurs œuvres ou autres objets protégés qui ne relèvent pas du champ d’application de l’exception obligatoire prévue par la présente directive concernant la fouille de textes et de données à des fins de recherche scientifique et de celui des exceptions et limitations existantes prévues par la directive 2001/29/CE ».


Cet extrait pourrait sembler imposer l’utilisation d’un opt-in de la part des auteurs avant toute utilisation de textes dans ce cadre.


Une directive européenne, c'est des considérants (introduits par la phrase "considérant ce qui suit:" en début de document)

puis une partie "législative" introduite par la phrase "ONT ADOPTÉ LA PRÉSENTE DIRECTIVE:".

La première partie explique pourquoi on a décidé de réglementer comme écrit dans la seconde partie.

La partie de la directive citée est dans le considérant 18.

Mais il faut en lire la suite qui dit que :
Afin d'améliorer la sécurité juridique dans ces situations et d'encourager également l'innovation dans le secteur privé, la présente directive devrait, dans certaines conditions, prévoir une exception ou une limitation pour les reproductions et extractions d'œuvres ou autres objets protégés aux fins de la fouille de textes et de données, et autoriser la conservation des copies ainsi effectuées pendant toute la durée nécessaire aux fins de cette fouille de textes et de données.


Cette exception ou limitation ne devrait s'appliquer que lorsque le bénéficiaire a accès de manière licite aux œuvres ou autres objets protégés, y compris lorsque ceux-ci ont été mis à la disposition du public en ligne, et dans la mesure où les titulaires de droits n'ont pas réservé de manière appropriée les droits de reproduction et d'extraction pour la fouille de textes et de données. En ce qui concerne les contenus mis à la disposition du public en ligne, la réservation de ces droits ne devrait être jugée appropriée que si elle est effectuée au moyen de procédés lisibles par machine, y compris des métadonnées et les conditions générales d'utilisation d'un site internet ou d'un service.

Donc, pour des raisons de sécurité juridique (et pour encourager l’innovation), il faudrait pouvoir autoriser l'accès aux œuvres (et autres objets) dans les conditions décrites au dernier paragraphe cité. Et il y a finalement l'opt-out qui est introduit en disant que les titulaires de droits peuvent réserver leurs droits dans le cas de la reproduction ou la fouille de texte, mais il faut qu'ils l'expriment par un procédé lisible par une machine.

Et on arrive donc à la rédaction de l’article 4 :
1. Les États membres prévoient une exception ou une limitation aux droits prévus à l'article 5, point a), et à l'article 7, paragraphe 1, de la directive 96/9/CE, à l'article 2 de la directive 2001/29/CE, à l'article 4, paragraphe 1, points a) et b), de la directive 2009/24/CE et à l'article 15, paragraphe 1, de la présente directive pour les reproductions et les extractions d'œuvres et d'autres objets protégés accessibles de manière licite aux fins de la fouille de textes et de données.


2. Les reproductions et extractions effectuées en vertu du paragraphe 1 peuvent être conservées aussi longtemps que nécessaire aux fins de la fouille de textes et de données.

3. L'exception ou la limitation prévue au paragraphe 1 s'applique à condition que l'utilisation des œuvres et autres objets protégés visés audit paragraphe n'ait pas été expressément réservée par leurs titulaires de droits de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne.

4. Le présent article n'affecte pas l'application de l'article 3 de la présente directive.

que je peux résumer ainsi :

1. On fait une exception ou limitation au droit d'auteur aux fins de fouille de texte et de données.

2. On peut garder les reproductions (copies) ou extractions aussi longtemps que nécessaire à cette fouille.

3. Les titulaires des droits peuvent s'opposer à cette exception au droit d'auteur explicitement, de façon lisible par une machine.

4. Il n'y a pas d'opposition possible pour la recherche scientifique.
Mais en France, l’exécutif a clairement penché en 2021 vers l’opt-out dans l’ordonnance transposant cette directive : « des copies ou reproductions numériques d’œuvres auxquelles il a été accédé de manière licite peuvent être réalisées en vue de fouilles de textes et de données menées à bien par toute personne, quelle que soit la finalité de la fouille, sauf si l’auteur s’y est opposé de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne ».


La France a donc bien appliqué correctement la directive en rédigeant son ordonnance ainsi.
En tout cas, cette directive européenne n’autorise pas le fait de reproduire en sortie des passages entiers d’articles collectés comme ceux du New York Times.


Ça, c'est vrai. C'est un problème qui doit être corrigé.
Modifié le 11/01/2024 à 17h11
Merci pour la remarque. Je modifie l'article en conséquences.

Martin Clavey

Merci pour la remarque. Je modifie l'article en conséquences.
J'ai trouvé trop compliqué de signaler l'erreur par l'outil dédié. C'est un peu long à bien expliquer.

Édit : je laisse mon premier commentaire : j'ai passé du temps à l'écrire ( :D) et ça permet à comprendre comment on lit une directive européenne.

Comme j'avais cité les morceaux de l'article, ça reste compréhensible après la modification.
Modifié le 11/01/2024 à 18h11
« Étant donné que le Copyright couvre aujourd’hui pratiquement toutes les formes d’expression humaine — y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux — il serait impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le droit d’auteur ».


Ils étaient donc parfaitement au courant des limites de leur business model. Mais comme toute bonne startup qui se respecte: on fonce d'abord en pariant sur le fait qu'une fois qu'on sera implanté, on imposera nos vues aux autres.

Le problème est que cette affirmation est fausse.
Il ne serait pas impossible d'entrainer les modèles, cela couterait simplement beaucoup plus cher ET cela prendrait plus de temps.
Il faudrait pour cela, embaucher des rédacteurs qui créeraient du contenu exclusif à utiliser pour l'apprentissage OU à conclure des partenariats, voire ponctuellement rémunérer des créateurs de contenu existant.
Dans les 2 cas, cela couterait extremement cher, mais cela refléterait la valeur de ce qui est utilisé pour entrainer ces modèles.
Modifié le 11/01/2024 à 22h02
« La mémorisation est une défaillance rare du processus d’apprentissage »

J'ai lolé là dessus. Ils font apprendre des textes par cœur, mais la mémorisation est une défaillance ?!
Non. Par contre, de leurs points de vues, accéder directement à cette mémorisation, verbatim, est un bug, oui.

Et puis, ils viennent à pleurer sur le coût du copyright alors qu'ils nous ont fait chier pendant 90 ans (après la mort de l'auteur)… Qu'ils aillent se faire cuire un œuf. Je veux mes royalties, incluant celles sur ce commentaire, ici.
J'ai lolé là dessus. Ils font apprendre des textes par cœur, mais la mémorisation est une défaillance ?!


Un LLM n'apprend pas les textes par coeur, il apprend la relation entre les mots dans un contexte donné.

Pour faire simple, il apprend à lire. Mais sur des milliers de sources différentes.

SebGF

J'ai lolé là dessus. Ils font apprendre des textes par cœur, mais la mémorisation est une défaillance ?!


Un LLM n'apprend pas les textes par coeur, il apprend la relation entre les mots dans un contexte donné.

Pour faire simple, il apprend à lire. Mais sur des milliers de sources différentes.
Un LLM n'apprend pas les textes par coeur


ça, ça dépend de la façon dans le réseau de neurones est entrainé. Le fait qu'il recrache quasiment un texte d'entrainement montre que c'est au moins partiellement mal configuré.

SebGF

J'ai lolé là dessus. Ils font apprendre des textes par cœur, mais la mémorisation est une défaillance ?!


Un LLM n'apprend pas les textes par coeur, il apprend la relation entre les mots dans un contexte donné.

Pour faire simple, il apprend à lire. Mais sur des milliers de sources différentes.
Donc, s'il recrache un texte dans le contexte qu'on lui demande, qui correspond, eh bien c'est réussi.

La relation entre les mots, c'est de la mémorisation.

Cqoicebordel

Donc, s'il recrache un texte dans le contexte qu'on lui demande, qui correspond, eh bien c'est réussi.

La relation entre les mots, c'est de la mémorisation.
Le rôle d'un LLM est de prédire la suite de tokens la plus probable et cohérente pour un contexte donné. Pas de recracher un texte par coeur. Ce qu'ils appellent mémorisation dans le cas présent, c'est le fait d'avoir appris le texte et non la lecture des mots.

C'est ça la nuance.

SebGF

Le rôle d'un LLM est de prédire la suite de tokens la plus probable et cohérente pour un contexte donné. Pas de recracher un texte par coeur. Ce qu'ils appellent mémorisation dans le cas présent, c'est le fait d'avoir appris le texte et non la lecture des mots.

C'est ça la nuance.
Sauf que, la suite de tokens la plus probable, dans le bon contexte, c'est le texte original. Là est l'apprentissage par cœur.

La LLM fait ça pour des milliards de texte, donc en sortie, on se rend rarement compte de l'origine des textes, et ça se mélange, mais ce sont des bouts de textes appris par cœur, mis à la suite les uns des autres.

C'est comme une fonction de randomisation. Si tu pars de la bonne seed, tu retrouves les mêmes numéros. Bah là, c'est pareil. Avec le bon contexte de base, on peut retrouver un texte appris par cœur. Surtout quand ce texte provient d'un journal connu, et donc dont l'article a souvent été copié/collé sur d'autres sites (et donc se retrouve plusieurs fois dans la base d'apprentissage).

Le cerveau humain fonctionne de la même façon, exactement : plus on lit un texte, plus on le connait, et on est capable de le ressortir. Là, c'est la rétropropagation du gradient, mais ça revient au même, c'est appris par cœur.
« Autre complexité : Reuters Institute explique qu’ « à la fin 2023, environ la moitié des principaux éditeurs ont cessé d’autoriser les grandes plateformes d’IA à accéder à leur contenu ». »

Et Next, vous autorisez ou non l'aspiration de vos articles par les robots de l'IA ?
Modifié le 12/01/2024 à 14h20
Pour le faire, il faut mettre ce code spécifique dans /robots.txt :
User-Agent: GPTBot
Disallow: /

ce n'est actuellement pas le cas : https://next.ink/robots.txt
Sauf que contrairement à une image. Un mot changé dans un article peut en transformer le sens.
D'où de connaître une source lors d'une citation car une mauvaise troncature peut faire dire l'inverse de ce que l'auteur voulait dire.

exemple :
Je suis pour.
Je suis pourri.

Je pense le dans un canevas d'une "IA" générative l'image bruité serait très proche.
Une image non modifiée mais sortie de son contexte peut aussi avoir un autre sens. C'est une des bases de la désinformation qui pullule sur le Web.
Je pense le dans un canevas d'une "IA" générative l'image bruité serait très proche.


Une IA qui commente sur Next enfin démasquée ! :D Elle aligne les mots sans que cela n'ait un sens.

fred42

Je pense le dans un canevas d'une "IA" générative l'image bruité serait très proche.


Une IA qui commente sur Next enfin démasquée ! :D Elle aligne les mots sans que cela n'ait un sens.
Du fait de la dualité de la situation de la société, il faut avoir à l'esprit toutes les problématiques possibles.







Question du jour : le pipotron peut-il être considéré comme une IA générative ? xD

fdorin

Du fait de la dualité de la situation de la société, il faut avoir à l'esprit toutes les problématiques possibles.







Question du jour : le pipotron peut-il être considéré comme une IA générative ? xD
Question du jour : le pipotron peut-il être considéré comme une IA générative ? xD


Non, mais une IA générative peut parfaitement remplir ce rôle :p

Encore de la destruction d'emploi, tiens !
Modifié le 12/01/2024 à 13h24

fred42

Je pense le dans un canevas d'une "IA" générative l'image bruité serait très proche.


Une IA qui commente sur Next enfin démasquée ! :D Elle aligne les mots sans que cela n'ait un sens.
Effectivement dans mon esprit j'ai d'abord penser "dans le contexte d'une..." puis j'ai penser à "canevas" et je me suis mal corrigé. Effectivement il n'y a que en me relisant maintenant que je viens de voir la bourde.
Désolé ;-) Mais au moins elle était drôle, c'est déjà ça :-)
Modifié le 12/01/2024 à 17h38
Je suis pourri.


Je le savais, j'en étais sûr! Et le pire, c'est que tu en est fier...:eeek2::roll:

:francais:

Patch

Je suis pourri.


Je le savais, j'en étais sûr! Et le pire, c'est que tu en est fier...:eeek2::roll:

:francais:
Et merde, je suis découvert...:-D et non pas recouvert. :francais: