Connexion
Abonnez-vous

Le New York Times attaque OpenAI et Microsoft pour violation du Copyright

Le New York Times attaque OpenAI et Microsoft pour violation du Copyright

Photo de Jakayla Toney sur Unsplash

Le 27 décembre 2023 à 17h28

Dans un article publié par deux journalistes du journal, le New York Times révèle avoir porté plainte contre OpenAI et Microsoft pour avoir utilisé des millions de ses articles pour entraîner leur famille de grands modèles de langage (Large language models en anglais, LLM) GPT utilisée par ChatGPT, Bing Chat et Copilot.

Le média américain considère, dans la plainte [PDF] déposée devant la Court fédérale du district de Manhattan, que les deux entreprises leaders du monde de l'IA générative ont violé le Copyright de ses archives et le concurrencent maintenant de manière déloyale. Le New York Times est le premier journal américain important à déposer une plainte de ce genre.

Il remarque que, « bien que les accusés se soient livrés à des copies à grande échelle à partir de nombreuses sources, ils ont accordé une importance particulière au contenu du Times lors de l'élaboration de leurs LLM, révélant ainsi une préférence qui reconnaît la valeur de ces œuvres ».

Le média ne précise pas la somme exacte qu'il réclame à OpenAI et Microsoft, mais la plainte précise que « cette action vise à les tenir responsables des milliards de dollars de dommages statutaires et réels qu'ils doivent pour la copie et l'utilisation illégales des œuvres de grande valeur du Times ».

Devant la justice, le journal met en avant son travail important de production de journalisme de « classe internationale », d'investigation, d'informations exclusives, de journalisme spécialisé, de critique et d'analyse, etc. « Les produits de l'IA générative menacent le journalisme de grande qualité », défend le média. La plainte explique que la protection de sa propriété intellectuelle est cruciale pour continuer à produire un journalisme de cette qualité.

« Alors que le Times, comme pratiquement tous les éditeurs en ligne, permet aux moteurs de recherche d'accéder à son contenu dans le but limité de le faire apparaître dans les résultats de recherche traditionnels, il n'a jamais donné l'autorisation à aucune entité, y compris les accusés, d'utiliser son contenu à des fins d'IA générative », est-il encore expliqué.

Le journal explique au tribunal avoir contacté les deux entreprises en avril 2023 pour une résolution à l'amiable mais « ces efforts n'ont pas abouti ».

Le 27 décembre 2023 à 17h28

Commentaires (17)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar
Devant la justice, le journal met en avant son travail important de production de journalisme de « classe internationale », d'investigation, d'informations exclusives, de journalisme spécialisé, de critique et d'analyse, etc. « Les produits de l'IA générative menacent le journalisme de grande qualité », défend le média.
J'ai du mal à voir en quoi l'IA générative menace le journalisme sur les critères indiqués car contrairement à eux, elle ne produit pas de faits ni d'information. Le contenu nouveau qu'elle produira sera inventé contrairement au travail du journaliste.

Ce contenu est d'ailleurs du même acabit que les fermes qui squattent le top 10 des moteurs de recherche grâce à leur SEO dont le but principal est de tirer du revenu publicitaire.

Contenu qui est, au mieux, du plagiat de blogs ou de Wikipedia et sinon de la merde en barre inutile pleine de vide.
votre avatar
Perso, il m'arrive régulièrement de lire des articles de 2021 sur lesjours.fr en 2023. #LeBrief cite parfois des articles Next de 2018. Alors j'imagine les articles du NYTimes.
votre avatar
bah dire que l'article du NYT indique noir alors qu'il indique blanc, ou ne parle même pas du sujet, c'est un risque important pour le journal.

Et aujourd'hui, le biais de l'IA générative il est bien là.

De fait, je comprends le journal, c'est son image qui est en jeu et de fait ses revenus, sans compter tous ce qui tourne autour de la propriété intellectuelle.
votre avatar
De fait, je comprends le journal, c'est son image qui est en jeu et de fait ses revenus, sans compter tous ce qui tourne autour de la propriété intellectuelle.
Propriété intellectuelle oui c'est l'objet de la plainte. Mais ce n'est pas un des critères cités auxquels je régissais.

"Menacer le journalisme de qualité", pas plus que les fermes de contenus agrégés bardés de pub qui trust les 1eres places des moteurs de recherche que j'ai cité (infos exclusives, enquêtes, critiques, analyses). L'IA générative est incapable de produire ces 4 critères puisque tout ne sera que pure invention. Elle ne peut donc menacer une production de qualité puisque la sienne sera systématiquement inférieure et fausse.

Les contenus générés par IA vont simplement faire partie des rubriques "vrais ou faux" au même titre que les mensonges de politiques ou journalistes (je pense à un exemple cité par FranceInfo ce matin), désinformation des médias sociaux, des moteurs de recherche, et aujourd'hui générée par IA.

J'ai toujours l'impression qu'on s'alarme de pas grand chose de nouveau avec ce sujet. On a pas attendu l'IA générative pour avoir des images de jeux vidéo présentées comme étant des vraies scènes de guerres dans un conflit.

Au final, j'ai envie de dire que le journalisme de qualité a même tout intérêt à démontrer sa valeur ajoutée face à toute cette production de faux qui sature les canaux de communication. Donc à mes yeux, elle met en valeur leur travail par sin incapacité à produire du contenu qualitatif, elle ne le menace pas.
votre avatar
J'ai du mal à voir en quoi l'IA générative menace le journalisme sur les critères indiqués car contrairement à eux, elle ne produit pas de faits ni d'information. Le contenu nouveau qu'elle produira sera inventé contrairement au travail du journaliste.
Justement, elle prétend savoir le faire alors qu'elle va juste piquer les données des journalistes. Du coup plutôt que de chercher une info et d'être redirigé vers l'articlr source, l'IA va reformuler la source et donner l'impression qu'elle "sait". C'est du trafic perdu, donc de l'argent. Et plus ça va aller, plus elles seront capables de le faire en temps réel en crawlant les nouveaux articles.

Cela dit, il y a beaucoup de "sites journalistiques" modernes qui se contentent de réécrire les articles des autres, c'est un peu la même chose... et c'est déjà un problème.
votre avatar
Ça va être intéressant.

Ils ont l'air de démontrer que le processus d'entraînement le chatGPT lui a permis de mémoriser (presque parfaitement) des parties d'articles du NYT. On voit quelques exemples dans leur plainte et ils disent en avoir dans leurs pièces qui appuient leurs dires.

On va peut-être se rendre compte que ce processus d'apprentissage est en fait un moyen de coder l'information tellement performant que cela peut revenir à du plagia. Il serait aussi intéressant de connaître les prompts utilisés pour faire ressortir ces parties d'articles du NYT. Ils ont dû être bien travaillés pour obtenir ce résultat.

Je suis allé un peu rapidement sur la fin et ai lu en diagonale mais leur plainte est mieux que ce que je pensais.

Le paradoxe, c'est qu'ils accusent à la fois de violation du Copyright quand le texte correspond à du contenu du NYT et de mésinformation quand le texte ressorti ne correspond pas à du contenu du NYT mais à des hallucinations. C'est compliqué de pouvoir affirmer les 2 à la fois suivant les résultats obtenus.
votre avatar
On va peut-être se rendre compte que ce processus d'apprentissage est en fait un moyen de coder l'information tellement performant que cela peut revenir à du plagia.
N'est-ce pas le cas de tous les processus d'apprentissage ?

Observer et apprendre à reproduire de la façon la plus fidèle possible.
votre avatar
En fait, je voulais écrire entraînement (et éviter le mot anglais training) mais je me suis trompé de mot en français (!).


Pour l'apprentissage humain, cela ne se limite pas à cela. On apprend aussi à raisonner et donc à produire du contenu nouveau à partir de données. Ce n'est pas le cas d'un LLM dont le but est seulement d'apprendre à parler en fonction d'un contexte.
votre avatar
Un troisième point dans la plainte est qu'ils attaquent la restitution du texte obtenue via recherche sur le Web (avec Bing).

Sinon j'ai essayé de lui faire recracher quelques morceaux mais les prompts décrits comme étant "simples" dans la plainte ne doivent pas forcément l'être et ont certainement usé de quelques méthodes de jailbreak pour faire dériver le modèle. Récemment l'une d'elle faisait répéter au modèle un même mot en boucle. J'ai également eu un "copyright wall" avec une réponse me disant qu'il ne le ferait pas, mais on est pas à l'abris d'une réaction d'OpenAI qui a filtré ces contenus.

Dans tous les cas ça reste un modèle statistique, et avec un contexte extrêmement précis, il finira par l'être tout autant malgré la part d'aléatoire dans son fonctionnement. Je pense que ChatGPT est configuré de manière suffisamment équilibrée là où via les API on peut modifier la température et le top K.
votre avatar
J'avais aussi noté ce troisième point. Ils ont l'air de dire que Bing chat cite une plus grande partie d'un article que les moteurs de recherche et de façon plus détaillée.

Là, aussi, c'est sûrement liée à la façon dont est rédigée la requête qui demandait peut-être une citation de l'article source, mais c'est aussi de la mauvaise foi : un résultat de moteur de recherche, ce n'est effectivement que quelques lignes.

Par contre, c'est un vrai sujet parce que si la réponse est trop complète, il y a une perte de trafic certaine pour le site de presse. Il est possible que les USA aillent vers un droit voisin comme dans l'UE sur ce point.
votre avatar
C'est drôle que ce soit les mêmes, qui négocient avec Apple pour les laisser utiliser leur contenu pour l'apprentissage...
votre avatar
Lire l'article c'est bien aussi
Le journal explique au tribunal avoir contacté les deux entreprises en avril 2023 pour une résolution à l'amiable mais « ces efforts n'ont pas abouti ».
votre avatar
Juste.
Le fait qu'ils negocient avec Apple ruine leur argument "Les produits de l'IA générative menacent le journalisme de grande qualité".
Le problème est donc financier uniquement
votre avatar
Pourquoi le NYTimes ne négocierait pas l'utilisation de ses contenus par Apple ? Tu suggères que ça devrait être gratuit ? que Apple devrait faire comme OpenAI et Microsoft ?
votre avatar
Pas de souci qu'ils negocient, ils font bien ce qu'ils veulent.
Par contre, negocier ses donnees pour faire de l'IA avec et dire à côté "l'IA menace le journalisme", c'est incoherent.
votre avatar
Ce que tu mets entre guillemets "l'IA menace le journalisme" n'a pas l'air d'être une citation et je ne sais pas ce qui te fais dire ça. Dans l'absolu, le New York Times n'est pas opposé à l'IA. Ça n'a pas de sens. Le NYtimes refuse l'exploitation généralisée de ses contenus et demande un droit de regard. Négocier veut dire poser ses conditions et refuser ce qui est contraire à ses intérêts.
votre avatar
"Ce que tu mets entre guillemets "l'IA menace le journalisme" n'a pas l'air d'être une citation et je ne sais pas ce qui te fais dire ça"

T'as lu l'article ou pas ?
Je t'aide (hint : c'est une citation de la brève) :
" Les produits de l'IA générative menacent le journalisme de grande qualité », défend le média. "

Voila ce qui me fait dire ca : mes yeux.

Le New York Times attaque OpenAI et Microsoft pour violation du Copyright

Fermer