Le New York Times attaque OpenAI et Microsoft pour violation du Copyright

SebGF Abonné

Le 27/12/2023 à 18h00

#1

Devant la justice, le journal met en avant son travail important de production de journalisme de « classe internationale », d'investigation, d'informations exclusives, de journalisme spécialisé, de critique et d'analyse, etc. « Les produits de l'IA générative menacent le journalisme de grande qualité », défend le média.

J'ai du mal à voir en quoi l'IA générative menace le journalisme sur les critères indiqués car contrairement à eux, elle ne produit pas de faits ni d'information. Le contenu nouveau qu'elle produira sera inventé contrairement au travail du journaliste.

Ce contenu est d'ailleurs du même acabit que les fermes qui squattent le top 10 des moteurs de recherche grâce à leur SEO dont le but principal est de tirer du revenu publicitaire.

Contenu qui est, au mieux, du plagiat de blogs ou de Wikipedia et sinon de la merde en barre inutile pleine de vide.

Jovial-Ogre-perceptif Supprimé

Le 27/12/2023 à 19h21

#1.1

Perso, il m'arrive régulièrement de lire des articles de 2021 sur lesjours.fr en 2023. #LeBrief cite parfois des articles Next de 2018. Alors j'imagine les articles du NYTimes.

Modifié le 27/12/2023 à 19h27

the_Grim_Reaper Abonné

Le 28/12/2023 à 09h48

#1.2

bah dire que l'article du NYT indique noir alors qu'il indique blanc, ou ne parle même pas du sujet, c'est un risque important pour le journal.

Et aujourd'hui, le biais de l'IA générative il est bien là.

De fait, je comprends le journal, c'est son image qui est en jeu et de fait ses revenus, sans compter tous ce qui tourne autour de la propriété intellectuelle.

SebGF Abonné

Le 28/12/2023 à 18h44

#1.4

the_Grim_Reaper

bah dire que l'article du NYT indique noir alors qu'il indique blanc, ou ne parle même pas du sujet, c'est un risque important pour le journal.

Et aujourd'hui, le biais de l'IA générative il est bien là.

De fait, je comprends le journal, c'est son image qui est en jeu et de fait ses revenus, sans compter tous ce qui tourne autour de la propriété intellectuelle.

De fait, je comprends le journal, c'est son image qui est en jeu et de fait ses revenus, sans compter tous ce qui tourne autour de la propriété intellectuelle.

Propriété intellectuelle oui c'est l'objet de la plainte. Mais ce n'est pas un des critères cités auxquels je régissais.

"Menacer le journalisme de qualité", pas plus que les fermes de contenus agrégés bardés de pub qui trust les 1eres places des moteurs de recherche que j'ai cité (infos exclusives, enquêtes, critiques, analyses). L'IA générative est incapable de produire ces 4 critères puisque tout ne sera que pure invention. Elle ne peut donc menacer une production de qualité puisque la sienne sera systématiquement inférieure et fausse.

Les contenus générés par IA vont simplement faire partie des rubriques "vrais ou faux" au même titre que les mensonges de politiques ou journalistes (je pense à un exemple cité par FranceInfo ce matin), désinformation des médias sociaux, des moteurs de recherche, et aujourd'hui générée par IA.

J'ai toujours l'impression qu'on s'alarme de pas grand chose de nouveau avec ce sujet. On a pas attendu l'IA générative pour avoir des images de jeux vidéo présentées comme étant des vraies scènes de guerres dans un conflit.

Au final, j'ai envie de dire que le journalisme de qualité a même tout intérêt à démontrer sa valeur ajoutée face à toute cette production de faux qui sature les canaux de communication. Donc à mes yeux, elle met en valeur leur travail par sin incapacité à produire du contenu qualitatif, elle ne le menace pas.

Modifié le 28/12/2023 à 18h45

MisterDams Abonné

Le 28/12/2023 à 09h49

#1.3

J'ai du mal à voir en quoi l'IA générative menace le journalisme sur les critères indiqués car contrairement à eux, elle ne produit pas de faits ni d'information. Le contenu nouveau qu'elle produira sera inventé contrairement au travail du journaliste.

Justement, elle prétend savoir le faire alors qu'elle va juste piquer les données des journalistes. Du coup plutôt que de chercher une info et d'être redirigé vers l'articlr source, l'IA va reformuler la source et donner l'impression qu'elle "sait". C'est du trafic perdu, donc de l'argent. Et plus ça va aller, plus elles seront capables de le faire en temps réel en crawlant les nouveaux articles.

Cela dit, il y a beaucoup de "sites journalistiques" modernes qui se contentent de réécrire les articles des autres, c'est un peu la même chose... et c'est déjà un problème.

fred42 Abonné

Le 27/12/2023 à 19h39

#2

Ça va être intéressant.

Ils ont l'air de démontrer que le processus d'entraînement le chatGPT lui a permis de mémoriser (presque parfaitement) des parties d'articles du NYT. On voit quelques exemples dans leur plainte et ils disent en avoir dans leurs pièces qui appuient leurs dires.

On va peut-être se rendre compte que ce processus d'apprentissage est en fait un moyen de coder l'information tellement performant que cela peut revenir à du plagia. Il serait aussi intéressant de connaître les prompts utilisés pour faire ressortir ces parties d'articles du NYT. Ils ont dû être bien travaillés pour obtenir ce résultat.

Je suis allé un peu rapidement sur la fin et ai lu en diagonale mais leur plainte est mieux que ce que je pensais.

Le paradoxe, c'est qu'ils accusent à la fois de violation du Copyright quand le texte correspond à du contenu du NYT et de mésinformation quand le texte ressorti ne correspond pas à du contenu du NYT mais à des hallucinations. C'est compliqué de pouvoir affirmer les 2 à la fois suivant les résultats obtenus.

Modifié le 27/12/2023 à 20h08

127.0.0.1

Le 27/12/2023 à 19h58

#2.1

On va peut-être se rendre compte que ce processus d'apprentissage est en fait un moyen de coder l'information tellement performant que cela peut revenir à du plagia.

N'est-ce pas le cas de tous les processus d'apprentissage ?

Observer et apprendre à reproduire de la façon la plus fidèle possible.

fred42 Abonné

Le 27/12/2023 à 20h07

#2.2

127.0.0.1

On va peut-être se rendre compte que ce processus d'apprentissage est en fait un moyen de coder l'information tellement performant que cela peut revenir à du plagia.

N'est-ce pas le cas de tous les processus d'apprentissage ?

Observer et apprendre à reproduire de la façon la plus fidèle possible.

En fait, je voulais écrire entraînement (et éviter le mot anglais training) mais je me suis trompé de mot en français (!).

Pour l'apprentissage humain, cela ne se limite pas à cela. On apprend aussi à raisonner et donc à produire du contenu nouveau à partir de données. Ce n'est pas le cas d'un LLM dont le but est seulement d'apprendre à parler en fonction d'un contexte.

SebGF Abonné

Le 27/12/2023 à 20h35

#2.3

Un troisième point dans la plainte est qu'ils attaquent la restitution du texte obtenue via recherche sur le Web (avec Bing).

Sinon j'ai essayé de lui faire recracher quelques morceaux mais les prompts décrits comme étant "simples" dans la plainte ne doivent pas forcément l'être et ont certainement usé de quelques méthodes de jailbreak pour faire dériver le modèle. Récemment l'une d'elle faisait répéter au modèle un même mot en boucle. J'ai également eu un "copyright wall" avec une réponse me disant qu'il ne le ferait pas, mais on est pas à l'abris d'une réaction d'OpenAI qui a filtré ces contenus.

Dans tous les cas ça reste un modèle statistique, et avec un contexte extrêmement précis, il finira par l'être tout autant malgré la part d'aléatoire dans son fonctionnement. Je pense que ChatGPT est configuré de manière suffisamment équilibrée là où via les API on peut modifier la température et le top K.

Modifié le 27/12/2023 à 20h36

fred42 Abonné

Le 28/12/2023 à 10h02

#2.4

SebGF

Un troisième point dans la plainte est qu'ils attaquent la restitution du texte obtenue via recherche sur le Web (avec Bing).

Sinon j'ai essayé de lui faire recracher quelques morceaux mais les prompts décrits comme étant "simples" dans la plainte ne doivent pas forcément l'être et ont certainement usé de quelques méthodes de jailbreak pour faire dériver le modèle. Récemment l'une d'elle faisait répéter au modèle un même mot en boucle. J'ai également eu un "copyright wall" avec une réponse me disant qu'il ne le ferait pas, mais on est pas à l'abris d'une réaction d'OpenAI qui a filtré ces contenus.

Dans tous les cas ça reste un modèle statistique, et avec un contexte extrêmement précis, il finira par l'être tout autant malgré la part d'aléatoire dans son fonctionnement. Je pense que ChatGPT est configuré de manière suffisamment équilibrée là où via les API on peut modifier la température et le top K.

J'avais aussi noté ce troisième point. Ils ont l'air de dire que Bing chat cite une plus grande partie d'un article que les moteurs de recherche et de façon plus détaillée.

Là, aussi, c'est sûrement liée à la façon dont est rédigée la requête qui demandait peut-être une citation de l'article source, mais c'est aussi de la mauvaise foi : un résultat de moteur de recherche, ce n'est effectivement que quelques lignes.

Par contre, c'est un vrai sujet parce que si la réponse est trop complète, il y a une perte de trafic certaine pour le site de presse. Il est possible que les USA aillent vers un droit voisin comme dans l'UE sur ce point.

manus Abonné

Le 28/12/2023 à 13h23

#3

C'est drôle que ce soit les mêmes, qui négocient avec Apple pour les laisser utiliser leur contenu pour l'apprentissage...

carbier Abonné

Le 28/12/2023 à 13h43

#3.1

Lire l'article c'est bien aussi

Le journal explique au tribunal avoir contacté les deux entreprises en avril 2023 pour une résolution à l'amiable mais « ces efforts n'ont pas abouti ».

Trooppper

Le 28/12/2023 à 19h41

#3.2

Juste.
Le fait qu'ils negocient avec Apple ruine leur argument "Les produits de l'IA générative menacent le journalisme de grande qualité".
Le problème est donc financier uniquement

Jovial-Ogre-perceptif Supprimé

Le 28/12/2023 à 23h21

#3.3

Pourquoi le NYTimes ne négocierait pas l'utilisation de ses contenus par Apple ? Tu suggères que ça devrait être gratuit ? que Apple devrait faire comme OpenAI et Microsoft ?

Modifié le 28/12/2023 à 23h45

Trooppper

Le 31/12/2023 à 13h02

#3.4

Jovial-Ogre-perceptif

Pourquoi le NYTimes ne négocierait pas l'utilisation de ses contenus par Apple ? Tu suggères que ça devrait être gratuit ? que Apple devrait faire comme OpenAI et Microsoft ?

Pas de souci qu'ils negocient, ils font bien ce qu'ils veulent.
Par contre, negocier ses donnees pour faire de l'IA avec et dire à côté "l'IA menace le journalisme", c'est incoherent.

Jovial-Ogre-perceptif Supprimé

Le 15/01/2024 à 22h49

#3.5

Trooppper

Pas de souci qu'ils negocient, ils font bien ce qu'ils veulent.
Par contre, negocier ses donnees pour faire de l'IA avec et dire à côté "l'IA menace le journalisme", c'est incoherent.

Ce que tu mets entre guillemets "l'IA menace le journalisme" n'a pas l'air d'être une citation et je ne sais pas ce qui te fais dire ça. Dans l'absolu, le New York Times n'est pas opposé à l'IA. Ça n'a pas de sens. Le NYtimes refuse l'exploitation généralisée de ses contenus et demande un droit de regard. Négocier veut dire poser ses conditions et refuser ce qui est contraire à ses intérêts.

Modifié le 15/01/2024 à 22h58

Trooppper

Le 16/01/2024 à 00h09

#3.6

Jovial-Ogre-perceptif

Ce que tu mets entre guillemets "l'IA menace le journalisme" n'a pas l'air d'être une citation et je ne sais pas ce qui te fais dire ça. Dans l'absolu, le New York Times n'est pas opposé à l'IA. Ça n'a pas de sens. Le NYtimes refuse l'exploitation généralisée de ses contenus et demande un droit de regard. Négocier veut dire poser ses conditions et refuser ce qui est contraire à ses intérêts.

"Ce que tu mets entre guillemets "l'IA menace le journalisme" n'a pas l'air d'être une citation et je ne sais pas ce qui te fais dire ça"

T'as lu l'article ou pas ?
Je t'aide (hint : c'est une citation de la brève) :
" Les produits de l'IA générative menacent le journalisme de grande qualité », défend le média. "

Voila ce qui me fait dire ca : mes yeux.

Modifié le 16/01/2024 à 00h10

Catégories

Nous suivre

À propos

Le New York Times attaque OpenAI et Microsoft pour violation du Copyright

Après mSpy, une fuite chez Spytech expose à nouveau les activités des stalkerwares

Copyright traps : un outil pour détecter si un texte est utilisé pour entrainer des IA ?

X/Twitter permet par défaut à son IA Grok d’utiliser vos tweets pour son entrainement

Chez Amazon, la version améliorée et payante d’Alexa serait « prête »

APT45, un acteur malveillant dont les évolutions soulignent les intérêts nord-coréens

SearchGPT : OpenAI adosse un prototype de moteur de recherche à ChatGPT

Linux Mint 22 disponible en version finale

En Irlande, les datacenters consomment plus d’énergie que les ménages urbains

Facebook et Instagram renvoient leurs jeunes utilisateurs vers des contenus sexistes

Microsoft Bing lance prudemment ses résumés alimentés par l’IA générative

Commentaires (17)