Le New York Times attaque OpenAI et Microsoft pour violation du Copyright
Le 27 décembre 2023 à 17h28
2 min
Droit
Droit
Dans un article publié par deux journalistes du journal, le New York Times révèle avoir porté plainte contre OpenAI et Microsoft pour avoir utilisé des millions de ses articles pour entraîner leur famille de grands modèles de langage (Large language models en anglais, LLM) GPT utilisée par ChatGPT, Bing Chat et Copilot.
Le média américain considère, dans la plainte [PDF] déposée devant la Court fédérale du district de Manhattan, que les deux entreprises leaders du monde de l'IA générative ont violé le Copyright de ses archives et le concurrencent maintenant de manière déloyale. Le New York Times est le premier journal américain important à déposer une plainte de ce genre.
Il remarque que, « bien que les accusés se soient livrés à des copies à grande échelle à partir de nombreuses sources, ils ont accordé une importance particulière au contenu du Times lors de l'élaboration de leurs LLM, révélant ainsi une préférence qui reconnaît la valeur de ces œuvres ».
Le média ne précise pas la somme exacte qu'il réclame à OpenAI et Microsoft, mais la plainte précise que « cette action vise à les tenir responsables des milliards de dollars de dommages statutaires et réels qu'ils doivent pour la copie et l'utilisation illégales des œuvres de grande valeur du Times ».
Devant la justice, le journal met en avant son travail important de production de journalisme de « classe internationale », d'investigation, d'informations exclusives, de journalisme spécialisé, de critique et d'analyse, etc. « Les produits de l'IA générative menacent le journalisme de grande qualité », défend le média. La plainte explique que la protection de sa propriété intellectuelle est cruciale pour continuer à produire un journalisme de cette qualité.
« Alors que le Times, comme pratiquement tous les éditeurs en ligne, permet aux moteurs de recherche d'accéder à son contenu dans le but limité de le faire apparaître dans les résultats de recherche traditionnels, il n'a jamais donné l'autorisation à aucune entité, y compris les accusés, d'utiliser son contenu à des fins d'IA générative », est-il encore expliqué.
Le journal explique au tribunal avoir contacté les deux entreprises en avril 2023 pour une résolution à l'amiable mais « ces efforts n'ont pas abouti ».
Le 27 décembre 2023 à 17h28
Commentaires (17)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 27/12/2023 à 18h00
Ce contenu est d'ailleurs du même acabit que les fermes qui squattent le top 10 des moteurs de recherche grâce à leur SEO dont le but principal est de tirer du revenu publicitaire.
Contenu qui est, au mieux, du plagiat de blogs ou de Wikipedia et sinon de la merde en barre inutile pleine de vide.
Modifié le 27/12/2023 à 19h27
Le 28/12/2023 à 09h48
Et aujourd'hui, le biais de l'IA générative il est bien là.
De fait, je comprends le journal, c'est son image qui est en jeu et de fait ses revenus, sans compter tous ce qui tourne autour de la propriété intellectuelle.
Modifié le 28/12/2023 à 18h45
"Menacer le journalisme de qualité", pas plus que les fermes de contenus agrégés bardés de pub qui trust les 1eres places des moteurs de recherche que j'ai cité (infos exclusives, enquêtes, critiques, analyses). L'IA générative est incapable de produire ces 4 critères puisque tout ne sera que pure invention. Elle ne peut donc menacer une production de qualité puisque la sienne sera systématiquement inférieure et fausse.
Les contenus générés par IA vont simplement faire partie des rubriques "vrais ou faux" au même titre que les mensonges de politiques ou journalistes (je pense à un exemple cité par FranceInfo ce matin), désinformation des médias sociaux, des moteurs de recherche, et aujourd'hui générée par IA.
J'ai toujours l'impression qu'on s'alarme de pas grand chose de nouveau avec ce sujet. On a pas attendu l'IA générative pour avoir des images de jeux vidéo présentées comme étant des vraies scènes de guerres dans un conflit.
Au final, j'ai envie de dire que le journalisme de qualité a même tout intérêt à démontrer sa valeur ajoutée face à toute cette production de faux qui sature les canaux de communication. Donc à mes yeux, elle met en valeur leur travail par sin incapacité à produire du contenu qualitatif, elle ne le menace pas.
Le 28/12/2023 à 09h49
Cela dit, il y a beaucoup de "sites journalistiques" modernes qui se contentent de réécrire les articles des autres, c'est un peu la même chose... et c'est déjà un problème.
Modifié le 27/12/2023 à 20h08
Ils ont l'air de démontrer que le processus d'entraînement le chatGPT lui a permis de mémoriser (presque parfaitement) des parties d'articles du NYT. On voit quelques exemples dans leur plainte et ils disent en avoir dans leurs pièces qui appuient leurs dires.
On va peut-être se rendre compte que ce processus d'apprentissage est en fait un moyen de coder l'information tellement performant que cela peut revenir à du plagia. Il serait aussi intéressant de connaître les prompts utilisés pour faire ressortir ces parties d'articles du NYT. Ils ont dû être bien travaillés pour obtenir ce résultat.
Je suis allé un peu rapidement sur la fin et ai lu en diagonale mais leur plainte est mieux que ce que je pensais.
Le paradoxe, c'est qu'ils accusent à la fois de violation du Copyright quand le texte correspond à du contenu du NYT et de mésinformation quand le texte ressorti ne correspond pas à du contenu du NYT mais à des hallucinations. C'est compliqué de pouvoir affirmer les 2 à la fois suivant les résultats obtenus.
Le 27/12/2023 à 19h58
Observer et apprendre à reproduire de la façon la plus fidèle possible.
Le 27/12/2023 à 20h07
Pour l'apprentissage humain, cela ne se limite pas à cela. On apprend aussi à raisonner et donc à produire du contenu nouveau à partir de données. Ce n'est pas le cas d'un LLM dont le but est seulement d'apprendre à parler en fonction d'un contexte.
Modifié le 27/12/2023 à 20h36
Sinon j'ai essayé de lui faire recracher quelques morceaux mais les prompts décrits comme étant "simples" dans la plainte ne doivent pas forcément l'être et ont certainement usé de quelques méthodes de jailbreak pour faire dériver le modèle. Récemment l'une d'elle faisait répéter au modèle un même mot en boucle. J'ai également eu un "copyright wall" avec une réponse me disant qu'il ne le ferait pas, mais on est pas à l'abris d'une réaction d'OpenAI qui a filtré ces contenus.
Dans tous les cas ça reste un modèle statistique, et avec un contexte extrêmement précis, il finira par l'être tout autant malgré la part d'aléatoire dans son fonctionnement. Je pense que ChatGPT est configuré de manière suffisamment équilibrée là où via les API on peut modifier la température et le top K.
Le 28/12/2023 à 10h02
Là, aussi, c'est sûrement liée à la façon dont est rédigée la requête qui demandait peut-être une citation de l'article source, mais c'est aussi de la mauvaise foi : un résultat de moteur de recherche, ce n'est effectivement que quelques lignes.
Par contre, c'est un vrai sujet parce que si la réponse est trop complète, il y a une perte de trafic certaine pour le site de presse. Il est possible que les USA aillent vers un droit voisin comme dans l'UE sur ce point.
Le 28/12/2023 à 13h23
Le 28/12/2023 à 13h43
Le 28/12/2023 à 19h41
Le fait qu'ils negocient avec Apple ruine leur argument "Les produits de l'IA générative menacent le journalisme de grande qualité".
Le problème est donc financier uniquement
Modifié le 28/12/2023 à 23h45
Le 31/12/2023 à 13h02
Par contre, negocier ses donnees pour faire de l'IA avec et dire à côté "l'IA menace le journalisme", c'est incoherent.
Modifié le 15/01/2024 à 22h58
Modifié le 16/01/2024 à 00h10
T'as lu l'article ou pas ?
Je t'aide (hint : c'est une citation de la brève) :
" Les produits de l'IA générative menacent le journalisme de grande qualité », défend le média. "
Voila ce qui me fait dire ca : mes yeux.