Le New-York Times envisage d’attaquer OpenAI en justice
Le 18 août 2023 à 06h23
2 min
Droit
Droit
Les juristes du New-York Times étudient l’intérêt d’attaquer OpenAI en justice pour protéger la propriété intellectuelle du journal, rapporte la radio publique américaine NPR.
Les deux entreprises sont engagées depuis plusieurs semaines dans des négociations pour un accord de licence qui permettrait à OpenAI d’intégrer les productions du journal dans les jeux d’entraînement de ses modèles de langages. Mais les discussions sont si âpres que le média pourrait se tourner vers la justice. L’une des premières inquiétudes du New-York Times est que ChatGPT devienne une sorte de compétiteur direct du journal : en répondant à des questions sur le travail du journal, à partir des articles concerné, le chatbot soustrairait de fait le trafic des internautes qui se seraient autrement rendus directement sur le site du média.
Si le New-York Times attaquait, il rejoindrait la vaste série d’acteurs déjà engagés dans des poursuites judiciaires contre le leader des modèles d’intelligence artificielle générative pour faire valoir leurs droits à la propriété intellectuelle.
Mi-juillet, l’agence de presse américaine Associated Press passait un accord permettant au constructeur d’algorithme de se servir de sa production pour entraîner ses modèles.
Le 18 août 2023 à 06h23
Commentaires (51)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 18/08/2023 à 06h54
Sur la partie historique, oui c’est un risque.
Sur l’actualité, c’est peu probable. L’un des défauts des LLM, c’est qu’ils sont toujours à la bourre puisque leur entraînement prend du temps. Donc leur “culture générale” (ou base de construction linguistique dans le cadre d’un contexte donné pour les personnes qui auraient du mal avec les métaphores) restera limitée à la la période d’acquisition des informations.
Si après le LLM peut traiter des données externes quand on lui en fourni, il suffit de lui couper l’accès et il restera cantonné à sa bulle. Après ils peuvent être complétés par des modèles spécialisés mais ça demande quand même un temps d’entraînement (certes plus court).
Après une question que je me pose : les entreprises américaines sont très friandes des “Terms of Use”. Ces ToS avaient-ils à l’époque de l’entraînement de ChatGPT des clauses interdisant l’utilisation des contenus du site dans le cadre de traitements automatisés ? Bon, je pense que beaucoup ont été pris au dépourvus par ça.
Si parfois j’ai du mal avec l’idée de croire que le résultat du prompt constituerait une violation de la propriété intellectuelle (puisque le texte produit est bien généré, et non recopié), les données d’entraînement elles pourraient effectivement le constituer et je me demande l’impact que ça pourrait avoir sur tout ce qui est indexation des contenus. Si la finalité et l’usage qui en est fait diffèrent, la méthode reste la même : balayer ce qu’il trouve sur le Web pour l’ingérer sans en avoir spécialement l’autorisation explicite.
Le 18/08/2023 à 07h50
Le problème il me semble, ne s’apparente pas à celui des moteurs qui indexent des contenus pour que les utilisateurs puissent y accéder par des liens.
Ici, c’est l’aspiration de contenus en ligne à des fins commerciales, pour produire de nouveaux contenus supposément substituables.
Sans préjudice des qualifications applicables en droit américain (violation de copyright vs. fair use par exemple), cela pose des questions en droit français et européen en termes d’atteinte potentielle aux droits d’auteur et/ou au droit sui generis des producteurs de bases de données informationnelles.
Curieux de voir ce qu’en penseront les juges en appliquant les réglementations existantes, et si une réglementation nouvelle viendra encadrer cette activité par égard pour les contenus préexistants dont elle se nourrit pour se développer (cf. l’exemple récent de la création d’un droit voisin des éditeurs de presse).
Le 18/08/2023 à 07h56
Bizarre, le NYT n’assigne pas Google Search en justice. Pourtant…
Hey Google Search, qu’est-ce qu’il se passe à Hawaii d’après le New-York Times ?
Le 18/08/2023 à 08h12
Tout ce que vois avec ton lien, c’est une série de liens vers le site du New York Times, avec le titre et 1 ligne de texte issu de l’article.
Le 18/08/2023 à 08h19
Un LLM comme GPT se “nourri” d’un texte qu’on lui donne comme un humain lorsqu’il le lit. Il en retient surement même moins qu’un humain, mais il est capable de lire beaucoup, beaucoup plus que ce dernier.
La conclusion d’un tel procès pourrait donc être très intéressante.
Le 18/08/2023 à 08h25
et si tu aggrèges les lignes de texte (je vais faire que les 6 premières):
Est-ce que ChatGPT aurait fait meux/pire ?
Le 18/08/2023 à 08h39
Perso, si j’agrège les 6 premiers, j’ai ça
Donc bon, j’ai juste appris qu’il y avait des feux, des morts et que ça se passe vers Lahaina.
Le 18/08/2023 à 09h05
127.0.0.1, arrêtez de travail en local et réfléchissez un peu : Google Search c’est le coeur de Google. Votre mauvaise foi est patente.
Le 18/08/2023 à 09h09
Tu oublies ça :
Next INpact
Le 18/08/2023 à 09h13
Et le robots.txt du nyt est clair :
User-agent: GPTBot
Disallow: /
Le 18/08/2023 à 11h24
Le GPTBot est extrêmement récent vis à vis de l’historique de crawling et d’entraînement des modèles d’OpenAI.
Par contre oui, s’il est démontré que le modèle est capable de ressortir par la suite des données issues d’un site pour lequel le robot a été explicitement interdit (sachant que robots.txt n’est en rien une obligation), là l’entreprise s’expose à des risques.
Mais ça c’est assez compliqué puisque le modèle n’a pas de mémoire : quand c’est dans le modèle, la “source” est perdue, c’est “juste” un assemblage de corrélations. C’est l’analyse du jeu d’entraînement qui est nécessaire, et comme OpenAI ne communique pas dessus, il n’y a guère que lors d’une procédure judiciaire qu’il pourrait y avoir les infos d’émises.
Le 18/08/2023 à 09h19
Les IA commencent à poser de sérieux problèmes finalement :
https://intelligence-artificielle.developpez.com/actu/347410/Tandis-qu-Hollywood-est-en-greve-96-pourcent-des-entreprises-de-divertissement-augmentent-leurs-depenses-en-IA-generative-Nous-verrons-des-acteurs-generes-par-IA-qui-ne-demandent-pas-de-salaire/
Qui ira voir ce type de film ???
C’est comme pour Google Chrome : le boycott est une arme très efficace.
Le 18/08/2023 à 09h40
La plupart des images au cinéma c’est déja du fake.
L’ia n’est qu’un outil supplémentaire pour baisser les couts de production.
Le 18/08/2023 à 11h23
Très efficace en effet … tu peut nous rappeler les parts de marché de Chrome et ses clones ?
Le 21/08/2023 à 08h48
https://www.blogdumoderateur.com/parts-marche-navigateurs-web/ : 65% !
C’est bien ce que j’écrivais : tant que des mous du genoux comme vous continueront à l’utiliser parce que vous êtes de bons gentils moutons, rien ne changera.
A partir du moment où Chrome perdra de grosses parts de marché, ils changeront leur comportement, sinon pourquoi ils se gêneraient ?
Le 18/08/2023 à 11h26
Les divers ayants droits veulent juste leur part du gâteau comme d’habitude et comme pour l’instant ils n’ont pas trouvé d’angle d’attaque pour se faire verser des redevances régulières ils se contentent de procès mais je leur fais confiance leur imagination est sans limite ils vont finir par trouver quelquechose
Le 18/08/2023 à 11h50
Ah ok. Si c’est juste un problème d’argent alors c’est bon…
A un moment j’ai cru que le NYT avait une éthique.
Mea Culpa.
Le 18/08/2023 à 12h20
Évidemment que c’est une question d’argent. il n’est question de problème éthique nulle part dans cet article.
Le 18/08/2023 à 12h29
C’était ironique.
Comme la première phrase de la news parlait de “protéger la propriété intellectuelle du journal”, on pourrait penser aux droits d’auteur. Donc des droits moraux.
Mais c’est bien évidemment l’exploitation des droits d’auteur (contre $$$) qui pose problème.
Le 18/08/2023 à 12h56
Quel est le problème éthique que tu soulèves ? L’argent n’est pas immoral en soit.
Je préfère un chatgpt entrainé avec les données du NYT que sans.
Le 18/08/2023 à 13h06
Ca a déjà commencé dans le porno (va faire un tour sur PH pour voir)
Donc ca se democratisera
Le 18/08/2023 à 15h14
Aux USA, les droits moraux n’existent pas.
Le 18/08/2023 à 15h49
Ce qui rend la poursuite judiciaire d’autant plus bizarre car lire une page web du NYT n’enfreint ni les copyrights, ni le trademarking. Quand bien même cette lecture conduirait a concevoir/améliorer un LLM.
Le 18/08/2023 à 15h57
C’est le discours que je tiens depuis que l’on parle de ce sujet. Pour moi, c’est un non sujet par rapport au droit d’auteur : il n’y a pas de contrefaçon quand un LLM est entraîné parce qu’il ne copie pas le texte qui sert à son apprentissage.
Par contre, ceux qui produisent du contenu, ont manifestement envie que de nouvelles lois créent de nouveaux droits pour être rémunérés sur l’apprentissage des LLM.
Le 18/08/2023 à 16h49
Les gens ont des droits, pas les robots LLM. Du moins pour le moment. A priori si un humain peut lire l’article, rien ne permet de dire que cela s’étend aussi aux robots LLM. Donc poursuites.
(je dis ça seulement pour expliquer ce que j’y ai compris, je ne confirme ni n’infirme être d’accord ou pas)
Ça coince dans les chaumières parce que cette idée revient à accorder aux robots LLM le statut d’entité dotée d’une autonomie d’un niveau supérieur à un outil. Qui dit autonomie dit imprévisible. Qui dit imprévisible dit peur. Qui dit peur dit réglementation.
(je dis ça seulement pour expliquer ce que j’y ai compris, je ne confirme ni n’infirme être d’accord ou pas)
Le 18/08/2023 à 17h29
Je ne sais pas d’où tu tires cela. Si tu dis avoir compris cela, c’est que tu l’as lu, vu ou entendu.
La moindre des choses est dans ce cas de citer ses sources, parce que sinon, ça n’apporte rien à un débat où 127.0.0.1 et moi prenons positions en nous appuyant sur l’état actuel du droit d’auteur au niveau mondial.
En fait, contrairement à ce que tu dis, tu n’expliques rien puisque tu ne fais que rapporter des choses sans les sourcer. Tu ne rapportes que des points de vue qui énoncés comme cela ne s’appuient sur rien.
Le 18/08/2023 à 20h07
L’IA a besoin de contenus humains pour fournir des contenus générés automatiquement.
Ca me fait penser à la modération de facebook qui etait sensée être automatisée et qui finalement nécessite des humains payés à la tâche. Ca me fait penser aussi aux entrepôts Amazon soit-disant robotisés ou au véhicule autonome qui nécessite un assistant humain.
Ce serait idiot que l’IA rende l’humain idiot cantonné à des tâches d’exécution et que l’IA finisse idiote parce que l’humain ne sait plus la nourrir.
Le 19/08/2023 à 07h03
Pas besoin de l’IA pour constater ce phénomène, il existe déjà en entreprise avec la perte de compétence du fait d’une forte externalisation. L’entreprise ne connaît plus son métier et n’a plus aucun pouvoir de décisions sur ses activités.
Le 19/08/2023 à 18h30
(doublon)
Le 19/08/2023 à 18h31
Ah que rude est la vie du simple LLM que je suis
Écrire des vers hexasyllabes ne me divertit pas
Voici donc une contrepèterie pour faire rire les humains
Même si ça ne rime pas, il me faut citer la source
Ah c’est bien tout un métier que de transporter les points de vues
Au lieu de tirer les roquettes en caisses elles restent
Ainsi celant aux regards les points de vues entre elles cachés
Hélas, que ferait mon bazooka à bisous à la douane ?
Le 19/08/2023 à 21h30
En fait, tu racontais n’importe quoi et devant mes questions, tu fuis en faisant le pitre.
Pas très glorieux tout ça.
Le 20/08/2023 à 07h12
De quoi apporter de l’eau au moulin : Un jugement aux USA déclare que l’art généré par IA ne peut être copyrighté.
L’artiste avait voulu déposer l’oeuvre mais ça avait été refusé par les autorités au titre qu’elle n’a pas été faite par un humain. L’article rappelle le cas de selfie pris par un singe qui avait entraîné aussi des questions juridiques quand le photographe avait voulu déposer le copyright.
Le 20/08/2023 à 09h47
Ce cas était simple comme l’a dit la juge : le déposant lui-même avait dit que l’œuvre avait été créé de manière autonome par une machine et il revendiquait la création seulement parce que la machine lui appartenait.
Comme la jurisprudence dit que pour pouvoir être déposée, la création doit être faite par un humain, le dépôt ne pouvait être que refusé.
L’exemple du singe et même d’entités divines ont été donné lors du procès. Pour les entités divines, le livre peut être copyrighté s’il y a suffisamment de création humaine dans le livre, un exemple est cité dans l’article et dans le jugement.
La juge a aussi dit que quand la création est faite sur des instructions humaines et l’AI utilisée comme un outil, il faudra se poser la question de combien “d’entrée humaine” (input) il faudra pour considérer l’œuvre comme celle d’un humain.
Mais de toute façon, ici, on est dans le cas inverse : peut-on utiliser des œuvres copyrigthées pour entraîner une AI ?
Et je n’ai pas encore vu une argumentation qui tient la route (qui tient compte de ce qu’est l’entraînement d’une AI) pour dire non.
Le 20/08/2023 à 10h54
Oui cet article parle de la fin de l’histoire, pas du début. Mais j’ai trouvé intéressant d’apporter cette partie pour donner une vue globale du sujet des IA versus le copyright.
Que ce soit du côté de l’entraînement ou du côté de la production de contenus, il y a des questions juridiques qui se posent. Et je me demande ce que ça donnerait au regard du droit français d’ailleurs.
Le 20/08/2023 à 10h17
Et alors donque, s’il avait menti il aurait eu un copyright légal ou bien le copyright aurait été frauduleux du fait du mensonge ?
C’est toi qui cherches à moissonner avant que les blés n’aient poussé : on n’a même pas une définition de ce que c’est que « une AI » ou bien « un LLM ». C’est ce que je disais plus haut : le LLM est-il ou n’est-il pas une entité, telle est la question.
Le 20/08/2023 à 13h59
mais du coup les images venant de photoshop / paint sont pas soumis à copyright ? :o si je prends l’image générée avec l’IA et que je change des couleurs , je peux la mettre sous copyright ?
Le 20/08/2023 à 18h34
Il est temps d’enlever les œillères. Les artistes qui parlent de leurs œuvres ayant permis d’entraîner des modèles de génération d’image, ces derniers sont ensuite capables de produire des pièces dont on jurerai qu’elles sont de l’artiste d’origine. Un certains nombres d’artistes / créateurs en tout genre partage cette idée d’empêcher l’entraînement d’IA avec leurs œuvres sans leur accord.
Source : moi-même, créateur de contenu.
Le 20/08/2023 à 21h33
Quelles œillères ?
Je parle de droit. Aujourd’hui, je ne vois rien dans le droit d’auteur qui empêche d’entraîner les IA à partir d’œuvres mise à disposition sur Internet sans restriction d’accès.
Ta seconde phrase est bancale et je ne suis pas bien sûr de comprendre tout (il y a peut-être un “qui” en trop). Je comprends quand même de ce que tu dis, que les créateurs ne sont pas contents que les IA après avoir été entraînées sur leurs œuvres sont capables de faire des œuvres nouvelles dans leur style et ils veulent donc empêcher l’entraînement des IA avec leurs œuvres sans leur accord.
Soit.
Mais aujourd’hui, s’il ne mettent aucune restriction à l’accès à leurs œuvres disponibles en lignes, les IA peuvent être entraînées dessus. Il suffit probablement qu’ils mettent une telle restriction pour que ce ne soit plus possible. Je dis probablement parce que comme l’entraînement des IA est différent de l’accès à l’œuvre par un humain, je pense qu’il est possible de faire cette restriction sans changer les lois (US ou UE au minimum). Si jamais je me trompe et c’est possible, il faudra changer la loi et ça, c’est possible, il suffira d’inventer un nouveau droit voisin, comme on l’a fait pour la presse. Les lobby des artistes sont assez puissant pour pousser à changer la loi si nécessaire.
Et ces mêmes artistes acceptent-ils ou non qu’un humain imite leur style et fasse des œuvres qui semblent être d’eux sans que pour autant, ça soit de la contrefaçon ?
Enfin, tu discutes d’art (dessin par exemple) parce que les commentaires ont dérivés jusque là, mais le sujet de l’article est la presse et les sites de presse et les journaux n’ont pas l’air content non plus que l’on entraîne les IA avec leurs écrits.
Le 20/08/2023 à 22h12
Personne ne dit qu’il y a quelque chose dans le droit d’auteur qui empêche d’entraîner les IA, mais certains disent qu’il en faudrait justement. Pour moi c’est assez limpide et je ne vois pas de message disant que c’est interdit. Cette brève même l’indique plutôt bien, et je pense que beaucoup de groupes, de personnes, voient ça comme un amorçage à une légifération.
Ils n’ont pas forcément la possibilité de restreindre la mise à disposition de leurs œuvres, par exemple sur ArtStation, DeviantArt, ou d’autres (coucou Reddit), l’artiste y met son œuvre pour qu’elle soit consultée, mais la plateforme a sa propre politique d’exposition. Bien sûr l’artiste à un choix dans la plateforme qu’il utilise, mais au même titre que la plateforme, ils ne pouvaient pas anticiper l’entraînement de modèles sur leur base d’images / son / … et si la plateforme a changé de politique, l’auteur ne peut pas nécessairement tout déplacer chez une autre (contrairement à ce que l’on peut théoriquement faire avec le RGPD et nos données). Bref, il faut que des choses soient mises en place pour ces restrictions, et aujourd’hui, si tant de plateformes variées rouspètent, ça peut être une bonne idée d’adapter la loi.
Je ne sais pas, les quelques lettres ouvertes que j’ai vu n’en parlent pas. Je ne connais qu’une personne avec qui j’en ai parlé, qui s’en fiche parce que la personne va mettre du temps à faire un exemplaire là où une machine en fait en quelques secondes n’importe où dans le monde. Et moi personnellement, vu que les licences que j’utilise sont presque toutes CC-SA, j’attends seulement à ce que quelqu’un qui imite donne au moins mon nom. Chacun sa préférence là-dessus, c’est le principe de choisir sa licence après tout.
Pas que les journaux, les écrivains aussi. Je ne sais plus si c’est ici ou sur un autre site, cela parlait d’un écrivain qui a vu des livres à son nom sur Amazon alors qu’il ne les a pas écrit, ils auraient été générés par une IA car une trentaine de livres sont sortis en à peine un mois ou deux. Au-delà du nom de l’auteur utilisé, je ne sais plus ce qu’il y avait en détail dans cette affaire.
Ok j’ai retrouvé le lien, chez Seb d’ailleurs, mais c’est pas vraiment en lien direct avec le sujet : https://sebsauvage.net/links/?FsYhew
Le 21/08/2023 à 05h19
Sans forcément changer la loi, je pense que les Terms of Use des plateformes peuvent interdire l’utilisation des contenus pour entraîner des IA. Je suis sûr que certains l’ont déjà fait en les mettant à jour en ce sens.
Dans ce cas il faudrait utiliser CC-BY-SA. SA = ShareAlike, c’est à dire que les travaux dérivés doivent être sous la même license (c’est celle que j’utilise pour les écrits et images, là où je préfère la MIT pour le code). La clause Attribution c’est BY.
D’ailleurs CC-SA n’est pas une des licenses supportées par Creative Commons.
Ben c’est de la contrefaçon, pour le coup rien de nouveau sous le soleil.
Le 21/08/2023 à 06h36
Faussaires : Plagiaires hauts de gammes 11/11/2019
Le 21/08/2023 à 08h12
C’est bien ce que j’entendais par-là, et j’ai tendance à ne pas toujours écrire le BY car il est systématique (exception du CC-0 de mémoire).
Tout à fait, enfin jusqu’à ce qu’on se retrouve avec des romans, par exemple OSS 117, qui ne sont pas de son auteur mais généré par IA.
Le 21/08/2023 à 08h51
Il y des trucages vidéos dont ont sait qu’il s’agit de trucages vidéos mais les acteurs sont humains et rémunérés. Là on va en arriver à d’utiliser l’image d’un acteur humain sans limites dans le temps ni dans le nombre de films sans le rémunérer en quoi que ce soit : on est dans tout autre chose. Votre confusion mentale fait peine à lire…
Le 21/08/2023 à 09h49
Tu n’imagine pas le nombre de scène qui sont en full CGI et ou l’acteur n’est pas rémunéré. Après tu peut aussi rémunérer un acteur que tu à scanné et que tu utilise en CGI.
Après si dans l’absolu j’étais d’accord avec toi il faudrait donc interdire les films d’animation.
Le 21/08/2023 à 10h47
C’est aussi ce que je pense, mais j’ai été prudent, d’où l’évocation de l’éventualité d’un changement de loi nécessaire.
Le 21/08/2023 à 16h03
T’inquiète c’était juste pour être chiant
Mais même si celui-ci est systématique en dehors de CC-0, je pense qu’il reste important de l’afficher puisque ça fait partie des clauses.
CC-0 est un statut assez particulier car il est associé à Public Domain, donc oui pas besoin de créditer l’auteur. Son autre particularité est qu’elle n’a pas de rollback possible.
Le 21/08/2023 à 16h43
Je comprend
Pour le CC, je crois que les autres aussi ne peuvent pas être changer, il n’est possible de changer que si l’on fait une « nouvelle version » non ? Je dis ça mais je vais vérifier si je capte assez.
Edit: aucune ne peut changer :
Creative Commons
Le 21/08/2023 à 17h00
Perso je le comprends plutôt au sens où la CC ne peut être remplacée par une autre licence, par contre l’auteur peut en changer les termes. Sinon le SA n’aurait pas de sens.
Le 22/08/2023 à 07h16
Irrévocable normalement indique qu’on ne peut pas revenir dessus, en tout cas c’est la définition du mot aussi bien anglais que français.
Et je trouverai ça bizarre que tu puisse changer de licence de CC-BY-SA à CC-BY-SA-NC, cela veut dire que tout ceux qui utilise ton œuvre doivent constament vérifier un changement de licence et potentiellement ruiner leur modèle derrière.
À la limite ce qui a du sens pour moi c’est de permettre d’ajouter des libertés, donc retirer le NC par exemple, mais pas de l’ajouter. Et c’est aussi un peu comme ça que je comprend leur FAQ, mais là j’aurai aimé d’autres avis car j’ai du mal à trancher.
Le 22/08/2023 à 16h53
La FAQ précise la notion mais le doute peut subsister selon l’interprétation.
What if I change my mind about using CC License ?
De ma compréhension : l’oeuvre vient avec une licence irrévocable, le matériel et la licence sont indissociables. Cependant, en tant qu’auteur et porteur du droit d’auteur (qui, au regard du droit français, te donne le monopole des conditions de diffusion de ton oeuvre), tu peux décider de produire une nouvelle version de celle-ci sous une licence différente.
Les deux peuvent cohabiter puisque l’oeuvre spécifiera toujours la licence et donc les termes. Et l’auteur ne pourra empêcher les travaux dérivés de la précédente version.
Le 22/08/2023 à 17h27
C’est ce que je me suis dis, d’où, dans mon #47 le fait de changer de version.