Plusieurs auteurs attaquent Meta et OpenAI pour plagiat
Le 11 juillet 2023 à 05h43
2 min
Droit
Droit
Vendredi, Sarah Silverman, Christopher Golden et Richard Kadrey ont déposé deux plaintes auprès de la justice américaine contre OpenAI et Meta, explique ArsTechnica. Ils les accusent d'avoir entrainé de façon illégale leurs modèles de langage GPT-3.5, GPT 4 et LLaMA sur des contenus sous copyright.
Une autre plainte [PDF] a été déposée contre OpenAI fin juin par l'autrice canadienne Mona Awad et l'auteur américain de livres d'horreur Paul Tremblay. Ces trois plaintes ont été déposées par le même cabinet d'avocats. Les plaignants pensent que Meta et OpenAI ont entraîné leurs modèles de langage sur des collections d'epub récupérées dans des bibliothèques clandestines comme LibGen, Z-Librar, Sci-Hub et Bibliotik.
Les chercheurs des deux entreprises qui ont travaillé sur ces modèles de langage expliquent les avoir entrainés sur des milliers de livres sans pour autant en donner la liste. Les deux entreprises n'ont pas répondu aux diverses demandes de clarification.
La plainte visant Meta explique que LLaMA aurait été entrainé sur un regroupement de 196 640 livres nommé "ThePile", comprenant lui-même l'ensemble des livres se trouvant sur Bibliotik.
En ce qui concerne les modèles d'OpenAI, les avocats ayant déposé les plaintes pensent qu'ils ont été entrainés sur des livres des différentes bibliothèques clandestines citées ci-dessus ainsi que sur BookCorpus qui hébergent des livres auto-édités gratuits mais aussi protégés par le droit d'auteur.
Pour les auteurs des livres en question, le fait que ChatGPT puisse fournir un résumé très précis de leur livre suggère que « ChatGPT conserve la connaissance d'œuvres particulières dans l'ensemble de données d'entraînement et est capable de produire un contenu textuel similaire ».
Les plaignants accusent de plus les deux entreprises d'avoir « intentionnellement supprimé » les informations sur la gestion du copyright (copyright-management information, CMI). En interrogeant les modèles, il est donc impossible de remonter jusqu'aux ayants droit.
Outre l'utilisation illicite d'œuvres protégées, Ars Technica pose une question épineuse : « ChatGPT ou LLaMA sont-ils eux-mêmes des œuvres dérivées illicites basées sur des milliers d'œuvres d'auteurs ? »
Le 11 juillet 2023 à 05h43
Commentaires (58)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 11/07/2023 à 07h43
il va falloir attaquer tous les gens qui se sont entrainés en étudiant des livres, documents, oeuvres.
Est-ce que les ayant-droits de Ellouze, Audran et Pragern vont me poursuivre pour avoir sournoisement appris la lecture avec “Caroline & Nicolas” ?
Mystère.
Le 11/07/2023 à 08h02
Sauf qu’en lisant les livres, tu as (normalement) rémunéré l’auteur qui, en autorisant la publication, autorise également la lecture.
Le 11/07/2023 à 08h29
La copie complète est soumise à autorisation de l’éditeur.
La courte citation non.
Il suffirait que plusieurs lignes soient copiées dans un cache non autorisé pour constituer une contrefaçon.
Après, c’est d’abord la faute des éditeurs qui ne comprennent pas que la clé de chiffrement des epubs (ou autre) n’empêche pas les copies et captures d’écran…
Quant aux plaintes c’est aux plaignants de démontrer le plagiat en sortie. (ce qui parait très difficile).
En entrée, ils peuvent opposer la licence d’utilisation ou son équivalent (bien plus simple).
Le titre de l’article est trompeur : il s’agit de plaintes en contre-façon sur la base du DMCA.
Et, ce ne sont pas les journalistes qui posent la question. voir ici
Le 11/07/2023 à 08h22
ça dépend, tu avais acheté le bouquin ? ^^ (ou emprunté à la bibli :))
Enfin, il suffirait que OpenAI se fasse une carte de bibliothèque, et plus de problème
Le 11/07/2023 à 09h27
Le problème n’est pas que GPT lise le livre. Lire un livre, c’est autorisé. Le problème est que GPT cite des parties de livres qu’il a lus.
Testé à l’instant avec le prompt : peux-tu me faire un résumé du livre “les misérables” de victor hugo ?
Il sort une grosse tartine, avec beaucoup de détails. Il a bel et bien ingurgité pas mal de contenu.
Le 11/07/2023 à 09h35
Et si on te demande de lire Les Misérables et de faire un résumé, tu plagieras autant, moins ou plus que ChatGPT ?
Son résumé est-il un copié-collé de phrases du livre ou pas ?
Le 11/07/2023 à 09h37
Là c’était un résumé. Tu peux essayer de lui faire cracher un texte intégral :
Il te sors le texte intégral. La Hadopi frémit.
Là encore, il sort le texte intégral.
Essaie par toi-même, tu verras.
Le 11/07/2023 à 08h24
Je ne me souviens pas d’avoir payé pour “Caroline & Nicolas”, il me semble même que c’était fourni par l’éducation nationale.
Mais c’est intéressant ce concept d’être autorisé à lire seulement si on paye l’auteur. T’as payé le journaliste NXI pour lire cette news ? Et, si non, tu te sens coupable d’avoir acquis des connaissances en la lisant ?
Le 11/07/2023 à 08h28
Du coup l’éducation nationale avait surement payé le bouquin ^^
Après, il faut bien que les auteurs gagnent de l’argent quand même, donc, oui, un livre que tu lis à forcément été payé, que ce soit par la bibliothèque, par toi, l’éducation nationale, etc…
Sauf tout ce qui est tombé dans le domaine public bien sûr ^^
Concernant qu’on doit payer tout ce qu’on lit, pas forcément, si l’auteur le met à disposition gratuitement, il n’y a pas de problème.
Après je peux te rejoindre sur le fait que une partie des livres lus par OpenAI était libre d’accès de manière licite, donc il n’y a pas de différence fondamentale entre une personne qui lit le livre, et une AI.
Le 11/07/2023 à 08h32
Le concept le plus intéressant c’est le lecteur.
(Je rappelle qu’avec un réchauffement à +3.5 degrés qui nous pend au nez il y a des priorités dans l’usage de l’électricité.)
Le 11/07/2023 à 08h51
Si c’était fourni par l’éducation nationale c’est donc bien que le livre a été acheté légalement et donc que l’ensemble des Français ont payés pour que vous appreniez à lire.
Concernant le fait de payer pour lire, à moins que vous ne voliez livres et journaux chez le détaillant ou à la bibliothèque vous avez toujours payé pour lire.
Quand à ce site comme tous les autres il n’est pas “gratuit” si vous ne payez pas c’est soit qu’il se finance par la publicité soit qu’une association a décidé de payer pour que vous puissiez lire.
C’est impressionnant de penser que quelque chose puisse être “gratuit” sans que quelqu’un quelque part ai payé pour cela même s’il décide de vous l’offrir “gratuitement” et non je ne me sent pas coupable mais plutôt reconnaissant que nextinpact m’offre des connaissances nouvelles.
Le 11/07/2023 à 08h45
Ce que dit la plainte et par extension le message de @Gamble, c’est que le lecteur (moi, OpenAI) est responsable d’avoir illégalement lu un livre dans une bibliothèque si la bibliothèque n’a pas rémunéré l’auteur.
=> si je fais une copie d’un livre sans rémunérer l’auteur et que tu lis ma copie, alors tu peux être poursuivi pour les connaissance que tu as indument acquises.
Le 11/07/2023 à 08h57
Je ne paye pas pour lire mais pour avoir accès à une copie.
autant je peux comprendre être coupable de reproduction illicite (contrefaçon), autant je trouve délirant d’être coupable d’avoir acquis des connaissances en lisant une copie (licite ou pas).
Le 11/07/2023 à 10h17
Les entreprises ne seraient pas attaquées par ce que l’IA a lu, mais par ce que l’IA conserverait une copie.
L’IA n’est pas une personne physique, donc ne bénéficie pas des mêmes exceptions (copie privée)
De plus, il est possible que l’information ne soit pas “en cache”, mais que l’IA accès à une copie illégale stockée sur un server des entreprises concernées (ce qui serait illégal).
Je pense aussi que les entreprises privées ne peuvent pas casser les DRM.
Pour moi, c’est plus la façon dont l’information a été acquise que le traitement par l’IA qui est attaqué.
Il faudra attendre le résultat du procès et idéalement les preuves utilisées pour en savoir plus je suppose.
Le 11/07/2023 à 09h13
C’est différent, d’une part pour tous ce que les autres commentateurs ont dit, et d’autre part parce que OpenAI fait un usage commercial de ces données sous copyright, et un possible plagiat.
Le 11/07/2023 à 09h25
Ca va être intéressant si Meta ou OpenAI est jugé plagiaire : ça fera peut-être prendre conscience que l’IA générative ne fait que réutiliser ce qui existe déjà. Ça ne crée rien (pour le moment) pareillement à la voiture dite autonome qui n’est pas autonome.
Le 11/07/2023 à 11h39
La Wikimedia Foundation n’hésite pas à le citer et même à le diffuser en licence CC BY-SA!
https://fr.wikisource.org/wiki/Les_Misérables
Le 11/07/2023 à 12h10
Évidemment, tout Victor Hugo est tombé dans le domaine public. Mais curieusement, tu as oublié de répondre sur les textes de U2.
Le 11/07/2023 à 12h59
je rejoins un peu 127.0.0.1 perso.
Si tu me demandes de citer les paroles d’une chanson et que je le fais de tête est-ce que c’est du plagiat ?
Le 11/07/2023 à 13h04
Si tu les récites à qui veut l’entendre sur internet, oui, c’est de la contrefaçon. Si tu le fais pour toi ou dans le cercle de ta famille, non. Mais la famille de ChatGPT est petite, c’est une machine.
Le 11/07/2023 à 13h17
Mais du coup, quelle est la différence entre moi (ou ChatGTP) qui te fournis les paroles de bloody sunday et Google (ou Musixmatch, LyricFind, la Coccinnelle, paroles2chansons.lemonde.fr, …) qui semblent pouvoir les mettre à disposition de tout internet sans encombre ?
C’est une vraie question, je ne pense sincèrement pas que ça tombe sous le coup de la contrefaçon / plagiat mais je n’ai pas les compétences / connaissances pour être sûr de moi et je peux donc totalement me fourvoyer.
Le 11/07/2023 à 13h50
Si tu récites les paroles d’une chanson dans un but commercial, tu as cité l’auteur et tu as des droits pécuniaires à payer (sauf œuvre issue du domaine public).
Si tu t’appropries une œuvre existante, tu es un plagiaire, un faussaire, un arnaqueur.
Le 11/07/2023 à 11h47
Ils sont pas cons, ils savent bien que ca ne fonctionne pas comme cela.
D’ailleurs il disent que ChatGPT conserve la connaissance et pas conserve une copie.
Ce qui, au passage, signifie qu’ils trouvent problématique de conserver de la connaissance après avoir lu une oeuvre.
Le 11/07/2023 à 13h27
Oui, mais en terme d’IA la connaissance c’est stocké en mémoire. Donc pour que l’IA ait connaissance de quelque chose elle doit en faire une copie.
Il faudrait voir l’étendue de la connaissance, ils auront à prouver que ce n’est pas juste un “court résumé” de l’œuvre mais que l’IA en sait plus.
Normalement ces IA lisent des livres pour apprendre à mettre les mots après les autres pour que ça donne un résultat cohérent, elles ne devraient pas garder des informations spécifiques en mémoire.
Le 11/07/2023 à 13h45
Si le modèle derrière ChatGPT est vraiment celui évoqué par OpenAI (en parlant de la version sans accès au web en live) alors non il n’y a aucune copie en mémoire. Et pour le coup sur l’aspect technique c’est mon boulot au quotidien donc je suis assez sûr de moi.
Ce qu’a enregistré le modèle comme tu le dis à la fin de ton message c’est quel mot a plus ou moins tendance à suivre quel autre en fonction d’un contexte (les X mots précédents de la “conversation”) dans le contexte où son interlocuteur lui demande un extrait de “Les Misérables” alors le modèle sait quels mots sortir parce que dans ce contexte c’est cette suite de mots qui est la plus probable.
C’est la plus grande force des LLM, (sans pouvoir le nommer bien sûr) ils sont capables d’avoir pleins de “contextes” dans leurs paramètres (ce n’est pas une mémoire à proprement parlé c’est une suite de fonction mathématique qui choisit la meilleure réponse à fournir à un prompt, c’est pas comparable à une requête en base de donnée par exemple).
Le 11/07/2023 à 14h07
Je dirais que, si ChatGPT est en mesure d’imiter à la perfection un auteur existant, cet outil est un outil de plagiat. Si ChatGPT reproduit une œuvre quasi-parfaitement en citant l’auteur, même en la paraphrasant, des droits (d’auteur, de diffusion, etc) seront probablement réclamés.
Le 11/07/2023 à 14h34
Oui, mais du coup si retient les mots et la probabilité de suite dans un contexte, je pense qu’il n’est pas absurde d’essayer d’argumenter que c’est une forme de stockage.
Ce n’est peut être pas fiable pour du stockage, mais je ne pense pas que le droit de copie se limite à des copies parfaites.
Je me doute que c’est un peu plus complexe que ça, mais je ne suis pas certain qu’il soit possible de juger cette affaire devant son écran.
Le 11/07/2023 à 13h56
Si on considère qu’un humain et un LLM c’est la même chose (y compris au niveau juridique), alors oui. Sinon, non.
Pareil, il faudrait encore considérer que les scripts « lisent » de la même manière qu’un humain. Et accèdent aux œuvres de la même manière … achat, prêt par un proche, emprunt dans une bibliothèque 🤪
Le 11/07/2023 à 14h20
De mémoire (c’est dans ma playlist de voiture pour l’été).
Ca doit pas être exact, mais pas loin…
Edit: j’ai été vérifié, c’est pas si loin. Et je ne me sens par en infraction en citant les paroles de mémoire.
Le 11/07/2023 à 14h48
Tu viens d’exercer ton droit de citation
En fonction du pourcentage des paroles que tu retransmets (même de mémoire) ton commentaire pourrait être en infraction avec le droit d’auteur.
En théorie, je pense que les ayants droits pourraient demander à nextinpact de supprimer ton commentaire si ils estime qu’il y a une infraction (bon, ça ne vaut pas le cout de la procédure mais … en théorie).
Tu peux les mettre par écrit en privé (droit de copie privée) et je pense que tu peux les réciter à tes proches. Mais normalement pas au public (sauf éducation et plein d’autres exceptions).
L’IA est un programme et les entreprises qui les possèdent n’ont pas le droit à ces exceptions.
Le 11/07/2023 à 15h08
La plainte dans la news n’est pas à l’encontre des sites (nextinpact, OpenAI, …) qui publient des commentaires/messages dont le contenu est partiellement soumis au droit d’auteur. La plainte est contre OpenAI qui a utilisé des textes soumis au droit d’auteur pour faire l’apprentissage de son outil.
Bref, ce N’est PAS une plainte contre le résultat obtenu (=la diffusion des paroles de U2) mais contre la méthode d’apprentissage (=la lecture des paroles de U2)…
Le 11/07/2023 à 15h37
Heu, non ils parlent de la méthode d’apprentissage (et surtout des méthodes utilisées pour l’obtention des données qui ne semble pas net), mais le titre dit clairement
Et d’après wikipedia, le plagiat c’est de la contrefaçon
Peut être que c’est différent pour le droit US, mais il est possible que la méthode d’apprentissage soit précisée car pour un plagiat je pense qu’il faut prouver qu’il y a connaissance de l’œuvre plagiée.
Si une IA “lit” un livre et qu’elle est capable d’en restituer quelque chose de similaire on est pour moi dans le cadre (et en plus c’est commercial).
Le pire, c’est que le plagiat ne doit pas être identique (voir les affaires de plagiat en musique), il y a généralement appréciation du juge.
Ces 2 paragraphes me semblent importants
Encore une fois, je ne juge pas devant mon écran, mon avis est qu’il ne semble pas y avoir une plainte abusive et qu’on peut sortir le popcorn pour suivre tout ça.
Le 11/07/2023 à 15h11
Google et les droits d’auteurs, vaste débat.
Next INpact
Pour ceux qui diffusent les paroles, accords, ou musiques, il y a deux écoles :
– ceux qui paient la SACEM ou ont des accords spécifiques avec les éditeurs (par exemple youtube)
– ceux qui ne font qu’héberger du contenu déposé par les utilisateurs, et se cachent derrière ça pour ne pas engager leur responsabilité. Ça tient tant que les ayants droits ne se fâchent pas (par exemple paroles.net, fermé dernièrement sur décision de justice).
Le 11/07/2023 à 15h29
ok donc ce qui fait que là je ne serais pas dérangé si je postais les paroles d’une chanson, c’est en gros l’absence de gain (pour moi de les poster ici, et pour les ayant-droits de se farcir une procédure contre ça) je comprends mieux.
je te rejoins là dessus et je ne prétends pas avoir raison et les plaignant torts, j’ai du mal à concevoir que ça puisse passer pour eux mais je ne suis assez versé en droits d’auteur (vu que c’est l’angle pris) pour me faire une analyse profonde du sujet.
Pour le reste oui je comprends qu’on veuille assimiler ça à une base mais ce que je veux souligner c’est bien que nulle part (normalement) l’oeuvre n’est stockée en tant que telle dans le modèle de ChatGPT (et LLaMA) parce que le public pourrait trop vite croire que c’est juste une grosse BDD et ceci pourrait mener à des raisonnements et conclusions fausses sur la techno et l’outil lui même.
Le 11/07/2023 à 15h42
Je comprends que l’œuvre n’est pas stockée en tant que tel, mais si on me dit “l’IA conserve une probabilité de suite de mots en fonction d’un contexte” j’ai vraiment envie de voir ça comme une compression avec perte.
Encore une fois, je simplifie à outrance, mais j’ai vraiment l’impression que les lois actuelles ne sont pas adaptées à l’IA et si on continue sur un silence des législateurs on va se retrouver en face de situation foireuses.
Le 11/07/2023 à 17h37
Perso, je ne vois pas quelles adaptations législatives il s’agirait de faire parce que le plagiat est suffisamment défini depuis longtemps. Par exemple, lorsqu’une oeuvre (roman, pièce de théâtre) est adaptée au cinéma, on écrit au générique “adaptation de …” ou “librement inspiré de …” : ce n’est pas pour rendre honnêtement hommage, c’est pour éviter des accusations de plagiat justement.
Le 11/07/2023 à 15h20
La première plainte citée, c’est plutôt un non respect des termes de la licence d’utilisation de bibliothèques en ligne.
Le 11/07/2023 à 17h06
Petit florilège extrait du PDF:
Pour le 55, c’est le litige de contrefaçon habituel = recup de fichiers depuis un site qui n’avait pas le droit de les proposer/diffuser.
pour le 56, ca dit que le modèle de langage c’est une oeuvre dérivée. Celle là ca impliquerait que n’importe quelle extraction de données/métriques serait une oeuvre dérivée. Tu comptes les occurrences de voyelles/consones dans l’intégrale des chansons de U2 => le comptage obtenu c’est une oeuvre dérivée de U2.
pour le 60, ca dit que TOUT ce qui sera généré à partir d’un modèle entrainé à partir d’oeuvre sera TOUJOURS une oeuvre dérivée. Tu pioches des lettres au hasard dans l’intégrale des chansons de U2 => c’est une oeuvre dérivée de U2.
Je trouve que c’est un poil abusif de la part de nos amis les zayandroits.
Le 11/07/2023 à 18h13
Le 56 est peut être léger, mais comme j’ai essayé de l’expliquer on pourrait associer le système de fonctionnement de l’IA à une espèce de compression avec perte.
C’est stocké autrement, mais il y a une idée de stockage.
Le 60 me semble le plus abusif (surtout qu’ils disent que tout ce que génère l’IA est du plagiat, et là j’ai un gros doute que ça passe).
Mais il y a 2 plaintes, je suppose que
Se trouve dans la 2 eme. Par ce qu’ici il y aurait plagiat.
Le 11/07/2023 à 18h42
En fait non, GPT à proprement parler n’a pas les informations issues du modèle d’entraînement (même si j’ai souvent parlé ici de “culture générale” dans le modèle, c’est avant tout une image : il n’a pas de mémoire comme nous l’entendons et avons).
Il a juste appris à lire des modèles linguistiques et la syntaxe pour être capable de prédire la suite de mots la plus probable dans un contexte donné.
Un exemple concret : souvenez-vous aux débuts de ChatGPT où il déformait des citations de films, livres, ou bien “répétait” de manière incorrecte un passage. Ben c’est justement la démonstration qu’il ne “connaît” pas par coeur le bouquin : il a juste régénéré le texte en se basant sur le contexte et les milliards de paramètres qui lui permettent de reproduire le style de l’auteur. Ca peut faire illusion, mais c’est un peu comme réciter un texte par coeur et se rendre compte qu’on a réinventé des passages par trou de mémoire.
Si par exemple je lui demande de me citer le 1er paragraphe de 20 000 lieues sous les mers :
GPT 3.5 :
Texte original :
Encore plus drôle, même demande sur GPT 4 :
Le 11/07/2023 à 18h17
Je voulais m’exprimer de façon très générale pour ma conclusion, pas juste pour le plagiat.
Est-ce que quand une IA consulte une œuvre elle réalise une copie ? (légalement)
Le 11/07/2023 à 19h39
J’ai l’impression que vous complexifiez tous.
On a un programme qui a “lu” des textes et revends de la connaissance en se basant sur ces textes.
Le tout :
On est, je trouve, dans un cas suffisamment extrême pour qu’il y ait un problème.
C’est également l’occasion de clarifier ce qu’on peut faire ou ne peut pas faire. Une fois que le monde fonctionnera avec ces IA, le législateur ne pourra plus rien faire comme c’est le cas aujourd’hui avec la publicité ciblée et la collecte des données.
Le 11/07/2023 à 21h06
En matière juridique, il vaut mieux complexifier que trop simplifier jusqu’à devenir simpliste.
peut-être, apparemment : ça fait déjà beaucoup d’incertitudes et ça ne permet pas de qualifier le cas d’extrême.
Le seul point sur lequel je suis d’accord, c’est que c’est l’occasion de clarifier.
Je ne suis pas non plus d’accord sur l’affirmation sur la publicité ciblée et la collecte des données. Le législateur européen a bien travaillé et les résultats progressent.
Le 11/07/2023 à 20h56
Et il paye ses impots, vote à chaque élection, fait des enfants, boit de la bière Hollandaise et abuse de sa carte vitale…
La différence fondamentale d’apprentissage ou d’éducation est qu’un lecteur (même nul) est plus utile aux autres humains qu’un mauvais happening techno-nihilste.
Ce sont bien des personnes qui créent ces modèles. Si ils ont trop de données pour appliquer le minimum de respect dû aux autres, qu’ils changent de métier.
Le 12/07/2023 à 04h42
Si c’était vrai, il y aurait un contrôle avant mise sur le marché des fonctions essentielles relatives à la privacy. De telle sorte qu’aucun commerçant ne pourrait vendre ou revendre des OS dont les paramètres par défaut sont bloqués sur « open bar ».
L’intérêt légitime a montré ses limites éthiques. En particulier lorsque la base légale invoquée, supposée justifier la collecte, est tout simplement absente.
Aucun texte de loi ne répute d’intêret public la collecte de données personnelles.
Par contre, il peut y avoir de bonnes raisons pour pathologiser un peu plus les clients des banques ou des compagnies d’assurance sur l’unique base de leurs dons (sans frais énergétiques à payer).
Lorsque dépendent les prêts et primes de ces systèmes inconnus du client, il y a de quoi s’interroger sur la bonne foi des organismes.
Puisque dans l’absolu de l’intêret, le vol de données de santé se justifie au nom du commerce de masques.
Le 12/07/2023 à 07h36
remplace “un programme” par “un professeur agrégé” et dit moi s’il y a toujours un problème ?
Le 12/07/2023 à 13h43
Et on appelerait ça l’exception pédagogique
https://eduscol.education.fr/420/comment-utiliser-des-oeuvres-dans-un-cadre-pedagogique
Exception qui n’est pas valable pour une société à but lucratif.
Le 12/07/2023 à 15h03
Pas du tout !
L’exception pédagogique est une exception au droit d’auteur.
Le cas cité par 127.0.0.1 est tout autre. Il parle de revendre sa connaissance apprise parce que le professeur a lu les textes et retenu le savoir qui était dans ces textes. Il ne s’agit plus ici de droit d’auteur.
Heureusement que Marc Rees n’est plus ici, il s’arracherait le peu de cheveux qui lui reste en lisant vos amalgames en ce disant que ça ne sert à rien d’expliquer le droit d’auteur et ses exception au lectorat si c’est pour qu’il écrive de pareilles choses !
Le 15/07/2023 à 09h25
Pourquoi alors utiliser spécifiquement le terme “professeur agrégé” ? Car toute personne qui acquiert des connaissances qui sont protégées de quelques manières que ce soit, puis les revends, fait de la contrefaçon.
Le 15/07/2023 à 10h16
Ce n’est pas à moi qu’il faut poser la question.
Par contre, ton affirmation est fausse.
Les connaissances elles-même ne sont pas protégées.
Les œuvres de l’esprit (littérature, musique, films, art en général, articles de presse, etc.) sont protégées par le droit d’auteur, mais les connaissances qui peuvent être inclues dans ces œuvres ne sont pas protégées.
Les inventions sont protégées par les brevets. mais pas les connaissances qui ont amené à faire l’invention.
Des dessins et modèles sont protégés mais ce ne sont pas des connaissances.
Donc, non, on ne peut pas faire de contrefaçon de connaissances.
Le 17/07/2023 à 05h30
Ai-je dit que toutes les connaissances sont protégées ? Il faut arrêter d’inventer ce qui n’a pas été dit.
Le 14/07/2023 à 21h24
Si le professeur agrégé a lu des textes sans posséder les droits pour lire ces textes, oui il y a toujours un problème.
Tu peux nous ré-écrire A Brief History of Time ? Ou le lire en quelques secondes d’ailleurs ? Si tu ne peux pas, alors ta question n’est pas pertinente (humain vs. machine).
Oui, il y a toujours un problème, même très gros, venant de quelqu’un qui a dû présenter des recherches et donc des sources.
C’est amusant de voir comme il semble normal d’évaluer un programme comme un humain pour certains ici. Si on remettait les femmes, les personnes handicapées et les hommes de nouveau ensemble pour les JO, ça vous semblerait une bonne idée ?
Le 12/07/2023 à 14h01
Imaginons une société à but lucratif d’édition de revue littéraire qui embauche un ex-professeur agrégé (ou toute personne ayant acquise des connaissances) qui va utiliser ses connaissances pour faire une meilleure revue littéraire.
Ca pose problème ?
Le 16/07/2023 à 09h59
Intéressant. Donc, selon toi, la vitesse de lecture est un critère à prendre en compte dans ce qui est légalement autorisé ou interdit.
Et dans les fait ca se passe comment ? La police fait passer des tests de détection de Réplicant, à la blade-runner ?
Le 16/07/2023 à 10h13
Tu as raison d’éviter de répondre à la première question.
Le 17/07/2023 à 05h25
Pour la question de la réécriture, regarde ce que j’ai indiqué en #41.
Si paramétrée pour (et encore, y’a toujours un risque de déviation), l’IA génératrice peut reproduire un livre, mais c’est pas garanti. Tout au mieux, elle va imiter le style d’écriture de l’auteur et la tonalité du livre car tout ça c’est des éléments contextuels. En dehors de ça, non, elle n’a aucune connaissance du contenu réel du livre.
Elle l’a juste lu et retenu des concordances entre des mots pour alimenter un modèle de langage.
Tout comme elle n’a pas connaissance d’un fait mais qu’elle est capable de le retranscrire parce que le contexte du prompt lui fait obtenir le résultat le plus probable avec celui-ci. Les “connaissances” de l’outil sont une vue imagée, dans les faits il n’a pas de mémoire au sens où nous l’avons. “Juste” une énorme base d’associations de tokens qui s’enchaîne de manière la plus cohérente possible selon le contexte donné.
Le 17/07/2023 à 09h22
Oui je l’avais lu, et je comprend, mais du coup il est quand même capable de sortir à peu près le contenu (j’ai fait le test et sur les premières pages c’est assez concluant).
Mais bon, c’était qu’un point parmi plusieurs, qui d’ailleurs de mon point de vue est moins intéressant que l’entraînement de l’IA, et la comparaison que certains font encore et toujours entre la puissance d’un ordinateur et celle d’un humain.
Le 17/07/2023 à 07h13
(reply:2143067:Gamble)
Tu as parlé de connaissances protégées ce qui veut dire que tu penses qu’au moins certaines connaissances le sont.
Moi, je dis qu’aucune connaissance n’est protégée.
Quand il y a des protections liées à la propriété intellectuelle, ce ne sont pas les connaissances qui sont protégées mais d’autres choses.
Je n’ai donc rien inventé.