Wikimedia analyse les enjeux de droits d’auteur posés par ChatGPT
Le 24 mars 2023 à 06h06
2 min
Droit
Droit
Dans un article publié le 23 mars 2023, la fondation Wikimedia détaille certaines des questions soulevées par ChatGPT.
Construit à partir du modèle GPT 3.5, la machine a en effet été entraînée à partir de larges quantités de données récupérées en ligne, notamment depuis Wikipédia.
Les contenus produits et hébergés par la Fondation Wikimedia étant sous licence Creative Commons, ils sont techniquement mis à disposition du public qui peut les réutiliser et de les reproduire librement et gratuitement.
Wikimédia souligne d’ailleurs que de tels usages de masses peuvent tomber dans la catégorie d’« usage loyaux » (donc acceptables) tels que définis par la loi américaine.
D’autres usages de masse ont déjà été décrétés « loyaux » par la justice, parmi lesquels la reproduction de masse d’images pour faciliter l’indexation/recherche de contenu, de même que la reproduction d’extraits de livres pour en faciliter la sauvegarde numérique.
La Fondation Wikimedia souligne toutefois que des exceptions légales pourraient être trouvées pour ChatGPT et des programmes similaires si un tribunal considérait que les publications accumulées pour entraîner les machines servent, à terme, à remplacer les travaux qui ont servi à leur entraînement.
La Fondation Wikimedia s’attarde ensuite sur la complexité légale que pose la question des droits d’auteurs relatifs aux productions d’une IA.
Le Copyright Act américain n’exclut pas les intelligences artificielles, pointe l’organisation, cela dit, elle définit une œuvre intellectuelle selon trois critères (originalité, créativité et œuvre fixée sur un médium tangible) que les technologies récentes peuvent permettre de remplir… ou pas.
En définitive, la Fondation souligne le besoin de clarification sur la vaste série de questions juridiques qu’ouvre la brusque profusion de modèles génératifs.
Le 24 mars 2023 à 06h06
Commentaires (31)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 24/03/2023 à 07h22
C’est effectivement une question assez épineuse. Pour reprendre l’exemple d’Ubisoft qui utilise l’IA génératrice pour écrire les dialogues des PNJ, même si c’est un outil qui a produit le résultat, celui-ci reste propriété intellectuelle d’Ubisoft. Mais si le résultat est issu de l’analyse de matériel lui-même sous droit d’auteur qui a servi à entraîner le modèle, ça commence à devenir bordélique cette histoire.
Après là on parle de la loi US, il serait intéressant de voir ces débats dans le cadre de la loi française.
Le 24/03/2023 à 07h32
Les contenus produits et hébergés par la Fondation Wikimedia étant sous licence Creative Commons, ils sont techniquement mis à disposition du public qui peut les réutiliser et de les reproduire librement et gratuitement.
La fondation Wikimedia nuance néanmoins ce propos par cette phrase :
Toutefois, il n’est pas encore clair si la copie massive de contenu à partir de ces sources peut entraîner une violation de la licence Creative Commons si l’attribution n’est pas accordée. Dans l’ensemble, il est plus probable qu’improbable que les systèmes d’apprentissage automatique utilisant des données protégées par le droit d’auteur soient couverts par le principe de l’utilisation équitable aux États-Unis, même si l’incertitude est grande à l’heure où nous écrivons ces lignes.
C’est la même question que celle derrière le pompage massif de code sous licence libre hébergé sur Github et utilisé pour entrainer Copilot.
Le 24/03/2023 à 08h12
Oui, le gros souci vient de ne pas savoir lier le texte généré à des sources particulières du set d’entraînement.
Ce serait un peu moins problématique dans le cas où tout le set d’entraînement serait limité à Wikipédia. La licence est la même pour tous les articles, la nécessité d’attribution à Wikipédia ne serait pas difficile à apposer au bloc de texte repris du bot. Mais chatGPT ne se limitant pas à WIkipédia, c’est plus délicat.
Dans le cas de Copilot (OpenAI Codex pour être plus précis si on parle de l’IA, d’autres softs que Copilot peuvent se baser dessus), c’est même plus problématique parce que chaque projet dans Github a sa propre licence dont certaines ne permettent pas de réutiliser un bout du code dans un projet sous licence non compatible (comme la GPL).
Mais est-ce que cela change tant que ça l’état actuel des choses ? Il doit déjà y avoir une tonne de projet qui ne sont pas sous licence compatible GPL et qui se sont allègrement inspirés de projets opensource sous GPL. Pourquoi ne nous interpellions-nous pas déjà de ça ?
Le 24/03/2023 à 08h14
Je ne comprends pas cette phrase : “Les contenus produits et hébergés par la Fondation Wikimedia étant sous licence Creative Commons, ils sont techniquement mis à disposition du public qui peut les réutiliser et de les reproduire librement et gratuitement.”
À ma connaissance, la licence Creative Commons implique toujours l’attribution, même si les autres aspects sont variables. Or ChatGPT ne crédite jamais qui que ce soit dans les extraits qu’il recrache, plus ou moins malaxés.
Le 24/03/2023 à 08h23
Oui, techniquement on doit créditer la source. Mais l’article de Wikimedia nuance par rapport au fair use qui permet de “transgresser” une licence sans être fautif. Ils se demandent si l’usage via chatGPT rentre dans les termes du fair use:
Le 24/03/2023 à 09h18
C’est pas si simple que cela, car le CC by-sa implique de publié sous la même licence le résultat (donc tout le texte généré par chatGPT serait également sous CC by-sa) et par ailleurs implique de citer les auteurs. Et pour Wikipédia, ça se chiffre en millions. On peut pointer vers les pages d’historique des articles pour ne pas lister exhaustivement tous les auteurs mais là aussi il y a des millions d’articles à lister.
Le 24/03/2023 à 10h15
La licence s’applique à l’oeuvre originale et aux oeuvre dérivées.
ChatGPT ne recrache pas verbatim l’oeuvre originale, mais génère sa propre oeuvre
Mais est-ce que cette oeuvre générée est considérée comme une oeuvre dérivées ?
Regardons la définition de “oeuvre dérivée” d’après Creative Commons :
Du coup c’est un bottage en touche. C’est une oeuvre dérivée si:
D’où la nécessité de se retourner vers les autorités pour clarifier la situation.
Le 24/03/2023 à 10h43
Ne pas confondre un document valant licence et le point de vue moral de l’auteur sur ses propres œuvres.
Une toile de grand maître peut en cacher une autre. De l’antériorité morale découle l’autorisation de réemploi… la jeunesse des autorités est ainsi un problème pas si clair lorsqu’on connaît la propension des régulateurs à négliger la crédulité des consommateurs, voire, à l’aggraver.
Le 24/03/2023 à 11h03
Le droit d’auteur peut devenir compliqué en effet mais il y a pire.
A quand un ChatGPT qui colporte des fake news issues de page Wikipédia ? Au pif voir ce que cela donne pour un sujet comme “dr Burzynski”. Il y a un film (en fait plusieurs) à son sujet.
Quoi qu’on pense de l’histoire de ce monsieur, il y a certains problèmes avec Wikipédia (c’est pas lui l’admin de la page apparemment). On est carrément à un niveau d’intervention édifiant. En dessous de la minute parfois d’après certaines sources.
Quand on confronte les sources (discutables ou pas pour chacun) on remarque quand même une dissonance entre les parties à propos des faits.
Du coup. Si ChatGPT n’est qu’un répéteur… Quid de la responsabilité d’un contenu lié par droit d’auteur ?
Ex :Si on nourri un dispositif analytique (parce ces trucs ne pensent toujours pas) avec des livres un peu allemand et blondinet des années 30, faudra pas s’étonner que ca fasse des saluts en mode raideur du bras ensuite.
Ce qui m’amène à penser que le si droit d’auteur devient plus préoccupant que la véracité. C’est qu’on s’intéresse moins aux responsabilités qu’aux légitimités d’auteur. Et qu’en gros Wikipédia s’interroge en public pour, entre guillemet dire qu’il faudrait un petit billet pour couvrir les frais. “Itz just gud bizness” dirait un lolcat.
Mais bon ca ferai pas de mal de nettoyer un peu wikipédia d’abord. Il y a quand même des trucs bizarres dessus.
Le 24/03/2023 à 11h05
La morale, chacun a la sienne. La loi/licence est la même pour tout le monde.
Vouloir transcrire un point de vue moral majoritairement partagé par le peuple dans la loi/licence, c’est une chose. Vouloir transcrire dans la loi/licence qu’il faut systématiquement se plier au point de vue moral du peuple (ici de l’auteur), c’en est une autre.
Le 24/03/2023 à 11h15
Les “contenus” ne sont pas responsables, qu’ils soient écrits par des humains ou des algorithmes.
Perso, je n’ai jamais vu un livre en garde à vue, ni témoigner devant les tribunaux, et encore moins emprisonné jusqu’à ce que ces pages jaunissent.
Par contre, si une personne physique/morale publie des contenus litigieux (qu’ils soient écrits par des humains ou des algorithmes), alors cette personne physique/morale est passible de poursuite légale.
Si, comme tu l’as dit ton propre message, ChatGPT n’est qu’un “dispositif analytique” alors ce n’est pas une personne physique/morale qu’on peut trainer en justice.
Le 24/03/2023 à 12h12
L’un n’empêche pas l’autre car la loi est supérieure à la licence.
Le droit moral est un droit annexe à un droit constitutionnel fondamental : la liberté.
[Naissent libres et égaux]
La licence c’est un contrat de type anglosaxon valant en droit Français un mandat.
La morale du mandataire peut alors aussi s’exercer par les droits qu’il souhaite.
Sauf si ses droits sont en concurrence particulière avec ceux de l’auteur. Ce qui est difficilement démontrable dès lors que l’opposition au réusage est un droit qui s’éteint à la publication de l’oeuvre…
Oui.
C’est pour cette raison que la « licence » n’est qu’un mandat au sens du code civil.
Une IA dont le code source est planqué a alors comme solution de repli les MTP… c’est à dire de mandater lui-même (l’auteur) un tiers de confiance chargé d’appliquer les prescriptions spécieuses du pseudo-créateur…
Le 24/03/2023 à 12h19
En effet on a pas mettre un bout de papier sous séquestre. Quoique… les archives secrètes mais c’est un autre sujet.
Y’a quand même quelqu’un qui appui sur entrée. Et un autre qui produit le contenu, donc le publie. En encore un autre qui sélectionne le jeu de données (le contenus) pour entrainer le dispositif (pour en faire un vilain ou un gentil). Qui est le responsable ?
Si j’étais un état je serai bien tenté de faire de la propagande automatisée. Donc le plus urgent n’est peut être pas le droit d’auteur.
Le 24/03/2023 à 13h48
Par conception ou observation scrupuleuse de droit au secret des affaires/MTP ?
Il y aussi le biais creusé… imaginons une architecture logicielle orientée par l’obscurité, avec des fenêtres teintés d’un seul côté et des sources payées pour se taire entre les horraires de labeur.
Par desssus, on ajoute un droit opposable du vendeur (ou voisin) renforçant la situation autoritaire par le mot « technique ».
Finalement, on a tous les ingédients d’une fable démocratique se terminant par un ou plusieurs monopoles inflexibles à la hauteur des états.
Enfin, et comme si ceci ne suffisait pas, il faut en sus, en bonne compagnie médiatique du quart d’heure, voire de la « minute » et contre les « 60 secondes », ne pas donner les recettes de cuisine réputées « trop longues » et ne pas dire « je ne sais pas » au risque de heurter, même pis, stigmatiser la pauvre case déserpérée d’être remplie de façon illégitime par l’ailleurs.
J’ai vaguement compris que cet emploi, crée par un ex-président Américain, est reconnu par l’état… ou son ministère des Finances.
Le 24/03/2023 à 12h19
Oui, la CreativeCommons implique toujours l’attribution (BY) à l’exception de CC-0.
Après la question c’est : est-ce que GPT paraphrase bêtement ? De ma compréhension, il produit un texte qui a la plus forte probabilité d’être exact dans le contexte demandé en se basant sur des connaissances acquises pendant l’entraînement.
Par exemple si je lui demande de me dire qu’est-ce que Creative Commons, il va me parler de l’organisation à but non lucratif derrière et des différentes licenses qu’elle porte et de son adoption massive. Mais le texte produit n’est pas un bête copié/collé de Wikipedia ni même de Creativecommons.org :
J’ai cherché rapidement des pans de ce texte sur le Web et pas de résultat identique, donc d’un certain point du vue on peut considérer le résultat comme original et non repompé. Sinon cela reviendrait à dire qu’on devrait créditer toutes les connaissances acquises dans notre éducation et vie.
Par contre le point noir de ces outils, c’est qu’il est difficile de leur faire cracher des références documentaires permettant de confronter la réponse donnée. Et leur ton sûr d’eux donne l’impression d’être infaillibles. D’une certaine façon, ça me rappelle le sujet de Hacking Social sur l’erreur fondamentale d’attribution, aussi surnommé “effet Julien Lepers” où l’on croit dans un modèle de question/réponse que l’interrogateur est plus cultivé que l’interrogé. Biais causé simplement par la posture de questionneur / questionné. Ici c’est inversé au sens où celui qui répond donne l’assurance d’être exact juste par sa façon d’écrire et son argumentation. Alors que ça peut être une grosse connerie.
Le 24/03/2023 à 15h15
ChatGPT n’a pas de “connaissance”. Il ne connaît rien et ne comprend rien à ce qu’il dit. C’est juste un générateur de mots qui lui semblent crédibles pour apparaître dans le contexte donné. C’est un générateur de bullshit, rien de plus.
Et donc, puisqu’il n’a pas digéré le texte pour recracher un autre texte basé sur sa compréhension, mais qu’au contraire il reste au niveau du texte sans jamais abstraire, pour moi on est dans la réutilisation du texte et non de l’idée décrite par le texte, même si en effet, il en fait une dentelle finement ciselée plutôt qu’un recrachage brut.
Le 24/03/2023 à 15h53
Le texte qu’il a généré à propos de Creative Commons est un bullshit donc ? Quelles sont les parties qui le démontre ?
Autant je sais qu’il est capable de dire de la merde sur un ton assuré, autant là je pense que tu es un peu réducteur sur les capacités de l’outil. Il est bien capable de produire du contenu valide selon un contexte donné en prédisant la suite de mots la plus cohérente en se basant sur une base de connaissances. Les informations relatives à Creative Commons, il ne les suce pas de son pouce, ce sont des données présentes dans son modèle.
L’une des choses que cet outil démontre de mon point de vue, c’est le principe de la tête bien faite versus la tête bien pleine. ChatGPT est une tête bien pleine capable de vomir son par coeur, mais il est incapable d’exploiter toute cette vaste base de connaissances et peut rapidement générer du contenu contradictoire ou incohérent en toute assurance parce qu’il ne sait pas se remettre en cause. Au même titre qu’un gamin à qui on a demandé d’apprendre par coeur sa table de multiplications sans lui dire comment et pourquoi s’en servir.
Le 24/03/2023 à 16h16
C’est un pur baratineur qui raconte ce qu’il imagine que son interlocuteur veut entendre. Bien sûr, il a été entraîné sur un tel corpus de données que souvent il tombe juste. Mais son objectif n’est pas d’être juste mais seulement de générer un texte qui ne fera pas tâche dans le contexte donné. Il ne se préoccupe pas de savoir si c’est juste ou non.
Par exemple, testé à l’instant :
8160*315
“Multiplying 8160 by 315 gives us 2,571,600.”
Ça semble plausible, ça ne choque pas. L’ordre de grandeur est correct, même. Mais c’est faux (la vraie réponse est 2570400). S’il se souciait juste un tantinet de donner une réponse juste, il ne se planterait pas sur un calcul aussi simple. Mais non, il traite juste ça comme du texte qui ressemble à ce qu’il a vu dans un contexte similaire, le sens lui échappe.
Le 24/03/2023 à 16h45
C’est étonnant de juger une IA cherchant à reproduire le language humain là dessus, alors que les calculs mathématiques sur de grands nombres sont justement un truc pour lequel les machines sont très fortes depuis bien longtemps et meilleures que les humains (qui pourraient très bien faire le même type d’erreur de calcul). Le fait qu’une IA soit bonne en calculs ne montre en rien qu’elle sait raisonner. Ça illustre bien le réflexe défensif face aux IA, qui consiste à changer les critères d’évaluation jusqu’à l’absurde pour se rassurer alors qu’elles s’améliorent.
Avec Bing Chat (GPT-4):
Le 24/03/2023 à 17h06
J’ai continué en français en lui demandant suite au résultat : êtes-vous sûr ?
Réponse : Oui, je suis sûr. Voulez-vous que je vous explique comment j’ai obtenu ce résultat ?
Moi : Oui, s’il vous plait (réponse suggérée par Bing.)
Et là, c’est un gros n’importe quoi :
alors que ça commençait bien, mais ça n’a pas duré !
Mais je suis d’accord que ce n’est pas une bonne idée de la tester sur du calcul.
C’est dommage qu’à ma question “êtes vous sûr, elle m’ait demandé si je voulais qu’elle explique comment elle a obtenu le résultat alors que son explication ne tient pas.
Le 24/03/2023 à 17h29
J’ai refait l’exercice avec ChatGPT pour la déconne.
Tout est question de machine learning à coup de tatane dans la tronche et d’argument d’autorité. Ce qui marche aussi c’est de dire “but my wife says XXX and she’s always right” et il abdique ou se rattrape aux branches en disant de respecter les opinions de chacun.
Mais ça ne démontre pas grand chose en dehors du fait qu’il sait s’adapter au contexte de la discussion pour produire le résultat le plus proche de celui attendu.
Le 25/03/2023 à 07h54
En fait peu importe si le boulet ralentit le canon, ou l’inverse : dans les deux cas ça sent la poudre.
Ce qui démontre bien le caractère inepte de ces expériences dont la finalité m’échappe encore.
(Les canons occidentaux ne sont pas faits pour être allumés…)
Le 29/03/2023 à 09h08
Ca me semble être la définition même du baratinage
Un baratineur qui tombe souvent juste n’est pas d’un coup une personne qui ne baratine pas. Un baratineur veut sortir une réponse avec de l’assurance quelque soit son degré de certitude et le formule pour que ça soit accepté par son interlocuteur.
Son explication sur Creative Commons ne fait pas exception.
ChatGPT est un baratineur, il n’y a pas de doute là-dessus, mais ça n’enlève rien à l’utilité de l’outil. Mais il vaut mieux être au fait de cette caractéristique pour bien l’utiliser.
Le 24/03/2023 à 16h52
Qu’il n’ait pas pour vocation de dire des choses justes, c’est ce que je répète ici depuis longtemps. Il a vocation à donner la suite de mots la plus plausible dans le contexte donné.
Tu donnes un exemple où il se trompe, il y en a des milliers et ça ne prouve pas grand chose à part qu’il a des limitations et qu’il est faillible… Soit ce qu’on sait depuis le début de ChatGPT et qui est accessoirement affiché sur sa homepage.
Mais au final tu ne réponds pas à ma question : le texte généré pour décrire Creative Commons est-il du repompage de texte malaxé comme tu l’affirmes ? Est-ce du bullshit en matière de contenu ? Car tu me sembles très catégorique sur le sujet sans réellement le démontrer en dehors d’un exemple allant dans ton sens. Soit le genre de travers qu’on reproche à ces outils : affirmer des choses sans le sourcer.
Pour moi tout ceci n’est pas si évident et les questions relatives au droit d’auteur sont intéressantes. Il s’agit de génération de texte à partir de sources ayant servi à l’entraîner d’une manière similaire à celle d’une personne qui écrirait un texte basé sur ses connaissances. Dès lors, la question de créditer les sources d’info dans le cas d’un contenu original produit à partir d’elles est intéressante.
Le 25/03/2023 à 11h33
C’était surtout pour illustrer le fait qu’il raconte avec aplomb un truc manifestement faux, plutôt que de dire que ce n’est pas dans ses compétence. Du coup, tout ce qu’il dit est suspect : est-ce qu’il est en train de nous baratiner, ou est-ce exact, ce qu’il raconte ?
Le 25/03/2023 à 13h17
Ben tu as un exemple avec le texte qu’il m’a produit sur Creative Commons : est-ce du baratin ou bien a-t-il eu la chance d’être exact ? Pour ma part je n’ai pas trouvé grand chose à redire.
L’esprit critique reste dans tous les cas une nécessité. Que ce soit vis à vis de ces outils ou de tous les experts auto-proclamés des média sociaux qui balancent des foutaises avec la même assurance et incapacité de citer des références que ces outils. Le ton assuré de ces outils fait partie des reproches que j’ai aussi contre eux, je l’ai déjà indiqué à plusieurs reprises sur les nombreuses actualités à leur sujet.
Bref, plein de nuances et pas de binaire, comme sur à peu près tous les sujets.
Le 25/03/2023 à 16h39
S’il faut vérifier tout ce que ChatGPT dit, alors soit tu ne l’interroges que sur ce que tu connais déjà (super utile), ou alors tu fais des recherches par toi-même à côté pour vérifier ce qu’il dit (double boulot). Dans un cas comme dans l’autre, il ne sert à rien.
Pour ton exemple avec Creative Commons, si tu dois aller vérifier sur creativecommons.org que ChatGPT n’a pas raconté de connerie, à quoi a-t-il servi ? Il ne t’a même pas donné l’url pour savoir où aller vérifier.
Le 26/03/2023 à 14h53
Il reste entrainé pour être “aligné” avec son interlocuteur, donc pour donner une bonne réponse quand c’est cela qui est attendu (et c’est un cas fréquent).
On parle quand même d’un modèle qui fait mieux que la plupart des humains et des autres IA existantes sur pas mal de tests destinés à mesurer le niveau des humains et des IA. Il suffit de l’utiliser un peu, il semble quand même qu’il y ait une forme simple d’intelligence derrière qui émerge du modèle, même si les capacités de raisonnement sont limitées par l’architecture du modèle. Ce point fait débat mais on peut arguer qu’une forme d’intelligence émergente est nécessaire ne serait-ce que pour déployer ce niveau d’expression orale .
Il est honnêtement déjà utile dans pas mal de domaines pratiques/non créatifs: ceux ou les “IA” sont déjà utiles comme la traduction, classification etc mais aussi l’assistance au développement (essayez copilot) et d’autres.
Le fait qu’il soit assez “intelligent” pour être capable d’utiliser lui même des API à la demande et sans code ouvre un monde de possibilités. Par exemple pour écrire des plugins pour ChatGPT:
Le 26/03/2023 à 12h17
Je ne sais pas trop pourquoi vous vous focalisez sur la véracité de la réponse.
C’est à la fois hors-sujet sur le droit d’auteur et hors du périmètre des objectifs de ChatGPT.
ChatGPT est un modèle de langage et pas un démonstrateur de théorème, ou je ne sais quel évolution de Prolog.
ChatGPT à pour objectif de s’exprimer comme le ferait un humain, et cela peu importe si le propos est vrai ou faux.
Le 27/03/2023 à 09h17
Les contenus produits et hébergés par la Fondation Wikimedia étant sous
licence Creative Commons, ils sont normalement mis à disposition du public
qui peut les réutiliser et de les reproduire librement et gratuitement.
attendons la réaction des ‘AD.’*, je suis curieux de la pirouette
qu’ils vont, encore, nous trouver pour justifier qu’on taxe ‘GPT’ ?
Le 27/03/2023 à 13h20
Le droit d’auteur Français suppose que toute création tombe dans le domaine public, y compris si l’auteur s’y oppose après sa mort. L’imposable n’est ainsi pas éternel, rassurons-nous « un » jour.