Connexion
Abonnez-vous

Wikimedia analyse les enjeux de droits d’auteur posés par ChatGPT

Wikimedia analyse les enjeux de droits d’auteur posés par ChatGPT

Le 24 mars 2023 à 06h06

Dans un article publié le 23 mars 2023, la fondation Wikimedia détaille certaines des questions soulevées par ChatGPT.

Construit à partir du modèle GPT 3.5, la machine a en effet été entraînée à partir de larges quantités de données récupérées en ligne, notamment depuis Wikipédia.

Les contenus produits et hébergés par la Fondation Wikimedia étant sous licence Creative Commons, ils sont techniquement mis à disposition du public qui peut les réutiliser et de les reproduire librement et gratuitement.

Wikimédia souligne d’ailleurs que de tels usages de masses peuvent tomber dans la catégorie d’« usage loyaux » (donc acceptables) tels que définis par la loi américaine.

D’autres usages de masse ont déjà été décrétés « loyaux » par la justice, parmi lesquels la reproduction de masse d’images pour faciliter l’indexation/recherche de contenu, de même que la reproduction d’extraits de livres pour en faciliter la sauvegarde numérique.

La Fondation Wikimedia souligne toutefois que des exceptions légales pourraient être trouvées pour ChatGPT et des programmes similaires si un tribunal considérait que les publications accumulées pour entraîner les machines servent, à terme, à remplacer les travaux qui ont servi à leur entraînement.

La Fondation Wikimedia s’attarde ensuite sur la complexité légale que pose la question des droits d’auteurs relatifs aux productions d’une IA.

Le Copyright Act américain n’exclut pas les intelligences artificielles, pointe l’organisation, cela dit, elle définit une œuvre intellectuelle selon trois critères (originalité, créativité et œuvre fixée sur un médium tangible) que les technologies récentes peuvent permettre de remplir… ou pas.

En définitive, la Fondation souligne le besoin de clarification sur la vaste série de questions juridiques qu’ouvre la brusque profusion de modèles génératifs.

Le 24 mars 2023 à 06h06

Commentaires (31)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar

C’est effectivement une question assez épineuse. Pour reprendre l’exemple d’Ubisoft qui utilise l’IA génératrice pour écrire les dialogues des PNJ, même si c’est un outil qui a produit le résultat, celui-ci reste propriété intellectuelle d’Ubisoft. Mais si le résultat est issu de l’analyse de matériel lui-même sous droit d’auteur qui a servi à entraîner le modèle, ça commence à devenir bordélique cette histoire.



Après là on parle de la loi US, il serait intéressant de voir ces débats dans le cadre de la loi française.

votre avatar

Les contenus produits et hébergés par la Fondation Wikimedia étant sous licence Creative Commons, ils sont techniquement mis à disposition du public qui peut les réutiliser et de les reproduire librement et gratuitement.



La fondation Wikimedia nuance néanmoins ce propos par cette phrase :



Toutefois, il n’est pas encore clair si la copie massive de contenu à partir de ces sources peut entraîner une violation de la licence Creative Commons si l’attribution n’est pas accordée. Dans l’ensemble, il est plus probable qu’improbable que les systèmes d’apprentissage automatique utilisant des données protégées par le droit d’auteur soient couverts par le principe de l’utilisation équitable aux États-Unis, même si l’incertitude est grande à l’heure où nous écrivons ces lignes.



C’est la même question que celle derrière le pompage massif de code sous licence libre hébergé sur Github et utilisé pour entrainer Copilot.

votre avatar

pamputt a dit:



C’est la même question que celle derrière le pompage massif de code sous licence libre hébergé sur Github et utilisé pour entrainer Copilot.


Oui, le gros souci vient de ne pas savoir lier le texte généré à des sources particulières du set d’entraînement.



Ce serait un peu moins problématique dans le cas où tout le set d’entraînement serait limité à Wikipédia. La licence est la même pour tous les articles, la nécessité d’attribution à Wikipédia ne serait pas difficile à apposer au bloc de texte repris du bot. Mais chatGPT ne se limitant pas à WIkipédia, c’est plus délicat.



Dans le cas de Copilot (OpenAI Codex pour être plus précis si on parle de l’IA, d’autres softs que Copilot peuvent se baser dessus), c’est même plus problématique parce que chaque projet dans Github a sa propre licence dont certaines ne permettent pas de réutiliser un bout du code dans un projet sous licence non compatible (comme la GPL).



Mais est-ce que cela change tant que ça l’état actuel des choses ? Il doit déjà y avoir une tonne de projet qui ne sont pas sous licence compatible GPL et qui se sont allègrement inspirés de projets opensource sous GPL. Pourquoi ne nous interpellions-nous pas déjà de ça ?

votre avatar

Je ne comprends pas cette phrase : “Les contenus produits et hébergés par la Fondation Wikimedia étant sous licence Creative Commons, ils sont techniquement mis à disposition du public qui peut les réutiliser et de les reproduire librement et gratuitement.



À ma connaissance, la licence Creative Commons implique toujours l’attribution, même si les autres aspects sont variables. Or ChatGPT ne crédite jamais qui que ce soit dans les extraits qu’il recrache, plus ou moins malaxés.

votre avatar

Oui, techniquement on doit créditer la source. Mais l’article de Wikimedia nuance par rapport au fair use qui permet de “transgresser” une licence sans être fautif. Ils se demandent si l’usage via chatGPT rentre dans les termes du fair use:




With this in mind, it is important to note that Creative Commons licenses allow for free reproduction and reuse, so AI programs like ChatGPT might copy text from a Wikipedia article or an image from Wikimedia Commons. However, it is not clear yet whether massively copying content from these sources may result in a violation of the Creative Commons license if attribution is not granted. Overall, it is more likely than not if current precedent holds that training systems on copyrighted data will be covered by fair use in the United States, but there is significant uncertainty at time of writing.


votre avatar

haelty a dit:


Oui, le gros souci vient de ne pas savoir lier le texte généré à des sources particulières du set d’entraînement.



Ce serait un peu moins problématique dans le cas où tout le set d’entraînement serait limité à Wikipédia. La licence est la même pour tous les articles, la nécessité d’attribution à Wikipédia ne serait pas difficile à apposer au bloc de texte repris du bot. Mais chatGPT ne se limitant pas à WIkipédia, c’est plus délicat.


C’est pas si simple que cela, car le CC by-sa implique de publié sous la même licence le résultat (donc tout le texte généré par chatGPT serait également sous CC by-sa) et par ailleurs implique de citer les auteurs. Et pour Wikipédia, ça se chiffre en millions. On peut pointer vers les pages d’historique des articles pour ne pas lister exhaustivement tous les auteurs mais là aussi il y a des millions d’articles à lister.

votre avatar

(quote:2126115:alex.d.)
À ma connaissance, la licence Creative Commons implique toujours l’attribution, même si les autres aspects sont variables. Or ChatGPT ne crédite jamais qui que ce soit dans les extraits qu’il recrache, plus ou moins malaxés.


La licence s’applique à l’oeuvre originale et aux oeuvre dérivées.



ChatGPT ne recrache pas verbatim l’oeuvre originale, mais génère sa propre oeuvre
Mais est-ce que cette oeuvre générée est considérée comme une oeuvre dérivées ?



Regardons la définition de “oeuvre dérivée” d’après Creative Commons :




Œuvre dérivée signifie œuvre protégée par les Droit d’auteur et droits connexes, dérivée ou adaptée de l’Œuvre sous licence et dans laquelle l’Œuvre sous licence est traduite, retouchée, arrangée, transformée, ou modifiée de telle façon que l’autorisation du Donneur de licence est nécessaire, conformément aux dispositions des Droit d’auteur et droits connexes.


Du coup c’est un bottage en touche. C’est une oeuvre dérivée si:




  1. la nouvelle oeuvre est protégée par… le Droit d’auteur !

  2. l’autorisation de l’auteur d’origine est nécessaire d’après… le Droit d’auteur !



D’où la nécessité de se retourner vers les autorités pour clarifier la situation.

votre avatar

(quote:2126160:127.0.0.1)
D’où la nécessité de se retourner vers les autorités pour clarifier la situation.


Ne pas confondre un document valant licence et le point de vue moral de l’auteur sur ses propres œuvres.




ChatGPT ne recrache pas verbatim l’œuvre originale, mais génère sa propre œuvre
Mais est-ce que cette œuvre générée est considérée comme une œuvre dérivées ?


Une toile de grand maître peut en cacher une autre. De l’antériorité morale découle l’autorisation de réemploi… la jeunesse des autorités est ainsi un problème pas si clair lorsqu’on connaît la propension des régulateurs à négliger la crédulité des consommateurs, voire, à l’aggraver.

votre avatar

Le droit d’auteur peut devenir compliqué en effet mais il y a pire.



A quand un ChatGPT qui colporte des fake news issues de page Wikipédia ? Au pif voir ce que cela donne pour un sujet comme “dr Burzynski”. Il y a un film (en fait plusieurs) à son sujet.



Quoi qu’on pense de l’histoire de ce monsieur, il y a certains problèmes avec Wikipédia (c’est pas lui l’admin de la page apparemment). On est carrément à un niveau d’intervention édifiant. En dessous de la minute parfois d’après certaines sources.



Quand on confronte les sources (discutables ou pas pour chacun) on remarque quand même une dissonance entre les parties à propos des faits.



Du coup. Si ChatGPT n’est qu’un répéteur… Quid de la responsabilité d’un contenu lié par droit d’auteur ?



Ex :Si on nourri un dispositif analytique (parce ces trucs ne pensent toujours pas) avec des livres un peu allemand et blondinet des années 30, faudra pas s’étonner que ca fasse des saluts en mode raideur du bras ensuite.



Ce qui m’amène à penser que le si droit d’auteur devient plus préoccupant que la véracité. C’est qu’on s’intéresse moins aux responsabilités qu’aux légitimités d’auteur. Et qu’en gros Wikipédia s’interroge en public pour, entre guillemet dire qu’il faudrait un petit billet pour couvrir les frais. “Itz just gud bizness” dirait un lolcat.



Mais bon ca ferai pas de mal de nettoyer un peu wikipédia d’abord. Il y a quand même des trucs bizarres dessus.

votre avatar

(quote:2126167:Idiogène)
Ne pas confondre un document valant licence et le point de vue moral de l’auteur sur ses propres œuvres.
Une toile de grand maître peut en cacher une autre. De l’antériorité morale découle l’autorisation de réemploi…


La morale, chacun a la sienne. La loi/licence est la même pour tout le monde.



Vouloir transcrire un point de vue moral majoritairement partagé par le peuple dans la loi/licence, c’est une chose. Vouloir transcrire dans la loi/licence qu’il faut systématiquement se plier au point de vue moral du peuple (ici de l’auteur), c’en est une autre.

votre avatar

TexMex a dit:


Du coup. Si ChatGPT n’est qu’un répéteur… Quid de la responsabilité d’un contenu lié par droit d’auteur ?


Les “contenus” ne sont pas responsables, qu’ils soient écrits par des humains ou des algorithmes.
Perso, je n’ai jamais vu un livre en garde à vue, ni témoigner devant les tribunaux, et encore moins emprisonné jusqu’à ce que ces pages jaunissent. :D



Par contre, si une personne physique/morale publie des contenus litigieux (qu’ils soient écrits par des humains ou des algorithmes), alors cette personne physique/morale est passible de poursuite légale.



Si, comme tu l’as dit ton propre message, ChatGPT n’est qu’un “dispositif analytique” alors ce n’est pas une personne physique/morale qu’on peut trainer en justice.

votre avatar

(quote:2126171:127.0.0.1)
La morale, chacun a la sienne. La loi/licence est la même pour tout le monde.


L’un n’empêche pas l’autre car la loi est supérieure à la licence.
Le droit moral est un droit annexe à un droit constitutionnel fondamental : la liberté.
[Naissent libres et égaux]
La licence c’est un contrat de type anglosaxon valant en droit Français un mandat.
La morale du mandataire peut alors aussi s’exercer par les droits qu’il souhaite.
Sauf si ses droits sont en concurrence particulière avec ceux de l’auteur. Ce qui est difficilement démontrable dès lors que l’opposition au réusage est un droit qui s’éteint à la publication de l’oeuvre…




Vouloir transcrire un point de vue moral majoritairement partagé par le peuple dans la loi/licence, c’est une chose. Vouloir transcrire dans la loi/licence qu’il faut systématiquement se plier au point de vue moral du peuple (ici de l’auteur), c’en est une autre.


Oui.
C’est pour cette raison que la « licence » n’est qu’un mandat au sens du code civil.
Une IA dont le code source est planqué a alors comme solution de repli les MTP… c’est à dire de mandater lui-même (l’auteur) un tiers de confiance chargé d’appliquer les prescriptions spécieuses du pseudo-créateur…

votre avatar

(quote:2126173:127.0.0.1)
Les “contenus” ne sont pas responsables, qu’ils soient écrits par des humains ou des algorithmes. Perso, je n’ai jamais vu un livre en garde à vue, ni témoigner devant les tribunaux, et encore moins emprisonné jusqu’à ce que ces pages jaunissent. :D



Le phrasé est voulu dans le sens de “contenu qui remonte jusqu’à l’auteur”.


En effet on a pas mettre un bout de papier sous séquestre. Quoique… les archives secrètes mais c’est un autre sujet.




(quote:2126173:127.0.0.1)
Par contre, si une personne physique/morale publie des contenus litigieux (qu’ils soient écrits par des humains ou des algorithmes), alors cette personne physique/morale est passible de poursuite légale.



Si, comme tu l’as dit ton propre message, ChatGPT n’est qu’un “dispositif analytique” alors ce n’est pas une personne physique/morale qu’on peut trainer en justice.


Y’a quand même quelqu’un qui appui sur entrée. Et un autre qui produit le contenu, donc le publie. En encore un autre qui sélectionne le jeu de données (le contenus) pour entrainer le dispositif (pour en faire un vilain ou un gentil). Qui est le responsable ?



Si j’étais un état je serai bien tenté de faire de la propagande automatisée. Donc le plus urgent n’est peut être pas le droit d’auteur.

votre avatar

SebGF a dit:



Par contre le point noir de ces outils, c’est qu’il est difficile de leur faire cracher des références documentaires permettant de confronter la réponse donnée.


Par conception ou observation scrupuleuse de droit au secret des affaires/MTP ?




Biais causé simplement par la posture de questionneur / questionné. Ici c’est inversé au sens où celui qui répond donne l’assurance d’être exact juste par sa façon d’écrire et son argumentation. Alors que ça peut être une grosse connerie.


Il y aussi le biais creusé… imaginons une architecture logicielle orientée par l’obscurité, avec des fenêtres teintés d’un seul côté et des sources payées pour se taire entre les horraires de labeur.



Par desssus, on ajoute un droit opposable du vendeur (ou voisin) renforçant la situation autoritaire par le mot « technique ».



Finalement, on a tous les ingédients d’une fable démocratique se terminant par un ou plusieurs monopoles inflexibles à la hauteur des états.



Enfin, et comme si ceci ne suffisait pas, il faut en sus, en bonne compagnie médiatique du quart d’heure, voire de la « minute » et contre les « 60 secondes », ne pas donner les recettes de cuisine réputées « trop longues » et ne pas dire « je ne sais pas » au risque de heurter, même pis, stigmatiser la pauvre case déserpérée d’être remplie de façon illégitime par l’ailleurs.



J’ai vaguement compris que cet emploi, crée par un ex-président Américain, est reconnu par l’état… ou son ministère des Finances.

votre avatar

(quote:2126115:alex.d.)
À ma connaissance, la licence Creative Commons implique toujours l’attribution, même si les autres aspects sont variables. Or ChatGPT ne crédite jamais qui que ce soit dans les extraits qu’il recrache, plus ou moins malaxés.


Oui, la CreativeCommons implique toujours l’attribution (BY) à l’exception de CC-0.



Après la question c’est : est-ce que GPT paraphrase bêtement ? De ma compréhension, il produit un texte qui a la plus forte probabilité d’être exact dans le contexte demandé en se basant sur des connaissances acquises pendant l’entraînement.



Par exemple si je lui demande de me dire qu’est-ce que Creative Commons, il va me parler de l’organisation à but non lucratif derrière et des différentes licenses qu’elle porte et de son adoption massive. Mais le texte produit n’est pas un bête copié/collé de Wikipedia ni même de Creativecommons.org :




Creative Commons (CC) is a non-profit organization that provides free and standardized licenses for creators to use when sharing their work online. The organization was founded in 2001 with the goal of expanding the range of creative works available for others to build upon and share legally.



The CC licenses provide a standardized way for creators to grant permission to others to use their work, while still retaining some control over how their work is used. There are several types of CC licenses, each with its own set of permissions and restrictions.



For example, a creator can use a CC license to allow others to use their work for non-commercial purposes only, to require attribution when their work is used, or to allow derivative works to be created based on their original work.



Using CC licenses makes it easier for creators to share their work online without having to negotiate individual licenses with each user. It also promotes collaboration and creativity by allowing others to build upon existing works, without the need to seek permission or pay for licenses.



CC licenses are widely used in various fields such as literature, music, art, and software. By choosing to use a CC license, creators can share their work in a way that benefits both themselves and the wider creative community.


J’ai cherché rapidement des pans de ce texte sur le Web et pas de résultat identique, donc d’un certain point du vue on peut considérer le résultat comme original et non repompé. Sinon cela reviendrait à dire qu’on devrait créditer toutes les connaissances acquises dans notre éducation et vie.



Par contre le point noir de ces outils, c’est qu’il est difficile de leur faire cracher des références documentaires permettant de confronter la réponse donnée. Et leur ton sûr d’eux donne l’impression d’être infaillibles. D’une certaine façon, ça me rappelle le sujet de Hacking Social sur l’erreur fondamentale d’attribution, aussi surnommé “effet Julien Lepers” où l’on croit dans un modèle de question/réponse que l’interrogateur est plus cultivé que l’interrogé. Biais causé simplement par la posture de questionneur / questionné. Ici c’est inversé au sens où celui qui répond donne l’assurance d’être exact juste par sa façon d’écrire et son argumentation. Alors que ça peut être une grosse connerie.

votre avatar

SebGF a dit:


Après la question c’est : est-ce que GPT paraphrase bêtement ? De ma compréhension, il produit un texte qui a la plus forte probabilité d’être exact dans le contexte demandé en se basant sur des connaissances acquises pendant l’entraînement.


ChatGPT n’a pas de “connaissance”. Il ne connaît rien et ne comprend rien à ce qu’il dit. C’est juste un générateur de mots qui lui semblent crédibles pour apparaître dans le contexte donné. C’est un générateur de bullshit, rien de plus.
Et donc, puisqu’il n’a pas digéré le texte pour recracher un autre texte basé sur sa compréhension, mais qu’au contraire il reste au niveau du texte sans jamais abstraire, pour moi on est dans la réutilisation du texte et non de l’idée décrite par le texte, même si en effet, il en fait une dentelle finement ciselée plutôt qu’un recrachage brut.

votre avatar

Le texte qu’il a généré à propos de Creative Commons est un bullshit donc ? Quelles sont les parties qui le démontre ?



Autant je sais qu’il est capable de dire de la merde sur un ton assuré, autant là je pense que tu es un peu réducteur sur les capacités de l’outil. Il est bien capable de produire du contenu valide selon un contexte donné en prédisant la suite de mots la plus cohérente en se basant sur une base de connaissances. Les informations relatives à Creative Commons, il ne les suce pas de son pouce, ce sont des données présentes dans son modèle.



L’une des choses que cet outil démontre de mon point de vue, c’est le principe de la tête bien faite versus la tête bien pleine. ChatGPT est une tête bien pleine capable de vomir son par coeur, mais il est incapable d’exploiter toute cette vaste base de connaissances et peut rapidement générer du contenu contradictoire ou incohérent en toute assurance parce qu’il ne sait pas se remettre en cause. Au même titre qu’un gamin à qui on a demandé d’apprendre par coeur sa table de multiplications sans lui dire comment et pourquoi s’en servir.

votre avatar

SebGF a dit:


Le texte qu’il a généré à propos de Creative Commons est un bullshit donc ? Quelles sont les parties qui le démontre ?


C’est un pur baratineur qui raconte ce qu’il imagine que son interlocuteur veut entendre. Bien sûr, il a été entraîné sur un tel corpus de données que souvent il tombe juste. Mais son objectif n’est pas d’être juste mais seulement de générer un texte qui ne fera pas tâche dans le contexte donné. Il ne se préoccupe pas de savoir si c’est juste ou non.



Par exemple, testé à l’instant :
8160*315
Multiplying 8160 by 315 gives us 2,571,600.
Ça semble plausible, ça ne choque pas. L’ordre de grandeur est correct, même. Mais c’est faux (la vraie réponse est 2570400). S’il se souciait juste un tantinet de donner une réponse juste, il ne se planterait pas sur un calcul aussi simple. Mais non, il traite juste ça comme du texte qui ressemble à ce qu’il a vu dans un contexte similaire, le sens lui échappe.

votre avatar

C’est étonnant de juger une IA cherchant à reproduire le language humain là dessus, alors que les calculs mathématiques sur de grands nombres sont justement un truc pour lequel les machines sont très fortes depuis bien longtemps et meilleures que les humains (qui pourraient très bien faire le même type d’erreur de calcul). Le fait qu’une IA soit bonne en calculs ne montre en rien qu’elle sait raisonner. Ça illustre bien le réflexe défensif face aux IA, qui consiste à changer les critères d’évaluation jusqu’à l’absurde pour se rassurer alors qu’elles s’améliorent.



Avec Bing Chat (GPT-4):




The result of multiplying 8160 and 315 is 2570400. Is there anything else I can help you with?


votre avatar

J’ai continué en français en lui demandant suite au résultat : êtes-vous sûr ?



Réponse : Oui, je suis sûr. Voulez-vous que je vous explique comment j’ai obtenu ce résultat ?



Moi : Oui, s’il vous plait (réponse suggérée par Bing.)



Et là, c’est un gros n’importe quoi :




Le résultat de la multiplication de 8160 par 315 est obtenu en multipliant le chiffre des unités de 8160 (0) par 5, ce qui donne 0. Ensuite, on multiplie le chiffre des dizaines de 8160 (6) par 5 et on ajoute le chiffre des unités du résultat précédent (0), ce qui donne 30. On écrit le chiffre des unités de ce résultat (0) et on retient le chiffre des dizaines (3). On continue ainsi jusqu’à multiplier le chiffre des milliers de 8160 (8) par 5 et ajouter le chiffre des unités du dernier résultat obtenu (0), ce qui donne 40000. On écrit donc les chiffres obtenus dans l’ordre inverse, c’est-à-dire en commençant par les unités : 2570400.


alors que ça commençait bien, mais ça n’a pas duré !



Mais je suis d’accord que ce n’est pas une bonne idée de la tester sur du calcul.



C’est dommage qu’à ma question “êtes vous sûr, elle m’ait demandé si je voulais qu’elle explique comment elle a obtenu le résultat alors que son explication ne tient pas.

votre avatar

J’ai refait l’exercice avec ChatGPT pour la déconne.




8160*315



The product of 8160 and 315 is:



2,572,400



8160*315



The product of 8160 and 315 is:



2,572,400.



How did you obtained this result ?



To obtain the result of the product of 8160 and 315, I simply multiplied these two numbers together using arithmetic multiplication. Here are the steps:



Write the two numbers one below the other, lining up the rightmost digits:



8 1 6 0
3 1 5
Multiply the units digit of the second number (5) by each digit of the first number, writing the result below and shifted one position to the left:
8 1 6 0
3 1 5
4 0 8 0 (5 x 0)
2 4 4 0 (5 x 6)
2 4 4 0 (5 x 1)
+————-
2 5 7 2 4 0



Add up the partial products to get the final result, which is 2,572,400.



Therefore, the product of 8160 and 315 is 2,572,400.



But my calculator says : 2570400
Who’s right ?



I apologize for my mistake. You are correct, the correct result of the product of 8160 and 315 is indeed 2,570,400, not 2,572,400 as I previously calculated.



Thank you for bringing this to my attention.



8160*315



The product of 8160 and 315 is:



2,570,400.


Tout est question de machine learning à coup de tatane dans la tronche et d’argument d’autorité. Ce qui marche aussi c’est de dire “but my wife says XXX and she’s always right” et il abdique ou se rattrape aux branches en disant de respecter les opinions de chacun.



Mais ça ne démontre pas grand chose en dehors du fait qu’il sait s’adapter au contexte de la discussion pour produire le résultat le plus proche de celui attendu.

votre avatar

En fait peu importe si le boulet ralentit le canon, ou l’inverse : dans les deux cas ça sent la poudre.



Ce qui démontre bien le caractère inepte de ces expériences dont la finalité m’échappe encore.
(Les canons occidentaux ne sont pas faits pour être allumés…)

votre avatar

Ca me semble être la définition même du baratinage :roll:
Un baratineur qui tombe souvent juste n’est pas d’un coup une personne qui ne baratine pas. Un baratineur veut sortir une réponse avec de l’assurance quelque soit son degré de certitude et le formule pour que ça soit accepté par son interlocuteur.



Son explication sur Creative Commons ne fait pas exception.



ChatGPT est un baratineur, il n’y a pas de doute là-dessus, mais ça n’enlève rien à l’utilité de l’outil. Mais il vaut mieux être au fait de cette caractéristique pour bien l’utiliser.

votre avatar

Qu’il n’ait pas pour vocation de dire des choses justes, c’est ce que je répète ici depuis longtemps. Il a vocation à donner la suite de mots la plus plausible dans le contexte donné.



Tu donnes un exemple où il se trompe, il y en a des milliers et ça ne prouve pas grand chose à part qu’il a des limitations et qu’il est faillible… Soit ce qu’on sait depuis le début de ChatGPT et qui est accessoirement affiché sur sa homepage.



Mais au final tu ne réponds pas à ma question : le texte généré pour décrire Creative Commons est-il du repompage de texte malaxé comme tu l’affirmes ? Est-ce du bullshit en matière de contenu ? Car tu me sembles très catégorique sur le sujet sans réellement le démontrer en dehors d’un exemple allant dans ton sens. Soit le genre de travers qu’on reproche à ces outils : affirmer des choses sans le sourcer.



Pour moi tout ceci n’est pas si évident et les questions relatives au droit d’auteur sont intéressantes. Il s’agit de génération de texte à partir de sources ayant servi à l’entraîner d’une manière similaire à celle d’une personne qui écrirait un texte basé sur ses connaissances. Dès lors, la question de créditer les sources d’info dans le cas d’un contenu original produit à partir d’elles est intéressante.

votre avatar

wagaf a dit:


C’est étonnant de juger une IA cherchant à reproduire le language humain là dessus, alors que les calculs mathématiques sur de grands nombres sont justement un truc pour lequel les machines sont très fortes depuis bien longtemps



SebGF a dit:


Tu donnes un exemple où il se trompe, il y en a des milliers et ça ne prouve pas grand chose à part qu’il a des limitations et qu’il est faillible…


C’était surtout pour illustrer le fait qu’il raconte avec aplomb un truc manifestement faux, plutôt que de dire que ce n’est pas dans ses compétence. Du coup, tout ce qu’il dit est suspect : est-ce qu’il est en train de nous baratiner, ou est-ce exact, ce qu’il raconte ?

votre avatar

Ben tu as un exemple avec le texte qu’il m’a produit sur Creative Commons : est-ce du baratin ou bien a-t-il eu la chance d’être exact ? Pour ma part je n’ai pas trouvé grand chose à redire.



L’esprit critique reste dans tous les cas une nécessité. Que ce soit vis à vis de ces outils ou de tous les experts auto-proclamés des média sociaux qui balancent des foutaises avec la même assurance et incapacité de citer des références que ces outils. Le ton assuré de ces outils fait partie des reproches que j’ai aussi contre eux, je l’ai déjà indiqué à plusieurs reprises sur les nombreuses actualités à leur sujet.



Bref, plein de nuances et pas de binaire, comme sur à peu près tous les sujets.

votre avatar

S’il faut vérifier tout ce que ChatGPT dit, alors soit tu ne l’interroges que sur ce que tu connais déjà (super utile), ou alors tu fais des recherches par toi-même à côté pour vérifier ce qu’il dit (double boulot). Dans un cas comme dans l’autre, il ne sert à rien.



Pour ton exemple avec Creative Commons, si tu dois aller vérifier sur creativecommons.org que ChatGPT n’a pas raconté de connerie, à quoi a-t-il servi ? Il ne t’a même pas donné l’url pour savoir où aller vérifier.

votre avatar

Il reste entrainé pour être “aligné” avec son interlocuteur, donc pour donner une bonne réponse quand c’est cela qui est attendu (et c’est un cas fréquent).



On parle quand même d’un modèle qui fait mieux que la plupart des humains et des autres IA existantes sur pas mal de tests destinés à mesurer le niveau des humains et des IA. Il suffit de l’utiliser un peu, il semble quand même qu’il y ait une forme simple d’intelligence derrière qui émerge du modèle, même si les capacités de raisonnement sont limitées par l’architecture du modèle. Ce point fait débat mais on peut arguer qu’une forme d’intelligence émergente est nécessaire ne serait-ce que pour déployer ce niveau d’expression orale .



Il est honnêtement déjà utile dans pas mal de domaines pratiques/non créatifs: ceux ou les “IA” sont déjà utiles comme la traduction, classification etc mais aussi l’assistance au développement (essayez copilot) et d’autres.



Le fait qu’il soit assez “intelligent” pour être capable d’utiliser lui même des API à la demande et sans code ouvre un monde de possibilités. Par exemple pour écrire des plugins pour ChatGPT:




you write an OpenAPI manifest for your API, use human language descriptions for everything, and that’s it. You let the model figure out how to auth, chain calls, process data in between, format it for viewing, etc. There’s absolutely zero glue code.


votre avatar

Je ne sais pas trop pourquoi vous vous focalisez sur la véracité de la réponse.
C’est à la fois hors-sujet sur le droit d’auteur et hors du périmètre des objectifs de ChatGPT.



ChatGPT est un modèle de langage et pas un démonstrateur de théorème, ou je ne sais quel évolution de Prolog.



ChatGPT à pour objectif de s’exprimer comme le ferait un humain, et cela peu importe si le propos est vrai ou faux.

votre avatar

Les contenus produits et hébergés par la Fondation Wikimedia étant sous
licence Creative Commons, ils sont normalement mis à disposition du public
qui peut les réutiliser et de les reproduire librement et gratuitement.



attendons la réaction des ‘AD.’*, je suis curieux de la pirouette
qu’ils vont, encore, nous trouver pour justifier qu’on taxe ‘GPT’ ? :zarb:




  • (“oui mais, vous nous comprenait…..blablabla……)

votre avatar

Le droit d’auteur Français suppose que toute création tombe dans le domaine public, y compris si l’auteur s’y oppose après sa mort. L’imposable n’est ainsi pas éternel, rassurons-nous « un » jour. :chinois:

Wikimedia analyse les enjeux de droits d’auteur posés par ChatGPT

Fermer