Connexion
Abonnez-vous

Reddit veut faire payer l’accès à son API en réaction à ChatGPT et compagnie

Reddit veut faire payer l'accès à son API en réaction à ChatGPT et compagnie

Le 24 avril 2023 à 05h22

Pour entrainer de manière efficace un modèle de langage comme GPT, il faut une source énorme de textes écrits par des humains. Sans cette immense masse de données, les grands modèles de langage ne sont pas grand-chose. Wikipédia, Reddit ou arXiv étant des sites comportant énormément de textes et une api pour les récupérer ont été des sources faciles pour les chercheurs d'OpenAI, de Google ou d'Amazon travaillant sur ces outils technologiques.

Les différentes versions de GPT, Bard citent Reddit comme une de leurs sources de textes d'entrainement. Mais Reddit a décidé de ne plus laisser faire et veut faire payer l'accès à son API, explique le New York Times.

« Le corpus de données de Reddit est vraiment précieux, mais nous n'avons pas à donner toute cette valeur gratuitement aux plus grosses entreprises du monde », a réagi l'un des cofondateurs du site, Steve Huffman, dans une interview. Si se baser sur Reddit, c'est intégrer les biais racistes et sexistes que peuvent avoir certaines communautés du site, c'est aussi se baser sur des masses importantes de vraies conversations entre humains.

Pour Steve Huffman, « l'aspiration des contenus de Reddit, la création de valeur et le fait de ne pas restituer cette valeur à nos utilisateurs nous posent un problème. C'est le bon moment pour nous de remettre les choses en place ». Reddit devrait annoncer les prix d'accès à son API dans les semaines qui viennent.

Le 24 avril 2023 à 05h22

Commentaires (66)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar

Dès qu’il est question de se faire du fric, les américains sont les premiers.

votre avatar

C’est sur que c’est pas en France qu’on aurait ce genre de sites mondialement utilisés.



Wikipedia aussi cherche à monétiser son contenu qui est (était?) utilisé gratuitement par des multinationales qui pèsent des milliards quand Wikipedia galère a boucler ses fins de mois.



Pour Reddit c’est pareil, avec une API gratuite tu as une tonne d’utilisateur qui profite du contenu sans contribuer financièrement (app tierce & co), financièrement ça ne peut pas marcher.

votre avatar

Oui les grosses sociétés devraient payer pour utiliser massivement les données venant de Wikipedia et autre.
En gros, elles se font des cou*lles en or en utilisant les ressources créés par tout le monde sans vouloir dépenser 0 sous…
La réaction de reddit n’est pas abusée si il est possible d’avoir accès à l’api gratuitement poir ceux qui ont de faible besoins.

votre avatar

Wikipedia ne galère pas, mais alors pas du tout à boucler ses fins de mois.

votre avatar

Insinuerais-tu que l’on nous ment, et que cet ignoble bandeau rouge qui revient plusieurs fois par an n’est que calomnies ?! :reflechis:

votre avatar

J’insinue surtout que tu devrais relire cet ignoble bandeau rouge. A aucun moment il ne dit qu’ils ont du mal à finir leur budget.



fr.wikipedia.org Wikipedia

votre avatar

Ah, t’as saisi ni l’ironie ni le sarcasme… bon, dommage

votre avatar

En quoi la décision est déraisonnable ? Elle semble même extrêmement pertinente et logique.

votre avatar

Quand tu commets une infraction, on te fait aussi payer en France

votre avatar

Quelle infraction est commise ici ?

votre avatar

Et montrer que Reddit est monetisable avant une introduction en bourse n’est pas déconnant. IPO pour l’instant prévue pour Q2/Q3 2023, avec une valorisation estimée à 15 milliards de dollars US.
Ce message n’est en aucun cas du conseil en finance.

votre avatar

« Le corpus de données de Reddit est vraiment précieux, mais nous n’avons pas à donner toute cette valeur gratuitement aux plus grosses entreprises du monde »


Si ce corpus de données à tellement de valeur, je suppose qu’ils vont rémunérer les utilisateurs qui génèrent bénévolement ces données. idem pour wikipedia.



Ah… non ? Bizarre….

votre avatar

Ca peut surtout payer les factures des serveurs, de l’énergie, clim, … augmenter la masse salariale, …



J’ai pas forcément la même vision, tu peux développer et argumenté stp ?



Quand tu vois les investisseurs, tu ne te dis pas que ça leur permettrait d’être un poil plus indépendants ?

votre avatar

Qu’une fondation dont les revenues (et les dépenses) augmentent grandement chaque année, qui a de quoi tenir + ou - moins un an sans aucun revenu juste avec ses fonds, qui fait des donations à d’autres fondations, ouvrent de nouveaux services, embauchent de nouveaux personnels, dont la PDG (au moins la précédente) gagnent 30k€ par mois, … ne peut pas être décrit comme une société galérant à boucler ses fins de mois.



Et avant que tu ne reprenne chacun des points en m’expliquant que c’est une bonne chose, que 30K€ par mois dans la tech ce n’est pas tant que ca pour un PDG, etc…. ce n’est pas un jugement de valeur. Je ne dis à aucun moment que c’est une mauvaise chose et qu’une fondation basée sur le don doit toujours être au porte de la pauvreté. Et à vrai dire je les trouve plus honnête sur le sujet que la plupart de nos ONG francaises qu’envoient des intérimaires dans la rue demander des dons mensuelles qu’on va avoir la flemme d’arrêter tout en t’envoyant des images d’enfant en train de mourir par la poste .



Je dis juste qu’une fondation qui fait plusieurs millions de bénéfice chaque année depuis presque deux décennies tout en continuant à grossir ne peut être appelé “une fondation galérant à boucler les fins de mois.”

votre avatar

Ca paie à peine les factures les 30K$/mois :transpi:
Après, déjà c’est la version US donc protection sociale 0, retraite 0, etc …
Du coup, pas trop mal géré comme boite (s’en est devenue une à mon sens), ils peuvent survivre à quelques crises et augmentations des charges.



Je ne pensais pas qu’om était si “à l’aise” financièrement. :eeek2:



Pour les ONG française qui ont des strates à 5, voir 10K€/mois et qui chouines en envoyant des bénévoles faire tout le taf … no comment on est parfaitement en phase.

votre avatar

Est-ce que ça risque d’affecter les fronts-end alternatifs comme Teddit ou Libreddit qui utilisent l’API de Reddit ?

votre avatar

(reply:2130433:molybdène)
ça risque, mais des attributions de licence au cas par cas existent dans ces situations


votre avatar

(reply:2130433:molybdène)


Sûrement, oui.



Le dev de l’application Apollo a fait un post expliquant ce que ça voulait dire pour son application, ce sera probablement le même genre de limitations pour les front-end web

votre avatar

(quote:2130429:127.0.0.1)
Si ce corpus de données à tellement de valeur, je suppose qu’ils vont rémunérer les utilisateurs qui génèrent bénévolement ces données. idem pour wikipedia.



Ah… non ? Bizarre….


Les utilisateurs sont déjà rénumérés d’une certaine manière : ils peuvent utiliser la plateforme sans avoir à payer les coûts d’hébergement ou de développement.

votre avatar

Il y a du contenu original sur Reddit ? à chaque fois qu’un lien m’y envois, je ne vois que des liens vers d’autre sites ou des extraits de site.

votre avatar

Je crois que ça dépend des subreddit.



Pour les jeux vidéo (par exemple) tu peux avoir des demandes d’aide ou des gens qui montrent ce qu’ils font.
Rimworld et Crusader kings ont parfois des trucs bien amusants (si on apprécie l’humour noir).



Mais l’utilité pour une IA ce sont surtout les commentaires. Je pense même que le système de vote (commentaire le plus populaire en haut) peut avoir une utilité. (Et l’arborescence doit être pratique également).



Il y a aussi des subreddit destinés à des sujets particuliers comme AmItheAsshole.
De mémoire je me demande même si il n’y a pas eu une histoire d’une IA qui utilisait certains sub pour différencier ce qui était bien et ce qui était mal (de mémoire encore, ce fut un échec)

votre avatar

Même si les opportunités (ou la peur) liées aux IA est sûrement une des grandes raisons qui pousse Reddit à resserrer la vis, je ne pense pas que ce soit la seule. Comme dit plus haut, toutes les applis alternatives qui utilisent l’API Reddit pour afficher une vue différente (comme Apollo), ou plus généralement les bots/scripts qui font beaucoup de requêtes à l’API, ont du souci à se faire.



Reddit est un site où, pour le coup, l’API est vraiment très complète et ouverte, à des années-lumière d’autres sites et services populaires (je regarde avec frustration Discord et Twitter). Que leur API devienne plus restreinte, même si c’est compréhensible et prévisible, est clairement une mauvaise nouvelle.



À noter également (détail non repris dans la news) que Reddit a aussi annoncé que l’accès au contenu NSFW via l’API sera beaucoup plus restreint qu’avant (sans qu’on ait plus de détails pour l’instant). Quand on sait que imgur (site de partage d’images lié à Reddit) a décidé de complètement bannir le contenu NSFW dès mi-mai, je me demande si Reddit ne va pas finir par nous faire une Tumblr, dans le but de paraître très “clean” devant les investisseurs.

votre avatar

Après pour le NSFW, l’accès hors api n’est pas vraiment restreint vu qu’il suffit de passer sur le old reddit (old.reddit.com) pour y avoir accès sans restriction.

votre avatar

Pourquoi, si le problème est l’accès aux données en masse pour entraîner ses algorithmes, Reddit ne ferait-il pas un accès à l’API qui se ralenti petit à petit qu’on l’utilise tant qu’on ne paie pas ?
Par exemple, après le premier Go de données téléchargées, les débits sont réduits tellement qu’il est plus rentable de payer que d’attendre le téléchargement des nouvelles données.
Ainsi, ça laisserai les “petits usages légitimes” tranquilles.

votre avatar

Juste pour donner une idée. Wikipedia, en anglais, sans images c’est 20 GO. En Français c’est 5GO.
(Bon, c’est certainement compressé).



Le texte c’est vraiment pas lourd, 1 GO c’est déjà beaucoup

votre avatar

Mon exemple était certes un peu trop large, mais c’était l’idée surtout : si tu réduis à 100Mo, tu as la même “solution”, mais plus contraignante. 😉

votre avatar

SebGF a dit:


Egalement, une question simple : si j’écris un article dont les connaissances que j’ai utilisé pour le rédiger viennent en partir d’une lecture de Wikipedia et que je le restitue de mémoire. Dois-je créditer Wikipedia ?


Ça dépend des proportions et du type d’écrit, mais en théorie oui.



Le truc c’est qu’une IA c’est pas comme un humain, elle n’oublie pas (enfin … sauf si on lui demande). Dans le cas d’un humain il y a une espèce de flou et de mélange.



Donc, juste pour être un peu ennuyant, je viens de regarder et un ebook sans image on est en dessous de 1 MO (même plus autour du 500K).



Je comprends l’idée, mais si on veut limiter l’usage c’est difficile d’utiliser une limite de taille.
Pour moi le plus efficace c’est de mettre des conditions d’utilisation à l’API.
Les boites d’IA (qui fonctionnent) sont solvable en cas de violation (et principalement basée aux USA)

votre avatar

micktrs a dit:


Oui les grosses sociétés devraient payer pour utiliser massivement les données venant de Wikipedia et autre.


Pourquoi Reddit/Wikipedia empêcherait Mr Dupond d’accéder aux données du site, au seul prétexte que Mr Dupond va les exploiter pour rendre un service qui n’est ni similaire, ni en compétition avec Reddit/Wikipedia ?

votre avatar

Le soucis principal pour wikipedia c’est la licence.
Je pense que l’utilisation par une IA va à l’encontre de cette licence.



Pour Reddit, c’est principalement par ce qu’ils ont l’opportunité d’avoir une autre source de revenu.

votre avatar

misocard a dit:


Le soucis principal pour wikipedia c’est la licence. Je pense que l’utilisation par une IA va à l’encontre de cette licence.


En quoi lire le contenu du Wikipédia Finlandais pour apprendre à construire des phrases en Finlandais est contraire à la licence CC ? :keskidit:

votre avatar

Mon point de vue c’est que l’IA fait du remix, du coup elle doit effectuer l’attribution. J’avoue ne pas savoir comment la conversation se présente. Mais wikipedia devrait être à minima mentionné sur la page de conversation.



Du coup c’est un soucis similaire avec le partage dans les mêmes conditions. Tout ce que l’IA produit devrait être soumis à une licence aux conditions similaire.



C’est peut être un jugement un peu trop à la lettre de la licence, mais pour moi à partir du moment où les données sont exploitées en masse ça se tient.

votre avatar

Non, elle ne fait pas de remix. Elle “apprend” à écrire comme le dit 127.0.0.1 puis elle répond à une demande en fonction de ce qu’elle a appris mais ne reprend pas l’œuvre.
On ne peut pas parler d’œuvre modifiée.

votre avatar

Sauf que ce qui n’est pas autorisé est interdit (dans les limites du droit d’auteur). Du coup si l’IA ne fait pas d’adaptation ou de partage elle n’aurait pas le droit d’utiliser les données de wikipedia sans accord spécifique.

votre avatar

C’est le contraire : ce qui n’est pas interdit est autorisé.



La licence apporte des limitations non pas à la consultation (ce que fait l’IA ou un humain) mais à la réutilisation (reproduction, distribution ou représentation en public).



Quand je lis Wikipédia, je n’ai aucune clause de la licence qui s’applique à moi et je ne suis pas en infraction pour autant même si j’en ressors plus tard ce que j’en ai retenu et que je l’explique (sans recopier) par exemple ici.

votre avatar

THE WORK IS PROTECTED BY COPYRIGHT AND/OR OTHER APPLICABLE LAW. ANY USE OF THE WORK OTHER THAN AS AUTHORIZED UNDER THIS LICENSE OR COPYRIGHT LAW IS PROHIBITED.


Mon point de vue c’est qu’une IA ne consulte pas, elle exploite (différence entre humain / machine).
Donc il y a un besoin d’une autorisation spécifique car ce n’est pas autorisé par la licence par défaut.

votre avatar

Il n’est écrit nulle part dans la licence que l’on peut consulter/lire l’œuvre. L’objet de cette licence n’est donc pas là mais ne concerne que l’aspect copie (copyright ou ou autre loi).



Une IA établit des règles en fonction de ce qu’elle consulte et elle mémorise ces règles. Elle n’exploite rien et de toute façon, la licence ne parle pas d’exploitation.



Ce que ressort ensuite l’IA n’est pas le contenu de Wikipédia ni une œuvre dérivée. C’est le résultat d”une interrogation de l’IA par un humain et des règles qu’elle a construites en consultant différents médias.

votre avatar

misocard a dit:


Le soucis principal pour wikipedia c’est la licence. Je pense que l’utilisation par une IA va à l’encontre de cette licence.


Tu peux préciser ce qui serait violé par une IA qui fait de l’apprentissage en parcourant Wikipédia ?

votre avatar

(quote:2130497:127.0.0.1)
Pourquoi Reddit/Wikipedia empêcherait Mr Dupond d’accéder aux données du site, au seul prétexte que Mr Dupond va les exploiter pour rendre un service qui n’est ni similaire, ni en compétition avec Reddit/Wikipedia ?


J’ai du mal à voir comment tu ne peut être en compétition avec un site tout en utilisant son contenu. Après je trouve ça normal de faire payer le contenu à partir d’un certain volume. Surtout si par la suite Dupond fait de l’argent avec.



A contrario le sujet est légèrement plus complexe, avec les applications. Mettons demain je pète une application qui permet d’avoir une meilleur ergonomie que celle de reddit, et qui va booster le nombre d’utilisateur.



Dans ce cas précis je trouve ça con de payer car ça serais négatif pour tout le monde.



Mais je pense qu’au final ceci n’est qu’un problème secondaire. Le véritable problème c’est le comportement des bloqueurs de pubs et les sites qui en abusent. Du coup quasiment tout le monde en utilise un et les site ne touchent plus d’argent.

votre avatar

(quote:2130507:skankhunt42 )
J’ai du mal à voir comment tu ne peut être en compétition avec un site tout en utilisant son contenu.


Je lis les sites de news quotidiennement, j’utilise leur contenu pour accroitre mes connaissances sur certains sujets, et par la suite je poste sur d’autres sites des réponses à des questions sur ces mêmes sujets.



Et je suis certain qu’on fait tous pareil ici: on répond/commente à partir d’info qu’on a glanées ici ou ailleurs. En quoi c’est différent de ce que fait ChatGPT ?




Après je trouve ça normal de faire payer le contenu à partir d’un certain volume. Surtout si par la suite Dupond fait de l’argent avec.


Perso je trouve ca intelligent, mercantile et opportuniste. Mais “normal”… bof…

votre avatar

(quote:2130514:127.0.0.1)
Je lis les sites de news quotidiennement, j’utilise leur contenu pour accroitre mes connaissances sur certains sujets, et par la suite je poste sur d’autres sites des réponses à des questions sur ces mêmes sujets.



Et je suis certain qu’on fait tous pareil ici: on répond/commente à partir d’info qu’on a glanées ici ou ailleurs. En quoi c’est différent de ce que fait ChatGPT ?


La différence c’est l’humain vs machine. Il y a des droits spécifique pour l’apprentissage des humains qui ne sont pas accordés aux machines.
Et je ne pense pas qu’il y ait des humains qui ont lu tout wikipedia.



6 646 346 / 365 = 18 209 ans à raison d’un article par jour (uniquement pour l’anglais)

votre avatar

misocard a dit:


La différence c’est l’humain vs machine. Il y a des droits spécifique pour l’apprentissage des humains qui ne sont pas accordés aux machines.


Ah, intéressant. C’est quoi le “droit des machines” ?

votre avatar

Je partirai du principe qu’elles n’en ont pas. Un truc similaire aux biens (peuvent pas être détruite, …).



En sois, il faudrait voir si il y a des droits spécifiques pour les IA, mais je serai surpris qu’il y ait des lois en place.



Donc ça tombe sur le défaut, l’entreprise créatrice de l’IA a elle le droit d’utiliser le jeu de données de wikipedia.



Les données de wikipedia sont protégées par le droit d’auteur avec 2 exceptions (BY-SA).



Du coup, soit l’entreprise créatrice d’IA se conforme à ces exceptions, soit elle doit demander l’autorisation de wikipedia pour l’utilisation des données.



Je n’ai pas de soucis à ce qu’on ait un autre jugement sur l’affaire. On pourrait prendre l’argument du fair use




(3) la quantité et l’importance de la partie utilisée en rapport à l’ensemble de l’œuvre protégée ;
(4) les conséquences de cet usage sur le marché potentiel ou sur la valeur de l’œuvre protégée.


votre avatar

(quote:2130514:127.0.0.1)
Et je suis certain qu’on fait tous pareil ici: on répond/commente à partir d’info qu’on a glanées ici ou ailleurs. En quoi c’est différent de ce que fait ChatGPT ?


La différence, c’est qu’on essaie de donner des réponses correctes, souvent en citant des sources

votre avatar

Ça dépend vraiment de ceux qui répondent, j’ai vraiment l’impression qu’une partie ici s’en fout complètement que la réponse soit correcte.



Et chatBing cite ses sources, ce qui ne l’empêche pas de dire des conneries.

votre avatar

(quote:2130514:127.0.0.1)
Je lis les sites de news quotidiennement, j’utilise leur contenu pour accroitre mes connaissances sur certains sujets, et par la suite je poste sur d’autres sites des réponses à des questions sur ces mêmes sujets.



Et je suis certain qu’on fait tous pareil ici: on répond/commente à partir d’info qu’on a glanées ici ou ailleurs. En quoi c’est différent de ce que fait ChatGPT ?


Les différences pour moi sont le motif et le but commercial. L’objectif premier de ces services de génération algorithmique, c’est de faire de l’argent, pas de partager des connaissances. Parce que finalement, si ChatGPT fait un boulot similaire, ce qui le différencie de toi ou moi, c’est le temps, l’efficacité et surtout la rentabilité de proposer ce service aux autres.



Pour Reddit, je comprends parfaitement la décision. L’accès gratuit à l’API représente malgré tout un coup pour l’entreprise :




  • le développement et le bon fonctionnement de l’API

  • la surveillance et la veille sur la sécurité de l’API

  • la charge serveur pour l’entreprise du à la mise à disposition de l’API

  • et ce que ça lui apporte en retour



J’imagine que le développement de petits services utilités par une minorité est négligeable, voir profitable vu que ça pousse les utilisateurs à être davantage utilisateur de la plateforme.



Mais pour Reddit et ChatGPT, avoir une société privée qui récupère la totalité du contenu amassée sur ta plateforme depuis des années, gratuitement, pour potentiellement inciter tes utilisateurs à poser leurs questions auprès de ChatGPT plutôt que sur le service qui a contribué à créer ChatGPT, sans que cette dernière n’apporte la moindre contribution ou la moindre reconnaissance envers toi… à leur place, j’aurais aussi les boules. ^^’



Parce que l’argument du “intelligent, mercantile et opportuniste” s’appliquent davantage à OpenAI et consors qu’à Reddit. Ils auraient très bien pu faire le robinet plus tôt. Un acteur qui utilise l’API de tel sorte à pomper toutes les conversations sans faire de distinction ou de ciblage, ça doit se voir. Ou alors ça a été dilué d’une façon ou d’une autre pour ne pas attirer l’attention et ça renforce mon impression que OpenAI n’a pas fait preuve d’honnêteté dans la manière de faire.



Quand bien même ça ne déroge aucune condition d’utilisation. Non interdit =/= moral. Même si la morale est une valeur subjective à chacun.

votre avatar

Pour comprendre le fonctionnement de ChatGPT (et assimilés), n’hésitez pas à regarder la vidéo de Science Etonnante : youtube.com YouTube



Elle est bien faite et très pédagogique.



En gros, pour résumer de manière très succincte : ChatGPT se contente de “deviner” le prochain mot en fonction d’un contexte (les mots précédents). Et il réitère l’opération plus fois, en rajoutant à chaque étape le mot “deviné” précédent.

votre avatar

Si se baser sur Reddit, c’est intégrer les biais racistes et sexistes que peuvent avoir certaines communautés du site


Ils ne doivent pas souvent aller sur leur propre site. C’est une zad d’extrême gauche… avec les biais qui vont avec.

votre avatar

Je pense que ce que tu as cité a été rédigé par NXI comme ce n’est ni en italique ni entre guillemets.

votre avatar

fred42 a dit:


Une IA établit des règles en fonction de ce qu’elle consulte et elle mémorise ces règles. Elle n’exploite rien et de toute façon, la licence ne parle pas d’exploitation.



Ce que ressort ensuite l’IA n’est pas le contenu de Wikipédia ni une œuvre dérivée. C’est le résultat d”une interrogation de l’IA par un humain et des règles qu’elle a construites en consultant différents médias.


Ok, mais on est d’accord que cette IA n’aura aucune connaissance ? Elle pourra répondre quelque chose mais ce ne sera jamais vrai, sauf par chance.



Donc elle aurait appris à parler (suite de mot qui fonctionne bien) en “lisant” d’autres suites de mots. Mais elle n’aura pas mémorisé d’information.



Et si cette IA s’appuie sur une source pour répondre quelque chose de vrai elle devra citer la source.



J’ai voulu voir comment fonctionnait chatGPT, mais il ne veut pas de mes emails

votre avatar

Oui, on est d’accord (enfin). C’est pour cela que je maintiens que ce qu’il écrit n’est pas une œuvre dérivée de Wikipédia ou autre.



La version de Bing qui répond en utilisant GPT cite ses sources, mais comme je le disais en #42 (yes !), elle dit quand même des conneries.



Pour l’adresse e-mail, c’est moi qui ne veut pas fournir à OpenAI cette donnée personnelle tant que je n’aurai pas les informations qui me sont dues en vertu du RGPD.

votre avatar

L’entraînement d’un modèle GPT lui donne des connaissances. Cela lui permet de savoir dialoguer de manière naturelle (son but premier), et rester cohérent avec le contexte de la conversation (l’une de ses forces aussi). La chose qui ne sait pas faire, c’est réfléchir. GPT ne réfléchi pas, il comprend une requête et produit une suite de tokens qui a la plus forte probabilité et cohérence avec le contexte.



Par contre, contrairement à GitHub Copilot (lui aussi basé sur GPT) qui est ciblé par des accusations de violations de licence open-source / libres parce qu’il semble reproduire du code protégé par ces licences (on en entend plus trop parler d’ailleurs), rien ne prouve que le texte produit par ChatGPT provienne uniquement de Wikipedia (vu que OpenAI ne communique pas sur son jeu d’entraînement, ce n’est que pure spéculation).



Egalement, une question simple : si j’écris un article dont les connaissances que j’ai utilisé pour le rédiger viennent en partir d’une lecture de Wikipedia et que je le restitue de mémoire. Dois-je créditer Wikipedia ?

votre avatar

(quote:2130514:127.0.0.1)
En quoi c’est différent de ce que fait ChatGPT ?


La mémoire disponible et le temps de traitement.



Comme l’a dis quelqu’un ici difficile pour un humain de lire tout wikipedia et pire encore, de le mémoriser. Alors que chat GPT peut télécharger tout wikipedia en moins de 10 minutes puis le “ lire ” en quelques jours et le mémoriser.



Après je pense que la “ loi ” va finir par s’adapter, on avait pas ces problèmes il y à encore un an. Mais on est arrivé à un point ou l’ia peut vraiment être utilisé, pour de la production.



Les prochaines ia donnerons surement leur source et pourrons surement communiquer entre elle.

votre avatar

misocard a dit:


Mon point de vue c’est qu’une IA ne consulte pas, elle exploite (différence entre humain / machine). Donc il y a un besoin d’une autorisation spécifique car ce n’est pas autorisé par la licence par défaut.


Et si je te dis que j’ai un logiciel qui va télécharger via HTTP GET un document au format HTML sur Wikipédia, puis va m’afficher un autre texte qui sera généré à partir du contenu du document récupéré.



Tu vas me dire que j’ai besoin d’une autorisation spécifique ?
surement.



Mais si je te dis que le logiciel en question c’est un browser web et que le texte qui est généré c’est la traduction automatique anglais/français: j’ai toujours besoin d’une autorisation spécifique ?



C’est pas si simple de définir les limites de l’usage d’un contenu en accès libre. On se bat depuis des années sur ces limites de l’usage concernant les images, les musiques, …

votre avatar

SebGF a dit:


Egalement, une question simple : si j’écris un article dont les connaissances que j’ai utilisé pour le rédiger viennent en partir d’une lecture de Wikipedia et que je le restitue de mémoire. Dois-je créditer Wikipedia ?


Encore heureux.
C’est d’ailleurs le lot de toutes les publications scientifiques qui ne reproduisent jamais en tant que telles des publications entières mais des parties. Ces parties étant mises en évidence puis sourcées derrière.



Ici c’est EXACTEMENT la même chose: ChatGPT, ou toute pseudo IA qui lui ressemble, utilise sa base d’apprentissage pour écrire un texte. Le MINIMUM serait de sourcer ce qui lui permet de répondre. Voir de mettre en avant les bribes de sa réponse qui ont été pompées ailleurs.

votre avatar

Ailothaen a dit:


je me demande si Reddit ne va pas finir par nous faire une Tumblr, dans le but de paraître très “clean” devant les investisseurs.


Ce serait hilarant. Tumblr a presque failli mourir de son rachat par Yahoo et donc de l’Apocalypse anti-NSFW de 2018, faisant que Reddit a recueilli les migrants et embauché une Ellen Pao qui ont fait muter cet espace de libre expression en un lieu où il vaut mieux avoir le bon alignement politique.



J’adorerai voir où les migrants vont aller du coup. Facebook ? :roule:

votre avatar

misocard a dit:


Le truc c’est qu’une IA c’est pas comme un humain, elle n’oublie pas (enfin … sauf si on lui demande). Dans le cas d’un humain il y a une espèce de flou et de mélange.


Ben c’est justement c’est le soucis. Le modèle de chat gpt ne connaît pas Wikipedia. A aucun endroit Wikipedia est stocké dans sa mémoire.



Le modèle n’a fait que lire énormément de texte et a « appris », à force de le lire un peu partout, que le le mot le plus probable après « le ciel est », c’est « bleu ».



C’est un peu l’équivalent beaucoup plus poussé de s’amuser à laisser ton clavier de téléphone compléter tes phrases : il sait quel mot est susceptible d’être le mot suivant par rapport aux mots précédents parce qu’il a appris la manière dont tu parles mais il est incapable de savoir d’où ça vient puisque c’est justement un calcul fait sur l’ensemble de ce que tu as écrit auparavant. Il n’y a pas braillent de «  source ».



Je t’invite à essayer de commencer une phrase sur ton téléphone et la continuer uniquement avec les propositions.



Exemple : les chauves-souris sont des oiseaux qui ont des enfants à la fois dans la forêt et la mer.



Ça ne veut rien dire. Mais déjà la phrase est correcte sur le plan syntaxique. J’ai juste tapé « les chauv » et ensuite j’ai juste appliqué ce qu’il me proposait. C’est totalement local sur iOS donc mon téléphone ne connaît pas grand chose aux chauves souris. Malgré ça il est capable de sortir une sorte de phrase qui peut sembler plausible. Le sens de la phrase se perd rapidement car mon téléphone n’a pas assez de puissance de calcul pour prendre en paramètre d’entrée plus que les 2 ou 3 mots précédents.



GPT fait la même chose sauf qu’au lieu de tourner sur un iPhone et de se baser sur les quelques messages que j’ai pu envoyer, lui il a lu l’internet tout entier (façon de parler) pour observer comment les mots se suivent et il utilise des dizaines de milliers de GPUs haut de gamme pour pouvoir prendre en paramètre les milliers de mots qui précèdent afin de calculer la suite. C’est ce qui lui permet contrairement à ton téléphone, de donner une meilleure illusion de prise en compte du contexte.



Mais de la même manière que mon téléphone n’y connaît rien en chauves souris et ne peut pas déterminer d’où vient ce qu’il propose, GPT ne sait pas d’où vient ce qu’il baratine car cela vient de milliers d’endroits différents pour chaque mot qui se suit.



Ça rend donc la question du copyright très compliqué car ce que stocke gpt c’est une sorte de raisonnement sur comment enchaîner des mots et pas du texte qu’il aurait pompé quelque part. Un peu comme ton cerveau qui « sait » ce qu’il y a après «  les grenouilles mangent des … », « vive la … », « merci de laisser un … », « les chats sont trop … » mais qui ne sait pas du tout d’où il sait ça.

votre avatar

Ok, j’avais mal compris la totalité du principe. Je pensais qu’il utilisait wikipedia comme source d’information et pas uniquement comme source de construction de dialogue.
J’ai voulu tester mais je n’arrive pas y accéder (sauf si je donne mon num de téléphone, mais j’ai pas envie).

votre avatar

carbier a dit:


Ici c’est EXACTEMENT la même chose: ChatGPT, ou toute pseudo IA qui lui ressemble, utilise sa base d’apprentissage pour écrire un texte. Le MINIMUM serait de sourcer ce qui lui permet de répondre. Voir de mettre en avant les bribes de sa réponse qui ont été pompées ailleurs.


Donc si je dis de mémoire que la Première Guerre Mondial s’est terminée le 11 novembre 1918 comme je l’ai appris en cours d’Histoire, je dois donc systématiquement créditer le manuel d’Histoire et le professeur qui me l’ont appris ?



C’est là qu’il y a confusion : ChatGPT n’est pas un moteur de recherche ni un outil de génération de contenu sourcé et argumenté. C’est un outil de discussion au même titre qu’une discussion entre deux personnes qui s’échangent des infos de mémoire vue à droite et à gauche. En fait son but c’est de poursuivre l’écriture d’un texte dans le contexte en se basant sur le prompt.



Par contre, le plugin Browse que OpenAI est en train de lui ajouter a bien la finalité que tu lui demandes : ChatGPT dira qu’il est allé naviguer sur le Web (aujourd’hui il en est incapable) et il sourcera les propos de la même manière que c’est fait sur Wikipedia.



Cf le message de jpaul #56 qui est très clair sur le fonctionnement :yes:

votre avatar

“et le fait de ne pas restituer cette valeur à nos utilisateurs nous posent un problème.”



Du coup c’est quoi le % du prix des appels API reversés aux utilisateurs ? 🤣

votre avatar

(quote:2130544:skankhunt42 )
Comme l’a dis quelqu’un ici difficile pour un humain de lire tout wikipedia et pire encore, de le mémoriser. Alors que chat GPT peut télécharger tout wikipedia en moins de 10 minutes puis le “ lire ” en quelques jours et le mémoriser.


Sauf que chatGPT lit tout wikipedia, mais ne comprend absolument rien à ce qui a été lu

votre avatar

Gamble a dit:


Sauf que chatGPT lit tout wikipedia, mais ne comprend absolument rien à ce qui a été lu


Sauf que personne ne lui demande de comprendre mais de sourcer ses bases d’apprentissage




SebGF a dit:


Donc si je dis de mémoire que la Première Guerre Mondial s’est terminée le 11 novembre 1918 comme je l’ai appris en cours d’Histoire, je dois donc systématiquement créditer le manuel d’Histoire et le professeur qui me l’ont appris ?


C’est une blague ?
Si on te demande quand la 1ere guerre s’est terminée, j’espère que tu seras capable d’expliquer où et comment tu l’as appris.
Si ChatGPT est incapable de fournir cette simple information faut-il aussi le croire s’il dit que les chambres à gaz n’ont pas existé ?



Donc oui, même pour cette information que te parait simple, il faut une source.
Si ChatGPT et toutes les non intelligences artificielles qui l’imitent ne sont pas capable de faire cela par design: ChatGPT devrait être interdite au grand public et servir uniquement dans des buts de recherche.



Le problème ici, et tout le monde le comprend parfaitement même si certains préfèrent détourner le regard, c’est que ChatGPT et les autres sont la pour faire de l’argent.
La véracité des propos, les sources des bases d’apprentissage et autres n’ont absolument pas été prises en compte.




C’est là qu’il y a confusion : ChatGPT n’est pas un moteur de recherche ni un outil de génération de contenu sourcé et argumenté. C’est un outil de discussion au même titre qu’une discussion entre deux personnes qui s’échangent des infos de mémoire vue à droite et à gauche. En fait son but c’est de poursuivre l’écriture d’un texte dans le contexte en se basant sur le prompt.


Tu veux donc dire que le fait que ChatGPT soit intégré à Bing est anodin.
Tu crois sincèrement que l’utilisation qui est faite actuellement de ChatGPT et le fait de projeter son inclusion dans un moteur de recherche en fait juste un outil de bavardage ?

votre avatar

(quote:2130555:127.0.0.1)
Et si je te dis que j’ai un logiciel qui va télécharger via HTTP GET un document au format HTML sur Wikipédia, puis va m’afficher un autre texte qui sera généré à partir du contenu du document récupéré.



Tu vas me dire que j’ai besoin d’une autorisation spécifique ? surement.


Si tu ne dis pas quelle différence il y a entre le texte original et le nouveau, quel type de traitement est appliqué pour obtenir la nouvelle œuvre, je ne sais pas répondre, mais je dis probablement pas. Soit tu tombes dans le cas de l’œuvre dérivée et il suffit d’appliquer la licence, soit, c’est une nouvelle œuvre et tu fais ce que tu veux en terme de licence.




Mais si je te dis que le logiciel en question c’est un browser web et que le texte qui est généré c’est la traduction automatique anglais/français: j’ai toujours besoin d’une autorisation spécifique ?


Le cas de la traduction est prévu dans la licence. Il faut indiquer que c’est une traduction avec la référence à l’œuvre d’origine, fournir le nouveau texte sous la même licence, etc.




C’est pas si simple de définir les limites de l’usage d’un contenu en accès libre. On se bat depuis des années sur ces limites de l’usage concernant les images, les musiques, …


Il n’y a pas à différencier image et musiques par rapport au texte.

votre avatar

carbier a dit:


Sauf que personne ne lui demande de comprendre mais de sourcer ses bases d’apprentissage


Sourcer en vrac, les bases d’apprentissage ne sert pas à grand chose.



On peut voir des infos sur les datasets de ChatGPT3 ici (vidéo citée hier, lien pointant vers l’info précise).



On voit que WIkipédia n’est qu’une très faible partie du jeu de données d’apprentissage, même s’il est utilisé plus que les autres source en nombre de “vues”.



Vouloir pour un logiciel de chat comme ChatGPT qui génère du texte plausible sur des bases statistiques une source précise sur pour une phrase donnée est un non sens, puisqu’il a construit sa “connaissance” par lecture de plein de textes et qu’il restitue les mots un par un en fonction du contexte du chat.




C’est une blague ? Si on te demande quand la 1ere guerre s’est terminée, j’espère que tu seras capable d’expliquer où et comment tu l’as appris. Si ChatGPT est incapable de fournir cette simple information faut-il aussi le croire s’il dit que les chambres à gaz n’ont pas existé ?


Désolé, mais je suis incapable de dire comment j’ai appris que la guerre de 14-18 s’est terminée le 11 novembre 1918. Je l’ai probablement appris plusieurs fois et lu ou entendu encore plus de fois ce qui a entretenu ma mémoire, et cela d’autant plus que c’est un jour férié. Mais je suis incapable de sourcer cet apprentissage. Je sais pourtant que cette information est vraie.




Donc oui, même pour cette information que te parait simple, il faut une source. Si ChatGPT et toutes les non intelligences artificielles qui l’imitent ne sont pas capable de faire cela par design: ChatGPT devrait être interdite au grand public et servir uniquement dans des buts de recherche.


Il ne faut pas interdire, il faut juste dire que ce qui est obtenu n’a aucune raison d’être vrai.
Tout le monde a le droit de s’amuser avec un truc qui dit des conneries en parlant correctement, ça change de Roger du bar du coin qui dit des conneries en faisant en plus des fautes de français.




Le problème ici, et tout le monde le comprend parfaitement même si certains préfèrent détourner le regard, c’est que ChatGPT et les autres sont la pour faire de l’argent. La véracité des propos, les sources des bases d’apprentissage et autres n’ont absolument pas été prises en compte.


Que ça soit pour faire de l’argent, oui. La véracité n’a jamais été un critère pour cet outil de chat. Et comme ce n’est pas le but, mais uniquement de le faire parler correctement, trier les sources (pour ne garder que les sources fiables) n’a pas été fait et n’aurait servit à rien. Cela ne l’aurait pas empêché de dire des conneries plausibles.




Tu veux donc dire que le fait que ChatGPT soit intégré à Bing est anodin. Tu crois sincèrement que l’utilisation qui est faite actuellement de ChatGPT et le fait de projeter son inclusion dans un moteur de recherche en fait juste un outil de bavardage ?


L’inclusion dans Bing pose un problème effectivement parce que même si il semble faire des recherches par le moteur Bing avant de répondre, il sort quand même des trucs faux.
Pourtant, il cite les sources sur lesquelles il s’appuie (il y a des liens vers les pages web).



L’outil n’est pas (encore ?) abouti. Mais dans le cadre d’un moteur de recherche, ça pourra peut-être donner des choses pas mal dans le futur s’ils progressent.



Nota : Comme OpenAI ne respectait pas le RGPD (manque d’informations sur le traitement des données personnelles), je ne l’ai pas encore utilisé et ma connaissance n’en est que ce que j’ai lu ou vu.
Ils ont changé leurs “privacy policy” le 7 avril. Je vais les relire une seconde fois avant de voir s’ils sont enfin conforme au RGPD et voir si leur traitement me permet d’utiliser ChatGPT sans crainte, mais ça me semble pas trop mal en première lecture.



Par contre, j’ai utilisé le mode conversation de Bing.

votre avatar

Gamble a dit:


Sauf que chatGPT lit tout wikipedia, mais ne comprend absolument rien à ce qui a été lu


Il comprend au moins les relations entre les mots, sans ça il ne serais pas aussi puissant. Et puis il y à surement d’autre ia que chat GPT qui doivent l’utiliser.

votre avatar

carbier a dit:


Le problème ici, et tout le monde le comprend parfaitement même si certains préfèrent détourner le regard, c’est que ChatGPT et les autres sont la pour faire de l’argent. La véracité des propos, les sources des bases d’apprentissage et autres n’ont absolument pas été prises en compte.


C’est la même chose pour les moteurs de recherche, qui indexent le Web en se basant non pas sur la véracité ni une vérification humaine, mais sur les liens et les mots clés de manière automatique. Le tout pour faire de l’argent (beurk).



Quand Internet et les moteurs de recherche sont arrivés, ta position était proche du sentiment dominant en France (en plus des classiques “c’est juste une mode américaine qui va passer, de toute manière le Minitel est supérieur”).
La bibliothécaire de note école voyait Google d’un mauvais oeil et considérait comme important de bloquer Wikipédia, et les PC de la bibliothèque n’avaient presque accès qu’à Encarta ou d’autres logiciels éducatifs pré-installés (d’ailleurs aussi vendus pour - horreur - faire de l’argent).

votre avatar

carbier a dit:


Sauf que personne ne lui demande de comprendre mais de sourcer ses bases d’apprentissage


C’est pas vraiment à lui de sourcer sa base d’apprentissage car ça ne veut rien dire pour GPT. Par contre, c’est effectivement un grief que pas mal de chercheurs ont sur le sujet : l’absence de transparence sur les données d’entraînement de ces modèles. Moi-même je trouve ça regrettable.




C’est une blague ? Si on te demande quand la 1ere guerre s’est terminée, j’espère que tu seras capable d’expliquer où et comment tu l’as appris. Si ChatGPT est incapable de fournir cette simple information faut-il aussi le croire s’il dit que les chambres à gaz n’ont pas existé ?


Non ce n’est pas une blague, merci d’utiliser un autre ton si tu veux poursuivre la discussion.




Donc oui, même pour cette information que te parait simple, il faut une source.


Pourquoi ? La culture générale doit-elle être systématiquement sourcée ?



Dois-je sourcer le fait que l’actuel Président de la République Française s’appelle Emmanuel Macron ?



La finalité de cet outil est d’être un robot conversationnel en langage naturel. Sortir un texte avec juste des liens, c’est pas très naturel même si ça n’est pas sans rappeler les shitstorms des trolls de ce site qui se font des web link I’ve never read but the URL says I’m right battle.



Et un rappel important qui est affiché sous le prompt :




ChatGPT may produce inaccurate information about people, places, or facts.


Le fait que ces outils soient sur-marketés est un problème pour moi également car cela détourne la finalité et engendre des réactions caricaturales. Quand on prend du recul et qu’on se familiarise avec ces outils (que ce soit ChatGPT ou Copilot de GitHub par exemple), on prend rapidement conscience de leurs limitations.



Faut-il pour autant les interdire ? Pour moi certainement pas, ça serait un énorme gâchis de mon point de vue.




Tu veux donc dire que le fait que ChatGPT soit intégré à Bing est anodin. Tu crois sincèrement que l’utilisation qui est faite actuellement de ChatGPT et le fait de projeter son inclusion dans un moteur de recherche en fait juste un outil de bavardage ?


ChatGPT n’est pas intégré à Bing à ma connaissance. Microsoft a intégré GPT dans Bing par contre. GPT c’est la technologie, c’est comme dire Linux et Debian. Linux est le Kernel tandis que Debian est le produit l’intégrant.



ChatGPT est un robot conversationnel d’OpenAI reposant sur la technologie GPT 3.5 et GPT 4 (en preview). “Bing AI generated responses” est un outil de Microsoft reposant sur la technologie GPT d’OpenAI. Tout comme GitHub Copilot et Copilot X reposent sur GPT (le premier en générateur de code, le second en robot conversationnel complémentaire pour mieux contextualiser la production du code).

Reddit veut faire payer l’accès à son API en réaction à ChatGPT et compagnie

Fermer