OpenAI lance son web crawler, RSF appelle les médias à le bloquer

OpenAI lance son web crawler, RSF appelle les médias à le bloquer

GPT crawle Internet

17

OpenAI lance son web crawler, RSF appelle les médias à le bloquer

Avec GPTBot, OpenAI lance un web crawler dédié à récupérer des données « depuis tout Internet », quand bien même les plaintes pour infraction à la vie privée et au droit d'auteur se multiplient contre les différents LLM déployés sur le marché.

Le 8 août, OpenAI a annoncé le lancement de GPTBot, un crawler dédié à « récupérer automatiquement des données depuis tout Internet ». Ce type de données, explique l’entreprise, doit servir à entraîner ses nouveaux modèles génératifs, « comme GPT-4 et GPT-5 ».

En réaction, l’association Reporters Sans Frontières (RSF) a rapidement invité « tous les médias à configurer leurs sites pour éviter qu’OpenAI ne récupère leur contenu gratuitement ».

La documentation d'OpenAI prévoit l'exclusion de GPTBot

L’entreprise a indiqué dans sa documentation qu’il était possible de bloquer GPTBot, que ce soit via le protocole d’exclusion des robots (robots.txt) ou en bloquant son adresse IP.

OpenAI précise tout de même que, pour les sources qui ne présentent aucun accès soumis à paywall, ne fournissent pas d’ « informations personnelles identifiables » ou de textes allant à l’encontre des politiques de l'entreprise, « permettre à GPTBot d’accéder à votre site permet aux modèles d’IA de devenir plus précis et d’améliorer leurs capacités générales et leur sécurité ».

Elle fournit donc aussi des explications sur la manière de permettre à GPTBot de ne scraper qu'une partie d'un site web. Bloquer GPTBot ne permet pas de supprimer rétroactivement du contenu qui aurait déjà été récupéré et utilisé pour entraîner les versions existantes de ChatGPT.

... mais il s'agit de scraper alors qu'OpenAI est attaqué

L'annonce du lancement du crawler se fait dans un contexte particulier : de multiples plaintes ont été déposées contre différents constructeurs de grands modèles de langages, aussi bien pour infraction au droit d’auteur que de violation de la vie privée. OpenAI, qui a déjà été bloqué par l’Italie pour des questions de données personnelles avant d’être réaccepté, est ainsi visé par un recours collectif en Californie pour l’usage qu’il fait des données personnelles, et est aussi attaqué, de concert avec Meta, pour plagiat

Mouvement général de protection des contenus

Reporters Sans Frontières ne cache donc pas la nécessité, pour qui souhaiterait protéger sa production, d'utiliser l'outil fourni par OpenAI pour bloquer son crawler. Il ne s'agit pas de la première tentative de soustraction des contenus numériques de l'entraînement de modèles d'apprentissage machine, souligne The Verge : en 2022, un site comme DeviantArt avait mis au point sa propre tentative en créant un tag « NoAI ».

Plus récemment, des réseaux sociaux comme Twitter ou Reddit ont pris le parti de rendre payant l’accès à leurs API pour tirer profit des activités d’entraînement des constructeurs d’intelligences artificielles. Preuve que le sujet est complexe : ces décisions ont pu se faire au détriment des scientifiques, voire des utilisateurs.

D'autres ont choisi une autre option, comme l'agence américaine Associated Press, qui a passé un accord avec OpenAI lui permettant de se servir de ses archives. Pour les éditeurs qui accepteraient le passage GPTBot sur leurs sites web, en revanche, OpenAI ne semble pas avoir prévu de contrepartie aux données récupérées.

Commentaires (17)


Trop facile : “GPTBot ne permet pas de supprimer rétroactivement du contenu qui aurait déjà été récupéré et utilisé pour entraîner les versions existantes de ChatGPT.”



De quel droit ?


c’est plus un problème de feature : une fois entraîné on ne peut pas lui faire désapprendre je pense.


C’est effectivement ce que j’imagine aussi. Leurs modèles actuels ont été entrainés avec un corpus de donnée. Mais une fois passé à la moulinette de l’entrainement, on en a plus besoin. Il a eu certes des conséquences dans le modèle en le modifiant (c’est l’apprentissage), mais il n’existe pas vraiment dedans.



Pour bien comprendre : une régression linéaire est un réseau de neurone dans une de ses formes les plus minimalistes, les plus réduites (un neurone formel avec 1 paramètre, un biais et aucune fonction d’activation). Une fois que l’on a trouvé la droite qui suit le mieux les points (l’entrainement), les points, on s’en fout pour prédire de nouveaux résultats, tout ce que l’on a besoin, ce sont les paramètres de la droite.


Si autant je n’ai pas bloqué de crawler jusqu’à maintenant, ça sera le cas pour GPTBot vu qu’il ne sert pas à indexer mais uniquement à récupérer du contenu. Ils prennent sans rien donner en retour.


ChatGPT-3.5 est gratuit pour tout le monde. Si, si, ils donnent. Pas forcément aux mêmes personnes, en revanche.


Le blocage est normal mais par contre cela entrainera encore plus de biais d’apprentissage.



PS: vous vous êtes lâchés pour la photo de l’article. :D


Il devra changer de caleçon car il panachera plus à droite.



Estya a dit:


c’est plus un problème de feature : une fois entraîné on ne peut pas lui faire désapprendre je pense.




En effet on ne peut pas “retirer” une information d’un tel modèle, car les ramifications sont inconnues.
A vrai dire il existe bien une solution, efficace : reconstruire l’intégralité du modèle, sans les données nouvellement exclues. Seul souci : cela signifie reexecuter toute l’étape d’entraînement du modèle. Or, c’est ça qui coûte énormément en ressources (donc pognon) et en temps. Ce n’est viable ni économiquement, ni écologiquement. Imagine aussi s’il fallait refaire tour ça à chaque fois qu’une donnée devait être retirée… C’est pour ca que gpt 3.5, 4, sont des modèle figés. Modulo des filtres pour modérer les requêtes utilisateur, et pour filtrer les résultats peu corrects, mais ça, ça ne touche pas au modèle, et ne peut exclure une donnée précise.
C’est donc faisable, mais les créateurs de ces modèles se dédouannent en arguant que c’est trop coûteux. Ca ne rend pas l’argument légitime pour autant. Mais tu connais la suite.


J’ai une solution à proposer : l’opt in :D



xlp a dit:


J’ai une solution à proposer : l’opt in :D




Si seulement :D


A terme, vu que les moteurs vont donner les sources de ce qu’ils disent, couper le crawler voudra dire que les sites ne seront pas utilisés et donc jamais indiqué comme référence. Un peu comme si aujourd’hui on disait dans son robot.txt que google n’est pas le bienvenu.



Aujourd’hui en effet, il y a peu de moteur de langage qui indiquent les sources mais je pense que demain ce sera la norme et que cela va remplacer le google qu’on connait aujourd’hui.



Je pense aussi que bloquer chatgpt alors qu’on laisse google (et donc bard) faire contribue à donner à google un avantage et qu’il serait bon de casser cette hégémonie.


A force de ce genre de réaction le Web va être de plus en plus fermé, tout contenu uniquement accessible derrière un compte utilisateur. Je ne pense pas qu’on y gagnera au change.




Pour les éditeurs qui accepteraient le passage GPTBot sur leurs sites web, en revanche, OpenAI ne semble pas avoir prévu de contrepartie aux données récupérées.




Au même titre que Google et autres moteurs de recherche ne me fournissent aucune contrepartie pour les contenus que je publie sur mon blog et que rien ne démontre si le robots.txt est vraiment respecté.



On en revient à la remise en cause de la notion d’indexation du Web par les moteurs de recherche.



ShadowNet a dit:


A terme, vu que les moteurs vont donner les sources de ce qu’ils disent, couper le crawler voudra dire que les sites ne seront pas utilisés et donc jamais indiqué comme référence. Un peu comme si aujourd’hui on disait dans son robot.txt que google n’est pas le bienvenu.




Source ?
Pour l’instant les modéles d’apprentissage de l’IA ne permettent pas de citer la totalité des sources utilisées pour obtenir un résultat.
S’il s’agit d’une citation, cela pourrait être envisageable, mais absolument pas pour une réponse multisources




Aujourd’hui en effet, il y a peu de moteur de langage qui indiquent les sources mais je pense que demain ce sera la norme et que cela va remplacer le google qu’on connait aujourd’hui.




Les IA de discussions ne vont pas remplacer les moteurs de recherche, ils vont remplacer la somme des résultats individuels qu’on pouvait obtenir par une réponse prédigérée reprenant le contenu d’une partie des résultats individuels.




SebGF a dit:


Au même titre que Google et autres moteurs de recherche ne me fournissent aucune contrepartie pour les contenus que je publie sur mon blog et que rien ne démontre si le robots.txt est vraiment respecté.




La contrepartie d’un moteur de recherche classique est que son résultat permet d’obtenir l’adresse d’un site qu’il a crawlé.
Cela permet donc d’orienter un internaute directement vers un des sites référencés.
Ici ce n’est pas du tout la même chose: comme dit plus haut le résultat n’est pas l’adresse d’un site, mais une réponse qui a utilisé le contenu du site et qui de fait n’incitera pas à consulter le site crawlé. Ce n’est donc pas du tout le même résultat.




On en revient à la remise en cause de la notion d’indexation du Web par les moteurs de recherche.




Le crawler d’OpenAI ne sert pas d’indexation du web mais d’outil pour remplir une base d’apprentissage pour une IA



RSF invite les médias à configurer leurs sites d’information pour empêcher OpenAI de récolter leurs contenus gratuitement.




Ouf. A un moment j’ai cru que c’était pour des raisons éthiques.
Mais c’est juste économique.



qui aurait pu se douter…



carbier a dit:


La contrepartie d’un moteur de recherche classique est que son résultat permet d’obtenir l’adresse d’un site qu’il a crawlé. Cela permet donc d’orienter un internaute directement vers un des sites référencés. Ici ce n’est pas du tout la même chose: comme dit plus haut le résultat n’est pas l’adresse d’un site, mais une réponse qui a utilisé le contenu du site et qui de fait n’incitera pas à consulter le site crawlé. Ce n’est donc pas du tout le même résultat.




C’est sur ce détail que OpenAI se fourvoie de mon point de vue d’ailleurs. Leur conception du LLM semble se rapprocher de “oracle qui sait tout” en ne faisant qu’exploiter le contenu du modèle alors que c’est stupide car celui-ci sera toujours à la bourre et dépassé (GitHub Copilot en fait les frais, il fait parfois des propositions datées par rapport à un langage ou framework qui ont évolué).



L’utilisation faite dans Bing est plus pertinente puisque l’outil prend note de la question de l’utilisateur, fait les recherches, puis restitue une synthèse et un résultat tout en donnant ses sources. Mais dans tous les cas, le LLM a besoin d’avoir été entraîné sur des jeux de données pour comprendre le contexte de la requête.



De mon point de vue et expérience avec les LLM, c’est l’approche qui permet d’exploiter leur plein potentiel. N’utiliser que les données du modèle, c’est aussi pertinent qu’un 4x4 en ville pour faire 2km. C’est dommage que le mode Web de ChatGPT ait été retiré (pour les mêmes raisons d’ailleurs…) car il démontrait tout la valeur ajoutée de l’outil.




Le crawler d’OpenAI ne sert pas d’indexation du web mais d’outil pour remplir une base d’apprentissage pour une IA




C’était avant tout un parallèle sur le principe : indexer le contenu sans autorisation explicite (l’indexation du Web reste une action passive, et le robots.txt n’est en rien une loi universelle) est vieux comme le Web lui-même. En refusant/bloquant/monétisant le crawling pour diverses usages (qu’ils soient entraînement IA, recherche scientifique, ou autre y compris à des fins malveillantes), les acteurs poursuivent la tendance de se replier sur soit et forcer du contrôle d’accès. Ce qui fut la force du Web est devenu sa principale hantise : l’accessibilité, l’interopérabilité et l’ouverture.



C’est principalement ça que je dénonce car les conséquences ne peuvent qu’être néfastes en matière d’accès à l’information et respect de la vie privée.


Le message de Pierre Beyssac sur Mastodon résume bien le souci :



Les gens :
“Il faut absolument que les IA génératives évitent les biais d’apprentissage, les corpus doivent être suffisamment complets et pertinents”



Les médias français :
“On bloque les crawlers d’OpenAI pour les empêcher d’exploiter nos contenus”


Bun si on peut lui desaprendre. Il suffit de faucher le sac à dos bleu de Sam altman qui contient le MacBook capable de détruire cette bouse :fumer:


Fermer