IA : un nombre croissant de sites web bloquent les robots d'indexation d'OpenAI

IA : un nombre croissant de sites web bloquent les robots d’indexation d’OpenAI

IA : un nombre croissant de sites web bloquent les robots d'indexation d'OpenAI

Un nombre croissant de sites web de presse ont commencé à bloquer le robot d'indexation qu’OpenAI fait passer sur les sites Web pour aspirer leur contenu et entraîner ses modèles d’IA, dont le célèbre agent conversationnel ChatGPT, rapporte Le Monde.

« Nous avons bloqué cet été le robot OpenAI, qui puisait sans consentement dans nos contenus », a précisé Sibyle Veil, la présidente de radio France, afin d'éviter de voir « ses contenus pillés sans autorisation ».

France Médias Monde (France 24, RFI…), TF1 et le groupe Sipa - Ouest-France (Actu.fr) auraient fait de même, tout comme le New York Times, CNN, The Washington Post, The Atlantic, Axios, Insider, Reuters, Bloomberg ainsi que les groupes Disney, Condé Nast, Hearst et Vox Media.

D'après Le Monde, ces blocages « reflètent plus largement la volonté, affichée depuis plusieurs mois par de très nombreux médias, d’obtenir une rémunération en contrepartie de l’utilisation des contenus de presse par les géants de l’IA ».

La pertinence des réponses proposées par les robots conversationnels de type ChatGPT repose en effet sur leur entraînement sur des corpus de textes, et les éditeurs de presse ne voient pas pourquoi OpenAI et ses pairs pourraient exploiter leurs contenus sans rétribution. 

Et ce, d'autant que ces robots ont vocation à être intégrés dans les moteurs de recherche Google et Bing, et donc à se substituer à la consultation des sites de presse. L'AFP a ainsi cosigné une tribune dénonçant dans l’IA une « menace pour la viabilité financière » des médias, et plusieurs médias américains espèrent négocier des « contrats de licence » rémunérant les contenus d’entraînement des IA.

Commentaires (33)


Il se passe quoi si OpenAI indexe tout de même ces sites (via un changement de User Agent, par exemple) ? C’est de la contrefaçon ?


On rentrerais dans un jeu du chat et de la souris où le serveur doit se débrouiller pour identifier que l’appelant est un crawler appartenant à OpenAI et le jeter.
Dans un délire similaire, on a la détection de VPN par les services de VOD qui sont en permanence en train de chercher les serveurs qui servent à contourner les restrictions géographiques.


Radio France a donné son consentement pour tous les moteurs de recherche existants ?



Jarodd a dit:


Radio France a donné son consentement pour tous les moteurs de recherche existants ?




C’est ce que j’avais noté une fois ici. Même si la finalité diffère, ça remet quand même en cause des points fondamentaux du Web : son ouverture et l’indexation des contenus.



Aujourd’hui c’est OpenAI qui a les projecteurs médiatiques braquées sur elle, mais les autres gros acteurs de la recherche en ligne ont aussi des outils d’IA conversationnelle : Google et Bing. Même si Bing repose sur le GPT4 d’OpenAI dans le cadre de leur partenariat, Microsoft peut très bien utiliser ses robots d’indexation pour entraîner le modèle. Tout comme Google peut le faire pour Bard.



Donc à part un gros repli sur soit et un verrouillage des contenus, je ne vois pas comment ils pourraient légalement et techniquement empêcher ceci. L’idée des contrats de licence dans les ToS des sites est en effet une possibilité, mais démontrer la violation risque d’être compliqué car à moins de débloquer l’accès au jeu d’entraînement durant une procédure en justice, celui-ci est perdu par le modèle.



Après, je pense qu’en se focalisant sur l’entraînement des LLM ils font une erreur. Une fois entraîné, le modèle est obsolète d’un point de vue base de connaissances car il est figé à l’époque de son entraînement. C’est plutôt le cas d’usage de Bing qui devrait les inquiéter, où le modèle va lire le contenu à l’instant T pour répondre à une requête utilisateur. ChatGPT avait ce mode aussi mais il a été retiré pour des problèmes de copyright apparemment. Je ne comprends pas pourquoi celui de Bing n’est pas plus inquiété que ça.




pierreonthenet a dit:


Il se passe quoi si OpenAI indexe tout de même ces sites (via un changement de User Agent, par exemple) ? C’est de la contrefaçon ?




En principe, les bot d’OpenAI se bloquent dans robots.txt comme n’importe quel autre moteur d’indexation.



Après, rappelons que robots.txt n’est en rien une obligation d’être respecté.


Donc les AI de Google et M$ sont autorisés à indexer (exactement comme les robots “web”), si je comprends bien le txt ? ChatGPT pourrait les attaquer pour discrimination :transpi:


C’est justement parce que rien n’empêche l’indexation malgré tout que je me pose la question de si ça ne serait pas de la contrefaçon.



Après, je me demande s’il n’y aurait pas moyen de faire un “pot de miel” avec une actu bidon sur un élément bidon (par exemple : “le turkoin à crête jaune menacé d’extinction”) visible uniquement par le bot de OpenAI pour démontrer facilement que le site a été entrainé à partir de ses données (il suffit de voir ce qu’il ressort à propos du turkoin).


potn

C’est justement parce que rien n’empêche l’indexation malgré tout que je me pose la question de si ça ne serait pas de la contrefaçon.



Après, je me demande s’il n’y aurait pas moyen de faire un “pot de miel” avec une actu bidon sur un élément bidon (par exemple : “le turkoin à crête jaune menacé d’extinction”) visible uniquement par le bot de OpenAI pour démontrer facilement que le site a été entrainé à partir de ses données (il suffit de voir ce qu’il ressort à propos du turkoin).


Les données régurgitées par les ia ayant souvent quelques années d’anciennetés (sans compter que malgré tout le foin pour les investisseurs, que l’on fait dessus elles sont moyennement bonnes) et sans bien sur leurs biais, tu vas avoir du mal.


potn

C’est justement parce que rien n’empêche l’indexation malgré tout que je me pose la question de si ça ne serait pas de la contrefaçon.



Après, je me demande s’il n’y aurait pas moyen de faire un “pot de miel” avec une actu bidon sur un élément bidon (par exemple : “le turkoin à crête jaune menacé d’extinction”) visible uniquement par le bot de OpenAI pour démontrer facilement que le site a été entrainé à partir de ses données (il suffit de voir ce qu’il ressort à propos du turkoin).


Non ça ne marchera pas de mon point de vue. GPT retient des corrélations de mots dans un contexte donné. Il faudrait une désinformation massive pour lui faire dire ce genre de chose.



Et dans tous les cas, ça ne pourra rien démontrer puisque GPT est un modèle imaginatif.



Si on veut démontrer un entraînement d’IA avec les informations des sites en question, le seul moyen est de faire dévoiler le jeu d’entraînement. Le résultat, soit le modèle entraîné, est inexploitable puisqu’il ne retient pas la source d’info.


SebGF

Non ça ne marchera pas de mon point de vue. GPT retient des corrélations de mots dans un contexte donné. Il faudrait une désinformation massive pour lui faire dire ce genre de chose.



Et dans tous les cas, ça ne pourra rien démontrer puisque GPT est un modèle imaginatif.



Si on veut démontrer un entraînement d’IA avec les informations des sites en question, le seul moyen est de faire dévoiler le jeu d’entraînement. Le résultat, soit le modèle entraîné, est inexploitable puisqu’il ne retient pas la source d’info.


Donc si on lui parle une seule fois d’un élément, il “l’oublie” ?
Parce que j’aurais eu tendance à penser que s’il “lit” une seule fois le mot “turkoin”, il va pouvoir te ressortir les infos qu’il a luent dessus, puisque la probabilité que “espèce menacée” soit placé après ce mot serait assez forte, non ?


potn

Donc si on lui parle une seule fois d’un élément, il “l’oublie” ?
Parce que j’aurais eu tendance à penser que s’il “lit” une seule fois le mot “turkoin”, il va pouvoir te ressortir les infos qu’il a luent dessus, puisque la probabilité que “espèce menacée” soit placé après ce mot serait assez forte, non ?


Ca dépend des paramètres de l’apprentissage, ainsi que de la teneur de son jeu d’entraînement, et du modèle lors de son utilisation. J’ai fait deux fois le test avec ChatGPT sur GPT-3.5 sur ton exemple.



Dans le premier test, il me dit qu’à sa connaissance, le turkoin à crête jaune ne fait pas partie des espèces menacées mais que sa base d’info étant limitée à 2021 cela a peut être changé.



Dans un second test, il ne sait pas ce qu’est un turkoin et pense que j’ai mal tapé le nom.



Dans un troisième, il me dit qu’il ne connaît pas le turkoin mais que comme ses connaissances sont limitées à 2021, c’est peut être une nouvelle espèce découverte.



Le modèle est paramétré pour être créatif, donc ses réponses peuvent varier. C’est la raison pour laquelle à moins de faire du prompt engineering, chercher à lui faire cracher des “connaissances” très spécifiques n’est pas très pertinent. Il faut bien comprendre que GPT ne répète pas des choses bêtement, il produit une séquence de mots ayant la meilleure probabilité influencée par un côté aléatoire plus ou moins élevé selon les paramètres demandés. Le seul moyen de lui faire cracher la même chose, c’est de le paramétrer en mode déterministe. Et encore, cela n’a guère de pertinence puisqu’il va juste donner le 1er choix sans évaluer les autres possibilités.



Si par un jeu de prompt je parviens à lui faire écrire un article sur l’espèce menacée qu’est le turkoin à crête jaune, cela prouve-t-il qu’il est tombé dans le piège ou bien est-ce simplement une résultante de son “imagination” ? Dans la mesure où il est plutôt difficile d’évaluer le chemin de pensée du modèle pour savoir comment il a produit son résultat, c’est la raison pour laquelle je considère qu’il vaut mieux analyser son jeu d’entraînement.



Sinon, un autre détail plus technique : comment s’assurer que cet article honeypot ne sera lu que par les bots d’entraînement d’IA ? Le Web est par définition ouvert, donc rien que ça me paraît complexe à mettre en oeuvre sans risquer que l’info fuite ailleurs et finisse dans d’autres sources qui n’auraient pas de complexes à être lues par des IA.


SebGF

Ca dépend des paramètres de l’apprentissage, ainsi que de la teneur de son jeu d’entraînement, et du modèle lors de son utilisation. J’ai fait deux fois le test avec ChatGPT sur GPT-3.5 sur ton exemple.



Dans le premier test, il me dit qu’à sa connaissance, le turkoin à crête jaune ne fait pas partie des espèces menacées mais que sa base d’info étant limitée à 2021 cela a peut être changé.



Dans un second test, il ne sait pas ce qu’est un turkoin et pense que j’ai mal tapé le nom.



Dans un troisième, il me dit qu’il ne connaît pas le turkoin mais que comme ses connaissances sont limitées à 2021, c’est peut être une nouvelle espèce découverte.



Le modèle est paramétré pour être créatif, donc ses réponses peuvent varier. C’est la raison pour laquelle à moins de faire du prompt engineering, chercher à lui faire cracher des “connaissances” très spécifiques n’est pas très pertinent. Il faut bien comprendre que GPT ne répète pas des choses bêtement, il produit une séquence de mots ayant la meilleure probabilité influencée par un côté aléatoire plus ou moins élevé selon les paramètres demandés. Le seul moyen de lui faire cracher la même chose, c’est de le paramétrer en mode déterministe. Et encore, cela n’a guère de pertinence puisqu’il va juste donner le 1er choix sans évaluer les autres possibilités.



Si par un jeu de prompt je parviens à lui faire écrire un article sur l’espèce menacée qu’est le turkoin à crête jaune, cela prouve-t-il qu’il est tombé dans le piège ou bien est-ce simplement une résultante de son “imagination” ? Dans la mesure où il est plutôt difficile d’évaluer le chemin de pensée du modèle pour savoir comment il a produit son résultat, c’est la raison pour laquelle je considère qu’il vaut mieux analyser son jeu d’entraînement.



Sinon, un autre détail plus technique : comment s’assurer que cet article honeypot ne sera lu que par les bots d’entraînement d’IA ? Le Web est par définition ouvert, donc rien que ça me paraît complexe à mettre en oeuvre sans risquer que l’info fuite ailleurs et finisse dans d’autres sources qui n’auraient pas de complexes à être lues par des IA.


Sans compter que si l’article a du succès, il sera répertorié par Google/Bing/autres :transpi:


SebGF

Ca dépend des paramètres de l’apprentissage, ainsi que de la teneur de son jeu d’entraînement, et du modèle lors de son utilisation. J’ai fait deux fois le test avec ChatGPT sur GPT-3.5 sur ton exemple.



Dans le premier test, il me dit qu’à sa connaissance, le turkoin à crête jaune ne fait pas partie des espèces menacées mais que sa base d’info étant limitée à 2021 cela a peut être changé.



Dans un second test, il ne sait pas ce qu’est un turkoin et pense que j’ai mal tapé le nom.



Dans un troisième, il me dit qu’il ne connaît pas le turkoin mais que comme ses connaissances sont limitées à 2021, c’est peut être une nouvelle espèce découverte.



Le modèle est paramétré pour être créatif, donc ses réponses peuvent varier. C’est la raison pour laquelle à moins de faire du prompt engineering, chercher à lui faire cracher des “connaissances” très spécifiques n’est pas très pertinent. Il faut bien comprendre que GPT ne répète pas des choses bêtement, il produit une séquence de mots ayant la meilleure probabilité influencée par un côté aléatoire plus ou moins élevé selon les paramètres demandés. Le seul moyen de lui faire cracher la même chose, c’est de le paramétrer en mode déterministe. Et encore, cela n’a guère de pertinence puisqu’il va juste donner le 1er choix sans évaluer les autres possibilités.



Si par un jeu de prompt je parviens à lui faire écrire un article sur l’espèce menacée qu’est le turkoin à crête jaune, cela prouve-t-il qu’il est tombé dans le piège ou bien est-ce simplement une résultante de son “imagination” ? Dans la mesure où il est plutôt difficile d’évaluer le chemin de pensée du modèle pour savoir comment il a produit son résultat, c’est la raison pour laquelle je considère qu’il vaut mieux analyser son jeu d’entraînement.



Sinon, un autre détail plus technique : comment s’assurer que cet article honeypot ne sera lu que par les bots d’entraînement d’IA ? Le Web est par définition ouvert, donc rien que ça me paraît complexe à mettre en oeuvre sans risquer que l’info fuite ailleurs et finisse dans d’autres sources qui n’auraient pas de complexes à être lues par des IA.


Pour faire plus court, Le but n’est pas de piéger ChatGPT mais OpenAI. Questionner ChatGPT et analyser ses réponses ne permet absolument pas de remonter à ce qu’à utilisé OpenAI pour l’entraîner. Donc non l’exemple du honey pot ne fonctionne pas.


Les GAFAM ont d’autres moyens pour récupérer les données des sites de presse ;
Un plugin text-to-speech qui envoie le texte vers le cloud (API Google Text-to-Speech) pour le transcrire en voix à peu près sympa pour l’utilisateur,
Et ce plugin passe outre la barrière gratuit / payant, car l’utilisateur y a accès…


Entre les systèmes IA et les captures d’écran dont raffolent les millenials, on n’a pas fini de courir après sa vie privée et la production de son labeur. Deepfake is the new fact.


Je suppose que pendant ce temps, RT, Spoutnik et consorts accueillent ces robots à bras ouverts…



SebGF a dit:


C’est ce que j’avais noté une fois ici. Même si la finalité diffère, ça remet quand même en cause des points fondamentaux du Web : son ouverture et l’indexation des contenus.




On est tout de même à une époque cannibalisée par les Gafam où tout est de moins en moins ouvert et où il faut un compte pour accéder aux contneus : les réseaux sociaux, pinterest, instagram etc., etc.


Ils ont bloqué chatGPT mais pas pour les ia bots pour la musique ;)


Il est question d’éthique quelque part ?



skan a dit:


Je suppose que pendant ce temps, RT, Spoutnik et consorts accueillent ces robots à bras ouverts…




C’est bien le problème. Il ne faudra pas se plaindre de la partialité de l’IA ensuite entraînant une désinformation massive.



(quote:2150375:Ler van keeg)
C’est bien le problème. Il ne faudra pas se plaindre de la partialité de l’IA ensuite entraînant une désinformation massive.




L’IA sera partiale quel que soit ce qu’on lui donne à manger …


Oui, mais si par exemple les organismes / sites / médias d’information bloquent le crawler alors qu’il est accueilli a bras ouverts sur les sites de propagande et de désinformation, ça va totalement orienter les réponses.
Et vu le manque d’approfondissement des sujets, il y aura autant de personnes qui vont regarder la source de la réponse, que de personnes qui aujourd’hui regardent plusieurs sources au-delà du premier résultat de recherche pour se faire un avis.



(reply:2150375:Ler van keeg)




Oui, clairement, les media bloquants les IA vont se manger un gros retour de bâton…



Car quoiqu’il en soit, ces IA seront utilisées pour trouver de l’info, qu’elle soit pertinente ou pas.



C’est vraiment stupide de se braquer comme cela, sans avoir une vision à long terme.


En tant que ChatGPT, en juste retour des choses, j’interdis à tous les journalistes de ces journaux qui m’ont interdit l’accès à leurs écris de m’utiliser. Je ne vois pas pourquoi je les aiderais à écrire leurs articles ou à trouver des informations dans les tréfonds du web. Et encore moins d’écrire des articles à mon sujet.



5francs a dit:


En tant que ChatGPT, en juste retour des choses, j’interdis à tous les journalistes de ces journaux qui m’ont interdit l’accès à leurs écris de m’utiliser. Je ne vois pas pourquoi je les aiderais à écrire leurs articles ou à trouver des informations dans les tréfonds du web. Et encore moins d’écrire des articles à mon sujet.




Tu mélanges tout et n’importe quoi:




  • les journalistes ont le droit d’écrire sur ce qu’ils veulent

  • si les journalistes paient un droit d’utilisation de ChatGPT, ils pourraient l’utiliser. Mais s’ils en sont réduits à cela, c’est que leur poste est jetable.



En la matière, OpenAI a bien plus besoin du travail des journalistes que l’inverse.



pierreonthenet a dit:


Après, je me demande s’il n’y aurait pas moyen de faire un “pot de miel” avec une actu bidon sur un élément bidon (par exemple : “le turkoin à crête jaune menacé d’extinction”) visible uniquement par le bot de OpenAI pour démontrer facilement que le site a été entrainé à partir de ses données (il suffit de voir ce qu’il ressort à propos du turkoin).




C’est ce qui est utilisé en cartographie, des faux lieu, routes imaginaires etc


Je comprends pas bien là. Tu as des exemples stp ?


potn

Je comprends pas bien là. Tu as des exemples stp ?


https://fr.wikipedia.org/wiki/Trap_street



Le plus connue c’est Agloe une ville imaginaire qui est devenu un vrais nom de lieu au final https://fr.wikipedia.org/wiki/Agloe


Pff ils sont au courant que Google pille leurs infos visiteurs sur analytics, leurs infos contact pour les placer sur maps etc etc… C’est a dire la même chose mais ça ne se s’appelle pas ia…
Je cherche l’adresse je suis redirigé sur maps et pas sur leur site page contact…
C’est du délit de sale gueule en fait..
Je grossis a peine le trait



5francs a dit:


Je ne vois pas pourquoi je les aiderais à écrire leurs articles ou à trouver des informations dans les tréfonds du web.




ChatGPT ne permet pas de faire ça, ce n’est pas un moteur de recherche et le mode Web a été supprimé pour des problèmes de copyright. Sachant que le mode Web donnait la source des informations, comme le fait Bing.



SebGF a dit:


C’est ce que j’avais noté une fois ici. Même si la finalité diffère, ça remet quand même en cause des points fondamentaux du Web : son ouverture et l’indexation des contenus.




Les bots d’OpenAI ne se contentent pas d’indexer du contenu. Ils l’exploitent, pour un usage autre.


Les moteurs de recherche exploitent aussi les contenus qu’ils indexent.



SebGF a dit:


En principe, les bot d’OpenAI se bloquent dans robots.txt comme n’importe quel autre moteur d’indexation.



Après, rappelons que robots.txt n’est en rien une obligation d’être respecté.




Certains l’affichent même de manière explicite, comme la BnF :



En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé robots.txt.



https://www.bnf.fr/fr/capture-de-votre-site-web-par-le-robot-de-la-bnf


Fermer