IA : un nombre croissant de sites web bloquent les robots d’indexation d’OpenAI
Le 04 septembre 2023 à 05h24
2 min
Sciences et espace
Sciences
Un nombre croissant de sites web de presse ont commencé à bloquer le robot d'indexation qu’OpenAI fait passer sur les sites Web pour aspirer leur contenu et entraîner ses modèles d’IA, dont le célèbre agent conversationnel ChatGPT, rapporte Le Monde.
« Nous avons bloqué cet été le robot OpenAI, qui puisait sans consentement dans nos contenus », a précisé Sibyle Veil, la présidente de radio France, afin d'éviter de voir « ses contenus pillés sans autorisation ».
France Médias Monde (France 24, RFI…), TF1 et le groupe Sipa - Ouest-France (Actu.fr) auraient fait de même, tout comme le New York Times, CNN, The Washington Post, The Atlantic, Axios, Insider, Reuters, Bloomberg ainsi que les groupes Disney, Condé Nast, Hearst et Vox Media.
D'après Le Monde, ces blocages « reflètent plus largement la volonté, affichée depuis plusieurs mois par de très nombreux médias, d’obtenir une rémunération en contrepartie de l’utilisation des contenus de presse par les géants de l’IA ».
La pertinence des réponses proposées par les robots conversationnels de type ChatGPT repose en effet sur leur entraînement sur des corpus de textes, et les éditeurs de presse ne voient pas pourquoi OpenAI et ses pairs pourraient exploiter leurs contenus sans rétribution.
Et ce, d'autant que ces robots ont vocation à être intégrés dans les moteurs de recherche Google et Bing, et donc à se substituer à la consultation des sites de presse. L'AFP a ainsi cosigné une tribune dénonçant dans l’IA une « menace pour la viabilité financière » des médias, et plusieurs médias américains espèrent négocier des « contrats de licence » rémunérant les contenus d’entraînement des IA.
Le 04 septembre 2023 à 05h24
Commentaires (33)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 04/09/2023 à 06h34
Il se passe quoi si OpenAI indexe tout de même ces sites (via un changement de User Agent, par exemple) ? C’est de la contrefaçon ?
Le 04/09/2023 à 07h07
On rentrerais dans un jeu du chat et de la souris où le serveur doit se débrouiller pour identifier que l’appelant est un crawler appartenant à OpenAI et le jeter.
Dans un délire similaire, on a la détection de VPN par les services de VOD qui sont en permanence en train de chercher les serveurs qui servent à contourner les restrictions géographiques.
Le 04/09/2023 à 06h51
Radio France a donné son consentement pour tous les moteurs de recherche existants ?
Le 04/09/2023 à 09h17
https://www.radiofrance.fr/robots.txt
Le 04/09/2023 à 07h14
C’est ce que j’avais noté une fois ici. Même si la finalité diffère, ça remet quand même en cause des points fondamentaux du Web : son ouverture et l’indexation des contenus.
Aujourd’hui c’est OpenAI qui a les projecteurs médiatiques braquées sur elle, mais les autres gros acteurs de la recherche en ligne ont aussi des outils d’IA conversationnelle : Google et Bing. Même si Bing repose sur le GPT4 d’OpenAI dans le cadre de leur partenariat, Microsoft peut très bien utiliser ses robots d’indexation pour entraîner le modèle. Tout comme Google peut le faire pour Bard.
Donc à part un gros repli sur soit et un verrouillage des contenus, je ne vois pas comment ils pourraient légalement et techniquement empêcher ceci. L’idée des contrats de licence dans les ToS des sites est en effet une possibilité, mais démontrer la violation risque d’être compliqué car à moins de débloquer l’accès au jeu d’entraînement durant une procédure en justice, celui-ci est perdu par le modèle.
Après, je pense qu’en se focalisant sur l’entraînement des LLM ils font une erreur. Une fois entraîné, le modèle est obsolète d’un point de vue base de connaissances car il est figé à l’époque de son entraînement. C’est plutôt le cas d’usage de Bing qui devrait les inquiéter, où le modèle va lire le contenu à l’instant T pour répondre à une requête utilisateur. ChatGPT avait ce mode aussi mais il a été retiré pour des problèmes de copyright apparemment. Je ne comprends pas pourquoi celui de Bing n’est pas plus inquiété que ça.
En principe, les bot d’OpenAI se bloquent dans robots.txt comme n’importe quel autre moteur d’indexation.
Après, rappelons que robots.txt n’est en rien une obligation d’être respecté.
Le 04/09/2023 à 10h01
Donc les AI de Google et M$ sont autorisés à indexer (exactement comme les robots “web”), si je comprends bien le txt ? ChatGPT pourrait les attaquer pour discrimination
Le 04/09/2023 à 10h05
C’est justement parce que rien n’empêche l’indexation malgré tout que je me pose la question de si ça ne serait pas de la contrefaçon.
Après, je me demande s’il n’y aurait pas moyen de faire un “pot de miel” avec une actu bidon sur un élément bidon (par exemple : “le turkoin à crête jaune menacé d’extinction”) visible uniquement par le bot de OpenAI pour démontrer facilement que le site a été entrainé à partir de ses données (il suffit de voir ce qu’il ressort à propos du turkoin).
Le 04/09/2023 à 10h29
Les données régurgitées par les ia ayant souvent quelques années d’anciennetés (sans compter que malgré tout le foin pour les investisseurs, que l’on fait dessus elles sont moyennement bonnes) et sans bien sur leurs biais, tu vas avoir du mal.
Le 04/09/2023 à 11h26
Non ça ne marchera pas de mon point de vue. GPT retient des corrélations de mots dans un contexte donné. Il faudrait une désinformation massive pour lui faire dire ce genre de chose.
Et dans tous les cas, ça ne pourra rien démontrer puisque GPT est un modèle imaginatif.
Si on veut démontrer un entraînement d’IA avec les informations des sites en question, le seul moyen est de faire dévoiler le jeu d’entraînement. Le résultat, soit le modèle entraîné, est inexploitable puisqu’il ne retient pas la source d’info.
Le 04/09/2023 à 13h37
Donc si on lui parle une seule fois d’un élément, il “l’oublie” ?
Parce que j’aurais eu tendance à penser que s’il “lit” une seule fois le mot “turkoin”, il va pouvoir te ressortir les infos qu’il a luent dessus, puisque la probabilité que “espèce menacée” soit placé après ce mot serait assez forte, non ?
Le 04/09/2023 à 15h07
Ca dépend des paramètres de l’apprentissage, ainsi que de la teneur de son jeu d’entraînement, et du modèle lors de son utilisation. J’ai fait deux fois le test avec ChatGPT sur GPT-3.5 sur ton exemple.
Dans le premier test, il me dit qu’à sa connaissance, le turkoin à crête jaune ne fait pas partie des espèces menacées mais que sa base d’info étant limitée à 2021 cela a peut être changé.
Dans un second test, il ne sait pas ce qu’est un turkoin et pense que j’ai mal tapé le nom.
Dans un troisième, il me dit qu’il ne connaît pas le turkoin mais que comme ses connaissances sont limitées à 2021, c’est peut être une nouvelle espèce découverte.
Le modèle est paramétré pour être créatif, donc ses réponses peuvent varier. C’est la raison pour laquelle à moins de faire du prompt engineering, chercher à lui faire cracher des “connaissances” très spécifiques n’est pas très pertinent. Il faut bien comprendre que GPT ne répète pas des choses bêtement, il produit une séquence de mots ayant la meilleure probabilité influencée par un côté aléatoire plus ou moins élevé selon les paramètres demandés. Le seul moyen de lui faire cracher la même chose, c’est de le paramétrer en mode déterministe. Et encore, cela n’a guère de pertinence puisqu’il va juste donner le 1er choix sans évaluer les autres possibilités.
Si par un jeu de prompt je parviens à lui faire écrire un article sur l’espèce menacée qu’est le turkoin à crête jaune, cela prouve-t-il qu’il est tombé dans le piège ou bien est-ce simplement une résultante de son “imagination” ? Dans la mesure où il est plutôt difficile d’évaluer le chemin de pensée du modèle pour savoir comment il a produit son résultat, c’est la raison pour laquelle je considère qu’il vaut mieux analyser son jeu d’entraînement.
Sinon, un autre détail plus technique : comment s’assurer que cet article honeypot ne sera lu que par les bots d’entraînement d’IA ? Le Web est par définition ouvert, donc rien que ça me paraît complexe à mettre en oeuvre sans risquer que l’info fuite ailleurs et finisse dans d’autres sources qui n’auraient pas de complexes à être lues par des IA.
Le 04/09/2023 à 15h24
Sans compter que si l’article a du succès, il sera répertorié par Google/Bing/autres
Le 04/09/2023 à 16h19
Pour faire plus court, Le but n’est pas de piéger ChatGPT mais OpenAI. Questionner ChatGPT et analyser ses réponses ne permet absolument pas de remonter à ce qu’à utilisé OpenAI pour l’entraîner. Donc non l’exemple du honey pot ne fonctionne pas.
Le 04/09/2023 à 07h30
Les GAFAM ont d’autres moyens pour récupérer les données des sites de presse ;
Un plugin text-to-speech qui envoie le texte vers le cloud (API Google Text-to-Speech) pour le transcrire en voix à peu près sympa pour l’utilisateur,
Et ce plugin passe outre la barrière gratuit / payant, car l’utilisateur y a accès…
Le 04/09/2023 à 08h00
Entre les systèmes IA et les captures d’écran dont raffolent les millenials, on n’a pas fini de courir après sa vie privée et la production de son labeur. Deepfake is the new fact.
Le 04/09/2023 à 08h06
Je suppose que pendant ce temps, RT, Spoutnik et consorts accueillent ces robots à bras ouverts…
Le 04/09/2023 à 09h19
On est tout de même à une époque cannibalisée par les Gafam où tout est de moins en moins ouvert et où il faut un compte pour accéder aux contneus : les réseaux sociaux, pinterest, instagram etc., etc.
Le 04/09/2023 à 09h47
Ils ont bloqué chatGPT mais pas pour les ia bots pour la musique ;)
Le 04/09/2023 à 12h07
Il est question d’éthique quelque part ?
Le 04/09/2023 à 12h08
C’est bien le problème. Il ne faudra pas se plaindre de la partialité de l’IA ensuite entraînant une désinformation massive.
Le 04/09/2023 à 12h46
L’IA sera partiale quel que soit ce qu’on lui donne à manger …
Le 04/09/2023 à 13h21
Oui, mais si par exemple les organismes / sites / médias d’information bloquent le crawler alors qu’il est accueilli a bras ouverts sur les sites de propagande et de désinformation, ça va totalement orienter les réponses.
Et vu le manque d’approfondissement des sujets, il y aura autant de personnes qui vont regarder la source de la réponse, que de personnes qui aujourd’hui regardent plusieurs sources au-delà du premier résultat de recherche pour se faire un avis.
Le 04/09/2023 à 14h18
Oui, clairement, les media bloquants les IA vont se manger un gros retour de bâton…
Car quoiqu’il en soit, ces IA seront utilisées pour trouver de l’info, qu’elle soit pertinente ou pas.
C’est vraiment stupide de se braquer comme cela, sans avoir une vision à long terme.
Le 04/09/2023 à 16h38
En tant que ChatGPT, en juste retour des choses, j’interdis à tous les journalistes de ces journaux qui m’ont interdit l’accès à leurs écris de m’utiliser. Je ne vois pas pourquoi je les aiderais à écrire leurs articles ou à trouver des informations dans les tréfonds du web. Et encore moins d’écrire des articles à mon sujet.
Le 04/09/2023 à 20h48
Tu mélanges tout et n’importe quoi:
En la matière, OpenAI a bien plus besoin du travail des journalistes que l’inverse.
Le 04/09/2023 à 20h52
C’est ce qui est utilisé en cartographie, des faux lieu, routes imaginaires etc
Le 05/09/2023 à 07h27
Je comprends pas bien là. Tu as des exemples stp ?
Le 05/09/2023 à 07h55
Wikipedia
Le plus connue c’est Agloe une ville imaginaire qui est devenu un vrais nom de lieu au final Wikipedia
Le 04/09/2023 à 23h35
Pff ils sont au courant que Google pille leurs infos visiteurs sur analytics, leurs infos contact pour les placer sur maps etc etc… C’est a dire la même chose mais ça ne se s’appelle pas ia…
Je cherche l’adresse je suis redirigé sur maps et pas sur leur site page contact…
C’est du délit de sale gueule en fait..
Je grossis a peine le trait
Le 05/09/2023 à 06h51
ChatGPT ne permet pas de faire ça, ce n’est pas un moteur de recherche et le mode Web a été supprimé pour des problèmes de copyright. Sachant que le mode Web donnait la source des informations, comme le fait Bing.
Le 05/09/2023 à 19h29
Les bots d’OpenAI ne se contentent pas d’indexer du contenu. Ils l’exploitent, pour un usage autre.
Le 05/09/2023 à 20h34
Les moteurs de recherche exploitent aussi les contenus qu’ils indexent.
Le 06/09/2023 à 08h13
Certains l’affichent même de manière explicite, comme la BnF :
En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé robots.txt.
https://www.bnf.fr/fr/capture-de-votre-site-web-par-le-robot-de-la-bnf