IA : un nombre croissant de sites web bloquent les robots d’indexation d’OpenAI

Le 04 septembre 2023 à 05h24

2 min

Sciences et espace

Sciences

Un nombre croissant de sites web de presse ont commencé à bloquer le robot d'indexation qu’OpenAI fait passer sur les sites Web pour aspirer leur contenu et entraîner ses modèles d’IA, dont le célèbre agent conversationnel ChatGPT, rapporte Le Monde.

« Nous avons bloqué cet été le robot OpenAI, qui puisait sans consentement dans nos contenus », a précisé Sibyle Veil, la présidente de radio France, afin d'éviter de voir « ses contenus pillés sans autorisation ».

France Médias Monde (France 24, RFI…), TF1 et le groupe Sipa - Ouest-France (Actu.fr) auraient fait de même, tout comme le New York Times, CNN, The Washington Post, The Atlantic, Axios, Insider, Reuters, Bloomberg ainsi que les groupes Disney, Condé Nast, Hearst et Vox Media.

D'après Le Monde, ces blocages « reflètent plus largement la volonté, affichée depuis plusieurs mois par de très nombreux médias, d’obtenir une rémunération en contrepartie de l’utilisation des contenus de presse par les géants de l’IA ».

La pertinence des réponses proposées par les robots conversationnels de type ChatGPT repose en effet sur leur entraînement sur des corpus de textes, et les éditeurs de presse ne voient pas pourquoi OpenAI et ses pairs pourraient exploiter leurs contenus sans rétribution.

Et ce, d'autant que ces robots ont vocation à être intégrés dans les moteurs de recherche Google et Bing, et donc à se substituer à la consultation des sites de presse. L'AFP a ainsi cosigné une tribune dénonçant dans l’IA une « menace pour la viabilité financière » des médias, et plusieurs médias américains espèrent négocier des « contrats de licence » rémunérant les contenus d’entraînement des IA.

Sébastien Gavois

Le 04 septembre 2023 à 05h24

Commentaires (33)

potn Abonné

Le 04/09/2023 à 06h34

Il se passe quoi si OpenAI indexe tout de même ces sites (via un changement de User Agent, par exemple) ? C’est de la contrefaçon ?

shadowfox

Le 04/09/2023 à 07h07

On rentrerais dans un jeu du chat et de la souris où le serveur doit se débrouiller pour identifier que l’appelant est un crawler appartenant à OpenAI et le jeter.
Dans un délire similaire, on a la détection de VPN par les services de VOD qui sont en permanence en train de chercher les serveurs qui servent à contourner les restrictions géographiques.

Jarodd Abonné

Le 04/09/2023 à 06h51

Radio France a donné son consentement pour tous les moteurs de recherche existants ?

Galixte

Le 04/09/2023 à 09h17

https://www.radiofrance.fr/robots.txt

SebGF Abonné

Le 04/09/2023 à 07h14

Jarodd a dit:

Radio France a donné son consentement pour tous les moteurs de recherche existants ?

C’est ce que j’avais noté une fois ici. Même si la finalité diffère, ça remet quand même en cause des points fondamentaux du Web : son ouverture et l’indexation des contenus.

Aujourd’hui c’est OpenAI qui a les projecteurs médiatiques braquées sur elle, mais les autres gros acteurs de la recherche en ligne ont aussi des outils d’IA conversationnelle : Google et Bing. Même si Bing repose sur le GPT4 d’OpenAI dans le cadre de leur partenariat, Microsoft peut très bien utiliser ses robots d’indexation pour entraîner le modèle. Tout comme Google peut le faire pour Bard.

Donc à part un gros repli sur soit et un verrouillage des contenus, je ne vois pas comment ils pourraient légalement et techniquement empêcher ceci. L’idée des contrats de licence dans les ToS des sites est en effet une possibilité, mais démontrer la violation risque d’être compliqué car à moins de débloquer l’accès au jeu d’entraînement durant une procédure en justice, celui-ci est perdu par le modèle.

Après, je pense qu’en se focalisant sur l’entraînement des LLM ils font une erreur. Une fois entraîné, le modèle est obsolète d’un point de vue base de connaissances car il est figé à l’époque de son entraînement. C’est plutôt le cas d’usage de Bing qui devrait les inquiéter, où le modèle va lire le contenu à l’instant T pour répondre à une requête utilisateur. ChatGPT avait ce mode aussi mais il a été retiré pour des problèmes de copyright apparemment. Je ne comprends pas pourquoi celui de Bing n’est pas plus inquiété que ça.

pierreonthenet a dit:

Il se passe quoi si OpenAI indexe tout de même ces sites (via un changement de User Agent, par exemple) ? C’est de la contrefaçon ?

En principe, les bot d’OpenAI se bloquent dans robots.txt comme n’importe quel autre moteur d’indexation.

Après, rappelons que robots.txt n’est en rien une obligation d’être respecté.

Jarodd Abonné

Le 04/09/2023 à 10h01

Donc les AI de Google et M$ sont autorisés à indexer (exactement comme les robots “web”), si je comprends bien le txt ? ChatGPT pourrait les attaquer pour discrimination

potn Abonné

Le 04/09/2023 à 10h05

C’est justement parce que rien n’empêche l’indexation malgré tout que je me pose la question de si ça ne serait pas de la contrefaçon.

Après, je me demande s’il n’y aurait pas moyen de faire un “pot de miel” avec une actu bidon sur un élément bidon (par exemple : “le turkoin à crête jaune menacé d’extinction”) visible uniquement par le bot de OpenAI pour démontrer facilement que le site a été entrainé à partir de ses données (il suffit de voir ce qu’il ressort à propos du turkoin).

refuznik Abonné

Le 04/09/2023 à 10h29

Les données régurgitées par les ia ayant souvent quelques années d’anciennetés (sans compter que malgré tout le foin pour les investisseurs, que l’on fait dessus elles sont moyennement bonnes) et sans bien sur leurs biais, tu vas avoir du mal.

SebGF Abonné

Le 04/09/2023 à 11h26

Non ça ne marchera pas de mon point de vue. GPT retient des corrélations de mots dans un contexte donné. Il faudrait une désinformation massive pour lui faire dire ce genre de chose.

Et dans tous les cas, ça ne pourra rien démontrer puisque GPT est un modèle imaginatif.

Si on veut démontrer un entraînement d’IA avec les informations des sites en question, le seul moyen est de faire dévoiler le jeu d’entraînement. Le résultat, soit le modèle entraîné, est inexploitable puisqu’il ne retient pas la source d’info.

potn Abonné

Le 04/09/2023 à 13h37

Donc si on lui parle une seule fois d’un élément, il “l’oublie” ?
Parce que j’aurais eu tendance à penser que s’il “lit” une seule fois le mot “turkoin”, il va pouvoir te ressortir les infos qu’il a luent dessus, puisque la probabilité que “espèce menacée” soit placé après ce mot serait assez forte, non ?

SebGF Abonné

Le 04/09/2023 à 15h07

Ca dépend des paramètres de l’apprentissage, ainsi que de la teneur de son jeu d’entraînement, et du modèle lors de son utilisation. J’ai fait deux fois le test avec ChatGPT sur GPT-3.5 sur ton exemple.

Dans le premier test, il me dit qu’à sa connaissance, le turkoin à crête jaune ne fait pas partie des espèces menacées mais que sa base d’info étant limitée à 2021 cela a peut être changé.

Dans un second test, il ne sait pas ce qu’est un turkoin et pense que j’ai mal tapé le nom.

Dans un troisième, il me dit qu’il ne connaît pas le turkoin mais que comme ses connaissances sont limitées à 2021, c’est peut être une nouvelle espèce découverte.

Le modèle est paramétré pour être créatif, donc ses réponses peuvent varier. C’est la raison pour laquelle à moins de faire du prompt engineering, chercher à lui faire cracher des “connaissances” très spécifiques n’est pas très pertinent. Il faut bien comprendre que GPT ne répète pas des choses bêtement, il produit une séquence de mots ayant la meilleure probabilité influencée par un côté aléatoire plus ou moins élevé selon les paramètres demandés. Le seul moyen de lui faire cracher la même chose, c’est de le paramétrer en mode déterministe. Et encore, cela n’a guère de pertinence puisqu’il va juste donner le 1er choix sans évaluer les autres possibilités.

Si par un jeu de prompt je parviens à lui faire écrire un article sur l’espèce menacée qu’est le turkoin à crête jaune, cela prouve-t-il qu’il est tombé dans le piège ou bien est-ce simplement une résultante de son “imagination” ? Dans la mesure où il est plutôt difficile d’évaluer le chemin de pensée du modèle pour savoir comment il a produit son résultat, c’est la raison pour laquelle je considère qu’il vaut mieux analyser son jeu d’entraînement.

Sinon, un autre détail plus technique : comment s’assurer que cet article honeypot ne sera lu que par les bots d’entraînement d’IA ? Le Web est par définition ouvert, donc rien que ça me paraît complexe à mettre en oeuvre sans risquer que l’info fuite ailleurs et finisse dans d’autres sources qui n’auraient pas de complexes à être lues par des IA.

refuznik Abonné

Le 04/09/2023 à 15h24

Sans compter que si l’article a du succès, il sera répertorié par Google/Bing/autres

eophea Abonné

Le 04/09/2023 à 16h19

Pour faire plus court, Le but n’est pas de piéger ChatGPT mais OpenAI. Questionner ChatGPT et analyser ses réponses ne permet absolument pas de remonter à ce qu’à utilisé OpenAI pour l’entraîner. Donc non l’exemple du honey pot ne fonctionne pas.

wild Abonné

Le 04/09/2023 à 07h30

Les GAFAM ont d’autres moyens pour récupérer les données des sites de presse ;
Un plugin text-to-speech qui envoie le texte vers le cloud (API Google Text-to-Speech) pour le transcrire en voix à peu près sympa pour l’utilisateur,
Et ce plugin passe outre la barrière gratuit / payant, car l’utilisateur y a accès…

Jovial-Ogre-perceptif Supprimé

Le 04/09/2023 à 08h00

Entre les systèmes IA et les captures d’écran dont raffolent les millenials, on n’a pas fini de courir après sa vie privée et la production de son labeur. Deepfake is the new fact.

skan

Le 04/09/2023 à 08h06

Je suppose que pendant ce temps, RT, Spoutnik et consorts accueillent ces robots à bras ouverts…

numerid

Le 04/09/2023 à 09h19

SebGF a dit:

C’est ce que j’avais noté une fois ici. Même si la finalité diffère, ça remet quand même en cause des points fondamentaux du Web : son ouverture et l’indexation des contenus.

On est tout de même à une époque cannibalisée par les Gafam où tout est de moins en moins ouvert et où il faut un compte pour accéder aux contneus : les réseaux sociaux, pinterest, instagram etc., etc.

refuznik Abonné

Le 04/09/2023 à 09h47

Ils ont bloqué chatGPT mais pas pour les ia bots pour la musique ;)

Gamble

Le 04/09/2023 à 12h07

Il est question d’éthique quelque part ?

Ler van keeg

Le 04/09/2023 à 12h08

skan a dit:

Je suppose que pendant ce temps, RT, Spoutnik et consorts accueillent ces robots à bras ouverts…

C’est bien le problème. Il ne faudra pas se plaindre de la partialité de l’IA ensuite entraînant une désinformation massive.

pamputt Abonné

Le 04/09/2023 à 12h46

(quote:2150375:Ler van keeg)
C’est bien le problème. Il ne faudra pas se plaindre de la partialité de l’IA ensuite entraînant une désinformation massive.

L’IA sera partiale quel que soit ce qu’on lui donne à manger …

Ler van keeg

Le 04/09/2023 à 13h21

Oui, mais si par exemple les organismes / sites / médias d’information bloquent le crawler alors qu’il est accueilli a bras ouverts sur les sites de propagande et de désinformation, ça va totalement orienter les réponses.
Et vu le manque d’approfondissement des sujets, il y aura autant de personnes qui vont regarder la source de la réponse, que de personnes qui aujourd’hui regardent plusieurs sources au-delà du premier résultat de recherche pour se faire un avis.

eglyn Abonné

Le 04/09/2023 à 14h18

(reply:2150375:Ler van keeg)

Oui, clairement, les media bloquants les IA vont se manger un gros retour de bâton…

Car quoiqu’il en soit, ces IA seront utilisées pour trouver de l’info, qu’elle soit pertinente ou pas.

C’est vraiment stupide de se braquer comme cela, sans avoir une vision à long terme.

5francs Abonné

Le 04/09/2023 à 16h38

En tant que ChatGPT, en juste retour des choses, j’interdis à tous les journalistes de ces journaux qui m’ont interdit l’accès à leurs écris de m’utiliser. Je ne vois pas pourquoi je les aiderais à écrire leurs articles ou à trouver des informations dans les tréfonds du web. Et encore moins d’écrire des articles à mon sujet.

carbier Abonné

Le 04/09/2023 à 20h48

5francs a dit:

En tant que ChatGPT, en juste retour des choses, j’interdis à tous les journalistes de ces journaux qui m’ont interdit l’accès à leurs écris de m’utiliser. Je ne vois pas pourquoi je les aiderais à écrire leurs articles ou à trouver des informations dans les tréfonds du web. Et encore moins d’écrire des articles à mon sujet.

Tu mélanges tout et n’importe quoi:

les journalistes ont le droit d’écrire sur ce qu’ils veulent

si les journalistes paient un droit d’utilisation de ChatGPT, ils pourraient l’utiliser. Mais s’ils en sont réduits à cela, c’est que leur poste est jetable.

En la matière, OpenAI a bien plus besoin du travail des journalistes que l’inverse.

Dj Abonné

Le 04/09/2023 à 20h52

pierreonthenet a dit:

Après, je me demande s’il n’y aurait pas moyen de faire un “pot de miel” avec une actu bidon sur un élément bidon (par exemple : “le turkoin à crête jaune menacé d’extinction”) visible uniquement par le bot de OpenAI pour démontrer facilement que le site a été entrainé à partir de ses données (il suffit de voir ce qu’il ressort à propos du turkoin).

C’est ce qui est utilisé en cartographie, des faux lieu, routes imaginaires etc

potn Abonné

Le 05/09/2023 à 07h27

Je comprends pas bien là. Tu as des exemples stp ?

Dj Abonné

Le 05/09/2023 à 07h55

Wikipedia

Le plus connue c’est Agloe une ville imaginaire qui est devenu un vrais nom de lieu au final Wikipedia

étienne

Le 04/09/2023 à 23h35

Pff ils sont au courant que Google pille leurs infos visiteurs sur analytics, leurs infos contact pour les placer sur maps etc etc… C’est a dire la même chose mais ça ne se s’appelle pas ia…
Je cherche l’adresse je suis redirigé sur maps et pas sur leur site page contact…
C’est du délit de sale gueule en fait..
Je grossis a peine le trait

SebGF Abonné

Le 05/09/2023 à 06h51

5francs a dit:

Je ne vois pas pourquoi je les aiderais à écrire leurs articles ou à trouver des informations dans les tréfonds du web.

ChatGPT ne permet pas de faire ça, ce n’est pas un moteur de recherche et le mode Web a été supprimé pour des problèmes de copyright. Sachant que le mode Web donnait la source des informations, comme le fait Bing.

Liam

Le 05/09/2023 à 19h29

SebGF a dit:

C’est ce que j’avais noté une fois ici. Même si la finalité diffère, ça remet quand même en cause des points fondamentaux du Web : son ouverture et l’indexation des contenus.

Les bots d’OpenAI ne se contentent pas d’indexer du contenu. Ils l’exploitent, pour un usage autre.

SebGF Abonné

Le 05/09/2023 à 20h34

Les moteurs de recherche exploitent aussi les contenus qu’ils indexent.

piwi82

Le 06/09/2023 à 08h13

SebGF a dit:

En principe, les bot d’OpenAI se bloquent dans robots.txt comme n’importe quel autre moteur d’indexation.

Après, rappelons que robots.txt n’est en rien une obligation d’être respecté.

Certains l’affichent même de manière explicite, comme la BnF :

En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé robots.txt.

https://www.bnf.fr/fr/capture-de-votre-site-web-par-le-robot-de-la-bnf

Catégories

Nous Suivre

À propos

IA : un nombre croissant de sites web bloquent les robots d’indexation d’OpenAI

Commentaires (33)