Référencement IA : Google a délibérément choisi de forcer la main aux éditeurs

Google utilise un seul robot pour à la fois indexer le web et récupérer des données pour ses outils d'IA. Un document interne montre que c'est un choix délibéré. L'entreprise a hésité à laisser différentes options aux éditeurs, mais a opté pour n'en laisser aucune, sans rien dire publiquement.
Le 23 mai à 13h12
3 min
Droit
Droit
Pas le choix, si les éditeurs de sites web veulent être indexés par le moteur de recherche de Google, ils doivent autoriser de facto l'entreprise à moissonner leurs sites pour ses outils d'IA. On le savait déjà, mais un document interne montre que l'entreprise a volontairement exclu l'idée de donner le choix.
Bloomberg l'a découvert dans le dossier du procès sur l'abus de position de Google dans la recherche web.
Une ligne rouge : la séparation entre recherche sur le Web et entrainement des IA
Dans ce document [PDF], Google estime bien avoir six options pour la granularité du contrôle donné aux éditeurs, allant d'une réelle séparation entre indexation et entrainement à l'option extrême de ne proposer aucun contrôle. Le schéma inclus rejette pourtant directement la séparation claire derrière une « ligne rouge bloquante » :

Parmi ces options, Google a évoqué la possibilité d'un « opt-out SGE-only », qui aurait permis le refus de l'utilisation des données dans certaines fonctions d'IA générative de Google Search, sans pour autant être exclu du moteur de recherche lui-même.
Un choix délibéré de ne pas donner de nouveaux contrôles
Finalement, l'entreprise a choisi de ne pas donner « de nouveaux contrôles sur la recherche ». Dans ce document, une responsable gestion produits chez Google Search, Chetna Bindra, écrit noir sur blanc qu' « au minimum, notre position actuelle en matière de produits devrait être l'option 2 : faire ce que l'on dit, dire ce que l'on fait, mais prudemment ».
Google a décidé de « mettre à jour silencieusement » et « sans annonce publique » sur sa façon dont l'entreprise utilise les données des éditeurs de sites. Dans le document, Google indique clairement sa volonté de cacher les détails des différences entre l'entrainement de ses IA Gemini et de son système pour son moteur de recherche.
« Un peu accablant »
Devant le tribunal, Paul Bannister, responsable chez Raptive (une entreprise qui aide environ 5 000 éditeurs de sites à gagner de l’argent grâce à leurs contenus) a affirmé : « c'est un peu accablant », ajoutant que « cela montre clairement qu'ils savaient qu'il existait une série d'options et qu'ils ont choisi la plus conservatrice et la plus protectrice d'entre elles, à savoir celle qui n'offrait aucun contrôle aux éditeurs ».
Interrogée par The Verge, Google affirme que ce document était une première liste d'options envisagées alors que l'entreprise faisait évoluer sa recherche boostée par l'IA. Selon l'entreprise, il ne reflèterait pas les décisions prises finalement. « Les éditeurs ont toujours contrôlé la manière dont leur contenu est mis à la disposition de Google, car des modèles d'IA sont intégrés dans le moteur de recherche depuis de nombreuses années, ce qui permet de mettre en évidence les sites pertinents et de générer du trafic vers ces derniers », ajoute-t-elle.
Nos confrères de The Verge font remarquer que la documentation de Google indique que le paramètre nosnippet « s'applique à tous les types de résultats de recherche (sur Google : recherche sur le Web, Google Images, Discover, Aperçus IA, Mode IA) et empêche également l'utilisation du contenu en tant qu'entrée directe pour les Aperçus IA et le Mode IA ».
Référencement IA : Google a délibérément choisi de forcer la main aux éditeurs
-
Une ligne rouge : la séparation entre recherche sur le Web et entrainement des IA
-
Un choix délibéré de ne pas donner de nouveaux contrôles
-
« Un peu accablant »
Commentaires (26)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 23/05/2025 à 13h31
Modifié le 23/05/2025 à 13h53
Le 23/05/2025 à 13h51
Je suis prêt à "optimiser" mon site pour que ca arrive, c'est à dire envoyer mes données au robot de collecte.
Mais pas question d'envoyer mes données si Google les utilise pour autre chose que mettre mon site en haut des résultats. Question d'éthique.
Le 23/05/2025 à 14h37
Si Google utilise ce monopole pour forcer la main sur l'utilisation du contenu pour entrainer son IA, il y a un léger problème.
Si tu ne le comprends pas, pas la peine de nous faire du "ouin ouin".
Le 23/05/2025 à 14h57
Le 23/05/2025 à 19h15
En quoi ca pose un problème que les données collectées servent à deux choses (Ranking et Training) ?
Un problème économique ? (lequel)
Un problème contractuel ? (lequel)
Un problème légal ? (lequel)
Un problème moral ? (lequel)
autre ?
Le 23/05/2025 à 20h11
Un problème moral pour moi, car c'est la bourse ou la vie. Au moins Microsoft laisse le choix (cf. plus loin dans la discussion) c'est plus respectueux.
Pour le légal et le contractuel c'est à creuser.
Le 24/05/2025 à 00h12
Ça peut aussi être un problème économique dans l'UE où l'on peut refuser l'utilisation de données pour l'entraînement des IA et donc monnayer cet accès, aux USA, il faut attendre la jurisprudence ou une loi pour savoir si c'est aussi le cas.
Modifié le 24/05/2025 à 13h25
Comme vous l'avez dit, ces sites ont besoin de Google pour être découverts (via search).
Si demain 90% de la recherche d'information sur le web passe par le "Mode IA", est-ce que ces sites sont prêts à disparaitre ?
Le 24/05/2025 à 13h56
De bons petits parasites.
De toute façon ils le font à la mode américaine: on fonce, on se fout des autres et des dégâts collatéraux et si les Etats légifèrent on viendra gémir face caméra que c'est une atteinte à l'innovation.
Le 24/05/2025 à 16h14
N'en déplaise à vos grands idéaux, ces sites ne veulaient pas que Google disparaisse.
Non, ce qu'ils voulaient c'est que Google les rémunère.
Et c'est pareil avec les postures outragées de ses sites concernant l'IA.
La vraie raison c'est le pognon, le pognon et le pognon.
En terme de parasitage, ca en dit aussi long sur Google que sur ces sites.
On est davantage dans la symbiose.
Le 24/05/2025 à 17h25
Avec l'IA, c'est plus du "parasitage" : seul Google sera gagnant. Pire, les autres seront certainement perdant, avec du trafic en moins...
Le 24/05/2025 à 17h39
La seule exception c'est si ce site a un monopole exclusif sur un sujet/type de contenu. Mais c'est hyper rare. La plupart de l'information est dupliquée sur Internet, donc l'IA sera capable de répondre à la question posée.
Le 24/05/2025 à 18h55
Google, en choississant l'opt-out combiné avec son crawler web rend l'opération impossible.
Ce serait de l'opt-in (séparant le crawler web du crawler IA) :
- les sites le choisirait très certainement pour apparaitre dans l'index de Google
- très très peu de site choisirait le crawler IA (aucun avantage, juste celui d'avoir moins de visites d'utilisateur & d'avoir des "attaques" de crawler)
Qui plus est, le choix d'utiliser ou non l'IA pour faire ses recherches dépendra principalement d'une chose : la pertinence des réponses que l'IA apportera. Hors, une IA avec peu de données d'entrainement à de forte chance de ne pas y arriver.
Donc Google à véritablement tout intérêt à le faire. Mais aucun site n'a intérêt à ce que cela soit le cas. Et c'est même pire, puisque c'est à leur détriment. En bref, la définition même du parasitage.
Modifié le 25/05/2025 à 11h55
Oups... ca n'a pas marché. La faute à certains qui n'ont pas voulu s'unir. :(
Bref ce que vous voulez ce n'est pas que les sites aient le choix.
Ce que vous voulez c'est que tous les sites refusent.
Le 25/05/2025 à 12h10
Les créateurs de contenus (et là, j'emploie ce terme à très large échelle, incluant les journalistes, les blogueurs, etc. bref ceux qui font du contenu sous une forme ou une autre) vont voir leur travail piller, non seulement sans aucun retour, mais avec des externalités négatives.
A terme, on va donc avoir une perte de contenu de qualité, entre ceux qui vont tout simplement arrêter et ceux qui vont se baser sur l'IA pour réduire leur frais. Car oui, produire du contenu de qualité, cela peut demander beaucoup de temps et/ou d'argent.
Au final, dans quelques années, on rigolera (jaune, bien entendu), quand la plupart des médias (toujours au sens large) encore un tant soit peu indépendant auront disparu et qu'il ne restera plus rien... ou des sites GenIA.
Le 25/05/2025 à 12h40
Hélas, le temps législatif n'est pas le même que celui de la précipitation des entreprises de la Tech.
L'autre temps trop long, c'est le judiciaire où Google est manifestement en abus de position dominante. Cette boîte à droit de vie et de mort sur le Web depuis trop longtemps, hélas.
Le 26/05/2025 à 11h22
C'est ça ?
Le 24/05/2025 à 13h25
Le 23/05/2025 à 13h58
Le 23/05/2025 à 14h28
A noter que côté Bing il faut utiliser un tag meta ou un header pour (espérer) empêcher l'usage entraînement de modèles.
Source
Le 23/05/2025 à 14h33
Le 23/05/2025 à 15h30
Modifié le 23/05/2025 à 16h21
Sachant que dans l'UE nous avons aussi la DAMUN qui nous permet d'opt-out aussi et ouvre donc une base de contestation en cas de manquement.
Modifié le 23/05/2025 à 15h22
Modifié le 25/05/2025 à 01h24