Référencement IA : Google a délibérément choisi de forcer la main aux éditeurs

Martin Clavey

Le 23 mai 2025 à 13h12

Google utilise un seul robot pour à la fois indexer le web et récupérer des données pour ses outils d’IA. Un document interne montre que c’est un choix délibéré. L’entreprise a hésité à laisser différentes options aux éditeurs, mais a opté pour n’en laisser aucune, sans rien dire publiquement.

Référencement IA : Google a délibérément choisi de forcer la main aux éditeurs

Martin Clavey

Le 23 mai 2025 à 13h12

Droit

3 min

Pas le choix, si les éditeurs de sites web veulent être indexés par le moteur de recherche de Google, ils doivent autoriser de facto l’entreprise à moissonner leurs sites pour ses outils d’IA. On le savait déjà, mais un document interne montre que l’entreprise a volontairement exclu l’idée de donner le choix.

Bloomberg l’a découvert dans le dossier du procès sur l’abus de position de Google dans la recherche web.

Une ligne rouge : la séparation entre recherche sur le Web et entrainement des IA

Dans ce document [PDF], Google estime bien avoir six options pour la granularité du contrôle donné aux éditeurs, allant d’une réelle séparation entre indexation et entrainement à l’option extrême de ne proposer aucun contrôle. Le schéma inclus rejette pourtant directement la séparation claire derrière une « ligne rouge bloquante » :

Parmi ces options, Google a évoqué la possibilité d’un « opt-out SGE-only », qui aurait permis le refus de l’utilisation des données dans certaines fonctions d’IA générative de Google Search, sans pour autant être exclu du moteur de recherche lui-même.

Un choix délibéré de ne pas donner de nouveaux contrôles

Finalement, l’entreprise a choisi de ne pas donner « de nouveaux contrôles sur la recherche ». Dans ce document, une responsable gestion produits chez Google Search, Chetna Bindra, écrit noir sur blanc qu’ « au minimum, notre position actuelle en matière de produits devrait être l’option 2 : faire ce que l’on dit, dire ce que l’on fait, mais prudemment ».

Google a décidé de « mettre à jour silencieusement » et « sans annonce publique » sur sa façon dont l’entreprise utilise les données des éditeurs de sites. Dans le document, Google indique clairement sa volonté de cacher les détails des différences entre l’entrainement de ses IA Gemini et de son système pour son moteur de recherche.

« Un peu accablant »

Devant le tribunal, Paul Bannister, responsable chez Raptive (une entreprise qui aide environ 5 000 éditeurs de sites à gagner de l’argent grâce à leurs contenus) a affirmé : « c’est un peu accablant », ajoutant que « cela montre clairement qu’ils savaient qu’il existait une série d’options et qu’ils ont choisi la plus conservatrice et la plus protectrice d’entre elles, à savoir celle qui n’offrait aucun contrôle aux éditeurs ».

Interrogée par The Verge, Google affirme que ce document était une première liste d’options envisagées alors que l’entreprise faisait évoluer sa recherche boostée par l’IA. Selon l’entreprise, il ne reflèterait pas les décisions prises finalement. « Les éditeurs ont toujours contrôlé la manière dont leur contenu est mis à la disposition de Google, car des modèles d’IA sont intégrés dans le moteur de recherche depuis de nombreuses années, ce qui permet de mettre en évidence les sites pertinents et de générer du trafic vers ces derniers », ajoute-t-elle.

Nos confrères de The Verge font remarquer que la documentation de Google indique que le paramètre nosnippet « s’applique à tous les types de résultats de recherche (sur Google : recherche sur le Web, Google Images, Discover, Aperçus IA, Mode IA) et empêche également l’utilisation du contenu en tant qu’entrée directe pour les Aperçus IA et le Mode IA ».

Commentaires (26)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

iMaman Premium

Le 23/05/2025 à 13h31

Il est urgent de couper les têtes de l'Hydre !

127.0.0.1

Modifié le 23/05/2025 à 13h53

Je ne vois pas ce que ca changerait car le référencement (Mode IA ou pas) c'est "Google Search".

127.0.0.1

Le 23/05/2025 à 13h51

Ouin, Ouin... Je veux que Google Search affiche mon site tout en haut des résultats.
Je suis prêt à "optimiser" mon site pour que ca arrive, c'est à dire envoyer mes données au robot de collecte.

Mais pas question d'envoyer mes données si Google les utilise pour autre chose que mettre mon site en haut des résultats. Question d'éthique.

carbier Premium

Le 23/05/2025 à 14h37

Google c'est un moteur de recherche: porte d'entrée quasi obligatoire pour se faire connaitre.
Si Google utilise ce monopole pour forcer la main sur l'utilisation du contenu pour entrainer son IA, il y a un léger problème.

Si tu ne le comprends pas, pas la peine de nous faire du "ouin ouin".

iMaman Premium

Le 23/05/2025 à 14h57

Absolument d'accord !

127.0.0.1

Le 23/05/2025 à 19h15

Si Google utilise ce monopole pour forcer la main sur l'utilisation du contenu pour entrainer son IA, il y a un léger problème

Ah. un problème.
En quoi ca pose un problème que les données collectées servent à deux choses (Ranking et Training) ?

Un problème économique ? (lequel)
Un problème contractuel ? (lequel)
Un problème légal ? (lequel)
Un problème moral ? (lequel)
autre ?

iMaman Premium

Le 23/05/2025 à 20h11

Un problème économique c'est certain puisque les chatbots IA ne ramènent quasiment pas de trafic aux éditeurs de sites (cf. l'article de Next).

Un problème moral pour moi, car c'est la bourse ou la vie. Au moins Microsoft laisse le choix (cf. plus loin dans la discussion) c'est plus respectueux.

Pour le légal et le contractuel c'est à creuser.

fred42 Premium

Le 24/05/2025 à 00h12

C'est un problème d'abus de position dominante dans le domaine de la recherche web qui nuit à la concurrence dans le domaine de l'IA, les concurrents pouvant se faire refuser l'accès pour l’apprentissage alors que bloquer Google, c'est disparaître du Web.

Ça peut aussi être un problème économique dans l'UE où l'on peut refuser l'utilisation de données pour l'entraînement des IA et donc monnayer cet accès, aux USA, il faut attendre la jurisprudence ou une loi pour savoir si c'est aussi le cas.

127.0.0.1

Modifié le 24/05/2025 à 13h25

@iMaman , @fred42 .

Comme vous l'avez dit, ces sites ont besoin de Google pour être découverts (via search).

Si demain 90% de la recherche d'information sur le web passe par le "Mode IA", est-ce que ces sites sont prêts à disparaitre ?

carbier Premium

Le 24/05/2025 à 13h56

On en revient toujours aux mêmes "arguments" que pour Google News: Google ne produit RIEN, l'IA ne produit RIEN. Ils ne font qu'utiliser le travail des autres pour faire de l'argent.

De bons petits parasites.

De toute façon ils le font à la mode américaine: on fonce, on se fout des autres et des dégâts collatéraux et si les Etats légifèrent on viendra gémir face caméra que c'est une atteinte à l'innovation.

127.0.0.1

Le 24/05/2025 à 16h14

On en revient toujours aux mêmes "arguments" que pour Google News: Google ne produit RIEN, l'IA ne produit RIEN. Ils ne font qu'utiliser le travail des autres pour faire de l'argent.

Rappelons nous que quand Google News a dit qu'il arrêtait de référencer les sites qui n'étaient pas d'accord, ces mêmes sites ont tous crié que ce n'est pas ce qu'ils voulaient.

N'en déplaise à vos grands idéaux, ces sites ne veulaient pas que Google disparaisse.
Non, ce qu'ils voulaient c'est que Google les rémunère.
Et c'est pareil avec les postures outragées de ses sites concernant l'IA.

La vraie raison c'est le pognon, le pognon et le pognon.

En terme de parasitage, ca en dit aussi long sur Google que sur ces sites.
On est davantage dans la symbiose.

fdorin Premium

Le 24/05/2025 à 17h25

Je note malgré tout une énorme différence dans les deux cas : Google News, c'était "symbiotique", dans le sens où toutes les parties étaient gagnantes.

Avec l'IA, c'est plus du "parasitage" : seul Google sera gagnant. Pire, les autres seront certainement perdant, avec du trafic en moins...

127.0.0.1

Le 24/05/2025 à 17h39

Avec l'IA, c'est plus du "parasitage" : seul Google sera gagnant. Pire, les autres seront certainement perdant, avec du trafic en moins...

Il y aura du "trafic en moins" sur un site dés lors que le public utilisera les réponses de l'IA plutôt que d'aller visiter ce site. Et c'est indépendant du fait que ce site ait accepté/refusé que son contenu soit utilisé pour entrainer l'IA de Google.

La seule exception c'est si ce site a un monopole exclusif sur un sujet/type de contenu. Mais c'est hyper rare. La plupart de l'information est dupliquée sur Internet, donc l'IA sera capable de répondre à la question posée.

fdorin Premium

Le 24/05/2025 à 18h55

Et c'est indépendant du fait que ce site ait accepté/refusé que son contenu soit utilisé pour entrainer l'IA de Google.

C'est indépendant de la volonté d'un site, mais c'est dépendant de la volonté de l'ensemble des sites.

Google, en choississant l'opt-out combiné avec son crawler web rend l'opération impossible.

Ce serait de l'opt-in (séparant le crawler web du crawler IA) :

les sites le choisirait très certainement pour apparaitre dans l'index de Google

très très peu de site choisirait le crawler IA (aucun avantage, juste celui d'avoir moins de visites d'utilisateur & d'avoir des "attaques" de crawler)

Qui plus est, le choix d'utiliser ou non l'IA pour faire ses recherches dépendra principalement d'une chose : la pertinence des réponses que l'IA apportera. Hors, une IA avec peu de données d'entrainement à de forte chance de ne pas y arriver.

Donc Google à véritablement tout intérêt à le faire. Mais aucun site n'a intérêt à ce que cela soit le cas. Et c'est même pire, puisque c'est à leur détriment. En bref, la définition même du parasitage.

127.0.0.1

Modifié le 25/05/2025 à 11h55

C'est indépendant de la volonté d'un site, mais c'est dépendant de la volonté de l'ensemble des sites.

ok. Tous unis contre Google ! Tous unis contre Google ! Tous... Tous...
Oups... ca n'a pas marché. La faute à certains qui n'ont pas voulu s'unir. :(

Bref ce que vous voulez ce n'est pas que les sites aient le choix.

Ce que vous voulez c'est que tous les sites refusent.

fdorin Premium

Le 25/05/2025 à 12h10

Ce que vous voulez c'est que tous les sites refusent.

Absolument pas. Pour ma part, je ne suis pas pour que tous les sites refusent. Je suis pour que tout les sites refusent dans les conditions actuelles, à savoir se faire pomper leur contenu gratuitement avec, en contrepartie s'il n'accepte pas, un déréférencement (puisqu'il n'est pas possible de dissocier les deux). Ce n'est ni choix libre (au sens RGPD du terme) ni un choix juste (un seul gagnant, les autres perdants)

Les créateurs de contenus (et là, j'emploie ce terme à très large échelle, incluant les journalistes, les blogueurs, etc. bref ceux qui font du contenu sous une forme ou une autre) vont voir leur travail piller, non seulement sans aucun retour, mais avec des externalités négatives.

A terme, on va donc avoir une perte de contenu de qualité, entre ceux qui vont tout simplement arrêter et ceux qui vont se baser sur l'IA pour réduire leur frais. Car oui, produire du contenu de qualité, cela peut demander beaucoup de temps et/ou d'argent.

Au final, dans quelques années, on rigolera (jaune, bien entendu), quand la plupart des médias (toujours au sens large) encore un tant soit peu indépendant auront disparu et qu'il ne restera plus rien... ou des sites GenIA.

SebGF Premium

Le 25/05/2025 à 12h40

Un droit voisin similaire à celui de la presse va finir par arriver. Il faut simplement espérer que ce ne soit pas trop tard.

Hélas, le temps législatif n'est pas le même que celui de la précipitation des entreprises de la Tech.

L'autre temps trop long, c'est le judiciaire où Google est manifestement en abus de position dominante. Cette boîte à droit de vie et de mort sur le Web depuis trop longtemps, hélas.

127.0.0.1

Le 26/05/2025 à 11h22

Je suis pour que tout les sites refusent dans les conditions actuelles, à savoir se faire pomper leur contenu gratuitement avec, en contrepartie s'il n'accepte pas, un déréférencement (puisqu'il n'est pas possible de dissocier les deux).

Je comprends que tu veux que tous les sites refusent l'intégralité de "Google Search" tant qu'ils ne peuvent pas choisir plus finement entre "Ranking" et "AI Training".

C'est ça ?

carbier Premium

Le 24/05/2025 à 13h25

Il n'y pas plus aveugle que celui qui ne veut pas voir...

Aqua Premium

Le 23/05/2025 à 13h58

Tous, là, me font penser au monstre que devient Tetsuo à la fin d'Akira. Une masse informe entièrement dédiée à bouffer le monde.

SebGF Premium

Le 23/05/2025 à 14h28

Aucune surprise.

A noter que côté Bing il faut utiliser un tag meta ou un header pour (espérer) empêcher l'usage entraînement de modèles.

Source

iMaman Premium

Le 23/05/2025 à 14h33

C'est beaucoup plus fair-play.

Gilbert_Gosseyn Premium

Le 23/05/2025 à 15h30

Duckduckgo (qui utilise le moteur de Bing soit dit en passant) est encore propre à ce niveau. Je ne peux donc que les recommander.

SebGF Premium

Modifié le 23/05/2025 à 16h21

Utiliser DuckDukcGo n'empêchera pas Bing d'indexer et utiliser ce contenu pour permettre à Microsoft d'entraîner ses modèles de fondation. Là je partageais le moyen d'opt-out pour Bing.

Sachant que dans l'UE nous avons aussi la DAMUN qui nous permet d'opt-out aussi et ouvre donc une base de contestation en cas de manquement.

eliumnick

Modifié le 23/05/2025 à 15h22

« Les éditeurs ont toujours contrôlé la manière dont leur contenu est mis à la disposition de Google, car des modèles d'IA sont intégrés dans le moteur de recherche depuis de nombreuses années, ce qui permet de mettre en évidence les sites pertinents et de générer du trafic vers ces derniers », ajoute-t-elle.

Ca doit être pour ca que google search est devenu aussi mauvais au fil du temps...

Trapklap Premium

Modifié le 25/05/2025 à 01h24

On dirait même qu'il a une affinité pour proposer en résultat des sites générants eux même leurs contenus par IA, la boucle est bouclée.