Connexion
Abonnez-vous

Référencement IA : Google a délibérément choisi de forcer la main aux éditeurs

Référencement IA : Google a délibérément choisi de forcer la main aux éditeurs

Google utilise un seul robot pour à la fois indexer le web et récupérer des données pour ses outils d'IA. Un document interne montre que c'est un choix délibéré. L'entreprise a hésité à laisser différentes options aux éditeurs, mais a opté pour n'en laisser aucune, sans rien dire publiquement.

Le 23 mai à 13h12

Pas le choix, si les éditeurs de sites web veulent être indexés par le moteur de recherche de Google, ils doivent autoriser de facto l'entreprise à moissonner leurs sites pour ses outils d'IA. On le savait déjà, mais un document interne montre que l'entreprise a volontairement exclu l'idée de donner le choix.

Bloomberg l'a découvert dans le dossier du procès sur l'abus de position de Google dans la recherche web.

Une ligne rouge : la séparation entre recherche sur le Web et entrainement des IA

Dans ce document [PDF], Google estime bien avoir six options pour la granularité du contrôle donné aux éditeurs, allant d'une réelle séparation entre indexation et entrainement à l'option extrême de ne proposer aucun contrôle. Le schéma inclus rejette pourtant directement la séparation claire derrière une « ligne rouge bloquante » :

Parmi ces options, Google a évoqué la possibilité d'un « opt-out SGE-only », qui aurait permis le refus de l'utilisation des données dans certaines fonctions d'IA générative de Google Search, sans pour autant être exclu du moteur de recherche lui-même.

Un choix délibéré de ne pas donner de nouveaux contrôles

Finalement, l'entreprise a choisi de ne pas donner « de nouveaux contrôles sur la recherche ». Dans ce document, une responsable gestion produits chez Google Search, Chetna Bindra, écrit noir sur blanc qu' « au minimum, notre position actuelle en matière de produits devrait être l'option 2 : faire ce que l'on dit, dire ce que l'on fait, mais prudemment ».

Google a décidé de « mettre à jour silencieusement » et « sans annonce publique » sur sa façon dont l'entreprise utilise les données des éditeurs de sites. Dans le document, Google indique clairement sa volonté de cacher les détails des différences entre l'entrainement de ses IA Gemini et de son système pour son moteur de recherche.

« Un peu accablant »

Devant le tribunal, Paul Bannister, responsable chez Raptive (une entreprise qui aide environ 5 000 éditeurs de sites à gagner de l’argent grâce à leurs contenus) a affirmé : « c'est un peu accablant », ajoutant que « cela montre clairement qu'ils savaient qu'il existait une série d'options et qu'ils ont choisi la plus conservatrice et la plus protectrice d'entre elles, à savoir celle qui n'offrait aucun contrôle aux éditeurs ».

Interrogée par The Verge, Google affirme que ce document était une première liste d'options envisagées alors que l'entreprise faisait évoluer sa recherche boostée par l'IA. Selon l'entreprise, il ne reflèterait pas les décisions prises finalement. « Les éditeurs ont toujours contrôlé la manière dont leur contenu est mis à la disposition de Google, car des modèles d'IA sont intégrés dans le moteur de recherche depuis de nombreuses années, ce qui permet de mettre en évidence les sites pertinents et de générer du trafic vers ces derniers », ajoute-t-elle.

Nos confrères de The Verge font remarquer que la documentation de Google indique que le paramètre nosnippet « s'applique à tous les types de résultats de recherche (sur Google : recherche sur le Web, Google Images, Discover, Aperçus IA, Mode IA) et empêche également l'utilisation du contenu en tant qu'entrée directe pour les Aperçus IA et le Mode IA ».

Commentaires (26)

votre avatar
Il est urgent de couper les têtes de l'Hydre !
votre avatar
Je ne vois pas ce que ca changerait car le référencement (Mode IA ou pas) c'est "Google Search".
votre avatar
Ouin, Ouin... Je veux que Google Search affiche mon site tout en haut des résultats.
Je suis prêt à "optimiser" mon site pour que ca arrive, c'est à dire envoyer mes données au robot de collecte.

Mais pas question d'envoyer mes données si Google les utilise pour autre chose que mettre mon site en haut des résultats. Question d'éthique. :D
votre avatar
Google c'est un moteur de recherche: porte d'entrée quasi obligatoire pour se faire connaitre.
Si Google utilise ce monopole pour forcer la main sur l'utilisation du contenu pour entrainer son IA, il y a un léger problème.

Si tu ne le comprends pas, pas la peine de nous faire du "ouin ouin".
votre avatar
Absolument d'accord !
votre avatar
Si Google utilise ce monopole pour forcer la main sur l'utilisation du contenu pour entrainer son IA, il y a un léger problème
Ah. un problème.
En quoi ca pose un problème que les données collectées servent à deux choses (Ranking et Training) ?

Un problème économique ? (lequel)
Un problème contractuel ? (lequel)
Un problème légal ? (lequel)
Un problème moral ? (lequel)
autre ?
votre avatar
Un problème économique c'est certain puisque les chatbots IA ne ramènent quasiment pas de trafic aux éditeurs de sites (cf. l'article de Next).

Un problème moral pour moi, car c'est la bourse ou la vie. Au moins Microsoft laisse le choix (cf. plus loin dans la discussion) c'est plus respectueux.

Pour le légal et le contractuel c'est à creuser.
votre avatar
C'est un problème d'abus de position dominante dans le domaine de la recherche web qui nuit à la concurrence dans le domaine de l'IA, les concurrents pouvant se faire refuser l'accès pour l’apprentissage alors que bloquer Google, c'est disparaître du Web.

Ça peut aussi être un problème économique dans l'UE où l'on peut refuser l'utilisation de données pour l'entraînement des IA et donc monnayer cet accès, aux USA, il faut attendre la jurisprudence ou une loi pour savoir si c'est aussi le cas.
votre avatar
@iMaman , @fred42 .

Comme vous l'avez dit, ces sites ont besoin de Google pour être découverts (via search).

Si demain 90% de la recherche d'information sur le web passe par le "Mode IA", est-ce que ces sites sont prêts à disparaitre ?
votre avatar
On en revient toujours aux mêmes "arguments" que pour Google News: Google ne produit RIEN, l'IA ne produit RIEN. Ils ne font qu'utiliser le travail des autres pour faire de l'argent.

De bons petits parasites.

De toute façon ils le font à la mode américaine: on fonce, on se fout des autres et des dégâts collatéraux et si les Etats légifèrent on viendra gémir face caméra que c'est une atteinte à l'innovation.
votre avatar
On en revient toujours aux mêmes "arguments" que pour Google News: Google ne produit RIEN, l'IA ne produit RIEN. Ils ne font qu'utiliser le travail des autres pour faire de l'argent.
Rappelons nous que quand Google News a dit qu'il arrêtait de référencer les sites qui n'étaient pas d'accord, ces mêmes sites ont tous crié que ce n'est pas ce qu'ils voulaient.

N'en déplaise à vos grands idéaux, ces sites ne veulaient pas que Google disparaisse.
Non, ce qu'ils voulaient c'est que Google les rémunère.
Et c'est pareil avec les postures outragées de ses sites concernant l'IA.

La vraie raison c'est le pognon, le pognon et le pognon.

En terme de parasitage, ca en dit aussi long sur Google que sur ces sites.
On est davantage dans la symbiose.
votre avatar
Je note malgré tout une énorme différence dans les deux cas : Google News, c'était "symbiotique", dans le sens où toutes les parties étaient gagnantes.

Avec l'IA, c'est plus du "parasitage" : seul Google sera gagnant. Pire, les autres seront certainement perdant, avec du trafic en moins...
votre avatar
Avec l'IA, c'est plus du "parasitage" : seul Google sera gagnant. Pire, les autres seront certainement perdant, avec du trafic en moins...
Il y aura du "trafic en moins" sur un site dés lors que le public utilisera les réponses de l'IA plutôt que d'aller visiter ce site. Et c'est indépendant du fait que ce site ait accepté/refusé que son contenu soit utilisé pour entrainer l'IA de Google.

La seule exception c'est si ce site a un monopole exclusif sur un sujet/type de contenu. Mais c'est hyper rare. La plupart de l'information est dupliquée sur Internet, donc l'IA sera capable de répondre à la question posée.
votre avatar
Et c'est indépendant du fait que ce site ait accepté/refusé que son contenu soit utilisé pour entrainer l'IA de Google.
C'est indépendant de la volonté d'un site, mais c'est dépendant de la volonté de l'ensemble des sites.

Google, en choississant l'opt-out combiné avec son crawler web rend l'opération impossible.

Ce serait de l'opt-in (séparant le crawler web du crawler IA) :
- les sites le choisirait très certainement pour apparaitre dans l'index de Google
- très très peu de site choisirait le crawler IA (aucun avantage, juste celui d'avoir moins de visites d'utilisateur & d'avoir des "attaques" de crawler)

Qui plus est, le choix d'utiliser ou non l'IA pour faire ses recherches dépendra principalement d'une chose : la pertinence des réponses que l'IA apportera. Hors, une IA avec peu de données d'entrainement à de forte chance de ne pas y arriver.

Donc Google à véritablement tout intérêt à le faire. Mais aucun site n'a intérêt à ce que cela soit le cas. Et c'est même pire, puisque c'est à leur détriment. En bref, la définition même du parasitage.
votre avatar
C'est indépendant de la volonté d'un site, mais c'est dépendant de la volonté de l'ensemble des sites.
ok. Tous unis contre Google ! Tous unis contre Google ! Tous... Tous...
Oups... ca n'a pas marché. La faute à certains qui n'ont pas voulu s'unir. :(

Bref ce que vous voulez ce n'est pas que les sites aient le choix. :non:
Ce que vous voulez c'est que tous les sites refusent. :ouioui:
votre avatar
Ce que vous voulez c'est que tous les sites refusent. :ouioui:
Absolument pas. Pour ma part, je ne suis pas pour que tous les sites refusent. Je suis pour que tout les sites refusent dans les conditions actuelles, à savoir se faire pomper leur contenu gratuitement avec, en contrepartie s'il n'accepte pas, un déréférencement (puisqu'il n'est pas possible de dissocier les deux). Ce n'est ni choix libre (au sens RGPD du terme) ni un choix juste (un seul gagnant, les autres perdants)

Les créateurs de contenus (et là, j'emploie ce terme à très large échelle, incluant les journalistes, les blogueurs, etc. bref ceux qui font du contenu sous une forme ou une autre) vont voir leur travail piller, non seulement sans aucun retour, mais avec des externalités négatives.

A terme, on va donc avoir une perte de contenu de qualité, entre ceux qui vont tout simplement arrêter et ceux qui vont se baser sur l'IA pour réduire leur frais. Car oui, produire du contenu de qualité, cela peut demander beaucoup de temps et/ou d'argent.

Au final, dans quelques années, on rigolera (jaune, bien entendu), quand la plupart des médias (toujours au sens large) encore un tant soit peu indépendant auront disparu et qu'il ne restera plus rien... ou des sites GenIA.
votre avatar
Un droit voisin similaire à celui de la presse va finir par arriver. Il faut simplement espérer que ce ne soit pas trop tard.

Hélas, le temps législatif n'est pas le même que celui de la précipitation des entreprises de la Tech.

L'autre temps trop long, c'est le judiciaire où Google est manifestement en abus de position dominante. Cette boîte à droit de vie et de mort sur le Web depuis trop longtemps, hélas.
votre avatar
Je suis pour que tout les sites refusent dans les conditions actuelles, à savoir se faire pomper leur contenu gratuitement avec, en contrepartie s'il n'accepte pas, un déréférencement (puisqu'il n'est pas possible de dissocier les deux).
Je comprends que tu veux que tous les sites refusent l'intégralité de "Google Search" tant qu'ils ne peuvent pas choisir plus finement entre "Ranking" et "AI Training".

C'est ça ?
votre avatar
Il n'y pas plus aveugle que celui qui ne veut pas voir...
votre avatar
Tous, là, me font penser au monstre que devient Tetsuo à la fin d'Akira. Une masse informe entièrement dédiée à bouffer le monde.
votre avatar
Aucune surprise.

A noter que côté Bing il faut utiliser un tag meta ou un header pour (espérer) empêcher l'usage entraînement de modèles.

Source
votre avatar
C'est beaucoup plus fair-play.
votre avatar
Duckduckgo (qui utilise le moteur de Bing soit dit en passant) est encore propre à ce niveau. Je ne peux donc que les recommander.
votre avatar
Utiliser DuckDukcGo n'empêchera pas Bing d'indexer et utiliser ce contenu pour permettre à Microsoft d'entraîner ses modèles de fondation. Là je partageais le moyen d'opt-out pour Bing.

Sachant que dans l'UE nous avons aussi la DAMUN qui nous permet d'opt-out aussi et ouvre donc une base de contestation en cas de manquement.
votre avatar
« Les éditeurs ont toujours contrôlé la manière dont leur contenu est mis à la disposition de Google, car des modèles d'IA sont intégrés dans le moteur de recherche depuis de nombreuses années, ce qui permet de mettre en évidence les sites pertinents et de générer du trafic vers ces derniers », ajoute-t-elle.
Ca doit être pour ca que google search est devenu aussi mauvais au fil du temps...
votre avatar
On dirait même qu'il a une affinité pour proposer en résultat des sites générants eux même leurs contenus par IA, la boucle est bouclée.

Référencement IA : Google a délibérément choisi de forcer la main aux éditeurs

  • Une ligne rouge : la séparation entre recherche sur le Web et entrainement des IA

  • Un choix délibéré de ne pas donner de nouveaux contrôles

  • « Un peu accablant »

Fermer