[Màj] Une vaste fuite met en lumière le fonctionnement de la recherche Google

Plic, ploc

18

Mise à jour du 30 mai 2024 à 8h00 : Google a confirmé auprès de The Verge l’authenticité des 2 500 documents obtenus par Rand Fishkin. « Nous mettons en garde contre les hypothèses inexactes sur la recherche basées sur des informations hors contexte, obsolètes ou incomplètes », a cependant ajouté un porte-parole. « Nous avons partagé de nombreuses informations sur le fonctionnement de la recherche et les types de facteurs que nos systèmes prennent en compte, tout en nous efforçant de protéger l'intégrité de nos résultats contre les manipulations »

Article original du 29 mai :

2 500 pages de documentation auraient atterri entre les mains d’un spécialiste du SEO, Rand Fishkin. On y trouve de nombreuses informations sur le fonctionnement du moteur de recherche, dont les données utilisées pour l’ordre des résultats et la possible utilisation des informations recueillies dans Chrome.

Comprendre comment fonctionne la recherche Google, c’est savoir comment pousser son site et passer devant les autres. Le moteur de recherche, qui servait initialement d’annuaire, est vite devenu le mètre-étalon de la visibilité. « C’est tout un art », pourrait-on dire. Au point que savoir référencer correctement un site sur Google est devenu depuis longtemps un métier à part entière. Il n’y a pas d’obligation, seulement un lot de règles pour « optimiser » la visibilité.

Mais aux côtés de ces recommandations, il existerait tout un lot de règles obscures, non publiques et régulièrement niées par Google. C’est ce qui ressort des renseignements publiés par Rand Fishkin, qui dit avoir reçu d’une source, le 5 mai, 2 500 pages de documents. Leur véracité aurait été assurée par d’anciens employés de Google, qui n’ont pas non plus été nommés. L’ensemble reste donc à prendre avec des pincettes.

Navboost dans la ligne de mire

Une partie des informations publiées par Fishkin ont trait à Navboost. Cet algorithme a été révélé durant le procès antitrust de Google en fin d’année dernière, comme le racontait notamment Julien Gourdon en mars. L’objectif de Navboost est de renforcer la qualité des résultats en intégrant les données d’utilisation des internautes. Tout ce qui est fait sur les pages – clics, temps passé sur chaque page, requêtes saisies… – est ainsi comptabilisé pour rendre compte de la qualité d’un site.

Selon la « fuite », la création de Navboost et la volonté de récolter des informations sur le parcours de navigation auraient été les principales motivations à la création de Chrome. Ce dernier permettrait à Google de savoir précisément où et quand un internaute clique sur les différentes parties d’un site. Ce serait particulièrement le cas avec les liens internes dans les pages, dont le nombre d’utilisations alimenterait la popularité et donc le classement des sites dans les résultats.

Navboost examinerait d’autres aspects, le contexte de l’action, par exemple quand les actions sont des clics sur des images et des vidéos. Les clics et l’engagement pendant et après la requête principale seraient également pris en compte. Par exemple, quand on effectue une recherche et qu’on la modifie, les résultats n’offrant pas satisfaction.

Toujours selon les documents, Navboost tiendrait compte de l’emplacement géographique et de l’utilisation d’un appareil mobile ou d’un ordinateur, ce qui n’a rien d’étonnant. Il distinguerait aussi les clics longs des clics courts, c’est-à-dire du temps passé sur la page que l’on vient d’ouvrir via un clic.

Comportements divers et variés

Les documents indiquent que Google disposerait de trois niveaux de qualité pour son index de liens, pour lequel les données des clics seraient particulièrement précieuses. Google créerait en outre des listes blanches dans certains contextes sensibles, dont les élections, les autorités sanitaires locales pendant la pandémie de Covid-19 ou encore les sites de voyages.

L'E-E-A-T, en revanche, ne compterait pas autant qu’imaginé. L’expertise apparait ainsi une fois dans les documents, mais pas les autres éléments. Google se servirait bien des Quality Raters dans son système de recherche, l’entreprise disposant a priori d’une plateforme d’évaluation de la qualité, nommée EWOK.

Les documents pointent en outre que Google serait capable de reconnaître les auteurs des contenus, alors traités comme des entités à part entière. La visibilité d’une personne influencerait donc directement celle de ses publications.

On note d’autres éléments intéressants, notamment l’importance des liens. Les documents évoquent par exemple de nombreux facteurs pour rendre compte de l’importance des liens dans une page : niveau d’indexation des pages sources, pics de spams, examen des 20 dernières versions des liens, PageRank et note de confiance de la page d’accueil ou encore taille de la police.

Google ne répond pas

Sans surprise, Google n’a souhaité répondre jusqu’à présent à aucune demande de réaction, dont celle de The Verge.

Aucun de ces documents ne constitue en l’état une preuve. La source semble crédible, mais Google n’en dit rien pour l’instant. La situation de l’entreprise pourrait être délicate : si les informations sont exactes, il ne fait aucun doute que de nombreux experts du référencement vont se lancer dans des tests. Les résultats obtenus, dans les jours et semaines qui suivront, pourraient confirmer indirectement les informations publiées par Rand Fishkin.

Le timing de la fuite est également intéressant. Google est la cible de nombreuses critiques suite à l’intégration de la fonction AI Overview dans ses résultats. Il semble aisé de faire dire des énormités à ces résumés générés par IA, alors même que des accusations récurrentes de baisse de qualité ciblent le moteur de recherche.

Commentaires (18)


En lisant ceci :
Selon la « fuite », la création de Navboost et la volonté de récolter des informations sur le parcours de navigation auraient été les principales motivations à la création de Chrome. Ce dernier permettrait à Google de savoir précisément où et quand un internaute clique sur les différentes parties d’un site. Ce serait particulièrement le cas avec les liens internes dans les pages, dont le nombre d’utilisations alimenterait la popularité et donc le classement des sites dans les résultats.


Rien de surprenant en soi, juste une confirmaton "officielle" de ce que l'on soupçonnait déjà.
"Ce serait particulièrement le cas avec les liens internes dans les pages, dont le nombre d’utilisations alimenterait la popularité et donc le classement des sites dans les résultats."

Rien de nouveau, non ? Ça s'appelle le page-rank, ou je me trompe ?

serpolet

"Ce serait particulièrement le cas avec les liens internes dans les pages, dont le nombre d’utilisations alimenterait la popularité et donc le classement des sites dans les résultats."

Rien de nouveau, non ? Ça s'appelle le page-rank, ou je me trompe ?
Eh non justement : le page rank prend avant tout en compte les lien externe et surtout les lien d'autre site vers le site évalué (plus on pointe vers toi, plus tu es important... d'où la tendance à créer des faux site qui pointe vers toi à une époque et de nouveau maintenant avec des site générés à la volé par IA).

Alors qu'ici on parle de lien interne (pas ou peu pris en compte par Page Rank) et on ne parle pas de leur structure mais de leur utilisation : si ils sont beaucoup utilisé ou pas (c'est là que les données fournie par Chrome rentre en jeu). Plus les lien interne sont utilisés, plus la page est considérée comme "active" et ça permet aussi de renvoyer préférentiellement vers telle ou telle partie du site.

pymaldebaran

Eh non justement : le page rank prend avant tout en compte les lien externe et surtout les lien d'autre site vers le site évalué (plus on pointe vers toi, plus tu es important... d'où la tendance à créer des faux site qui pointe vers toi à une époque et de nouveau maintenant avec des site générés à la volé par IA).

Alors qu'ici on parle de lien interne (pas ou peu pris en compte par Page Rank) et on ne parle pas de leur structure mais de leur utilisation : si ils sont beaucoup utilisé ou pas (c'est là que les données fournie par Chrome rentre en jeu). Plus les lien interne sont utilisés, plus la page est considérée comme "active" et ça permet aussi de renvoyer préférentiellement vers telle ou telle partie du site.
Merci pour la précision ! 👌
Je sais pas si ça aura un grand impact dans les pratiques SEO (domaine dans lequel il est déjà plus ou moins admis que le clic et donc la qualité de l'audience a un effet sur les positions dans la SERP), mais par contre ça confirme s'il en était besoin que Google a pratiqué un enfumage à grande échelle sur Navboost et Chrome pendant des années :D
Modifié le 29/05/2024 à 11h31

Historique des modifications :

Posté le 29/05/2024 à 11h31


Je sais pas si ça aura un grand impact dans les pratiques SEO (domaine dans lequel il est déjà plus ou moins admis que le clic et donc la qualité de l'audience) a un effet sur les positions dans la SERP, mais par contre ça confirme s'il en était besoin que Google a pratiqué un enfumage à grande échelle sur Navboost et Chrome pendant des années :D

Je pense que ayant des données bien précise, ça va surtout permettre d'industrialiser/automatiser le SEO (en particulier pour les faux site généré par IA qui sont friand de ce type d'info) qui va encore pourrir la qualité des résultat favorisant les contenu "poussé" par rapport aux contenus utiles

pymaldebaran

Je pense que ayant des données bien précise, ça va surtout permettre d'industrialiser/automatiser le SEO (en particulier pour les faux site généré par IA qui sont friand de ce type d'info) qui va encore pourrir la qualité des résultat favorisant les contenu "poussé" par rapport aux contenus utiles
Est-ce qu'on peut alors espérer que la partie E-A-T aura alors plus de poids ? ^^'

potn

Est-ce qu'on peut alors espérer que la partie E-A-T aura alors plus de poids ? ^^'
Bah c'est pas pour rien que Google lui donne peu de poids : c'est ultra difficile à évaluer... on peut facilement fabriquer très truc écrire "comme" des articles respectables (IA mon amour génère moi de l'article de presse dans le style du Monde stp ! Oui chérie tout de suite !), pour la notion d'autorité là c'est le problème de la reconnaissance de telle ou telle autorité qui est nécessairement politique et très facile à biaiser et la thrustworthicess alors là c'est le jeu n°1 des SEO de pourrir ça. Donc on est purement dans une partie ou Google doit lutter contre des force qui vont elle pousser dans le mauvais sens pour leur intérêt. C'est la situation typique que Google déteste : il faut se placer politiquement (ça fait des ennemis), il faut participer à une escalade technologique contre des gens qui cherche à tout tromper (IA, SEO) et en plus c'est quasi invisible.

Le tout sur fond de recherche en IA (car il va falloir investir à mort pour détecter les contenu généré par IA pour les flagger) domaine où Google est à la traine face à ses concurents et donc ne va pas mettre ses sous dans cette sous catégorie de l'IA.

Bref c'est la merde technologiquement, politiquement et stratégiquement...

Donc faut pas espérer une remontée massive des critères EAT selon moi

pymaldebaran

Bah c'est pas pour rien que Google lui donne peu de poids : c'est ultra difficile à évaluer... on peut facilement fabriquer très truc écrire "comme" des articles respectables (IA mon amour génère moi de l'article de presse dans le style du Monde stp ! Oui chérie tout de suite !), pour la notion d'autorité là c'est le problème de la reconnaissance de telle ou telle autorité qui est nécessairement politique et très facile à biaiser et la thrustworthicess alors là c'est le jeu n°1 des SEO de pourrir ça. Donc on est purement dans une partie ou Google doit lutter contre des force qui vont elle pousser dans le mauvais sens pour leur intérêt. C'est la situation typique que Google déteste : il faut se placer politiquement (ça fait des ennemis), il faut participer à une escalade technologique contre des gens qui cherche à tout tromper (IA, SEO) et en plus c'est quasi invisible.

Le tout sur fond de recherche en IA (car il va falloir investir à mort pour détecter les contenu généré par IA pour les flagger) domaine où Google est à la traine face à ses concurents et donc ne va pas mettre ses sous dans cette sous catégorie de l'IA.

Bref c'est la merde technologiquement, politiquement et stratégiquement...

Donc faut pas espérer une remontée massive des critères EAT selon moi
Merci pour la précision ! :inpactitude:
👀
La bête immonde à poil ?
Modifié le 29/05/2024 à 13h18

Historique des modifications :

Posté le 29/05/2024 à 13h18


L bête immonde à poil ?

Google est notre amis non? :D
Non. :8

Jon Joe

Non. :8
Google est triste ^^

Jon Joe

Non. :8
Mais si, mais si, et il est même comme Harry, un ami qui nous veut du bien.
bonjour, pourquoi NXI n'étudie pas les enquetes sur google?
https://www.wheresyoured.at/the-men-who-killed-google/
https://www.arretsurimages.net/chroniques/clic-gauche/apocalypse-google
Selon la « fuite », la création de Navboost et la volonté de récolter des informations sur le parcours de navigation auraient été les principales motivations à la création de Chrome. Ce dernier permettrait à Google de savoir précisément où et quand un internaute clique sur les différentes parties d’un site.


La volonté d'espionner le comportement des utilisateurs du navigateur était donc bien une fonctionnalité cœur, et non un risque (que toute personne s'intéressant au sujet savait réalisé avec une forte probabilité).

Et la flemmardise intellectuelle de la populace a rendu ce navigateur premier, et loin devant, en termes de parts d'utilisation.

From:
Don't be evil.


via:
Don't be Google.


to:
Don't interact Google, even with a hazmat suit.
Modifié le 30/05/2024 à 14h02

Historique des modifications :

Posté le 30/05/2024 à 13h57


From:

Don't be evil.


to:
Don't be Google.

Posté le 30/05/2024 à 13h59


Selon la « fuite », la création de Navboost et la volonté de récolter des informations sur le parcours de navigation auraient été les principales motivations à la création de Chrome. Ce dernier permettrait à Google de savoir précisément où et quand un internaute clique sur les différentes parties d’un site.


La volonté d'espionner le comportement des utilisateurs du navigateur était donc une fonctionnalité cœur, et non un risque (que toute personne s'intéressant au sujet savait réalisé avec une forte probabilité).

From:
Don't be evil.


to:
Don't be Google.

Posté le 30/05/2024 à 13h59


Selon la « fuite », la création de Navboost et la volonté de récolter des informations sur le parcours de navigation auraient été les principales motivations à la création de Chrome. Ce dernier permettrait à Google de savoir précisément où et quand un internaute clique sur les différentes parties d’un site.


La volonté d'espionner le comportement des utilisateurs du navigateur était donc bien une fonctionnalité cœur, et non un risque (que toute personne s'intéressant au sujet savait réalisé avec une forte probabilité).

From:
Don't be evil.


to:
Don't be Google.

Posté le 30/05/2024 à 14h00


Selon la « fuite », la création de Navboost et la volonté de récolter des informations sur le parcours de navigation auraient été les principales motivations à la création de Chrome. Ce dernier permettrait à Google de savoir précisément où et quand un internaute clique sur les différentes parties d’un site.


La volonté d'espionner le comportement des utilisateurs du navigateur était donc bien une fonctionnalité cœur, et non un risque (que toute personne s'intéressant au sujet savait réalisé avec une forte probabilité).

Et la flemmardise intellectuelle de la populace a rendu ce navigateur premier, et loin devant, en termes de parts d'utilisation.

From:
Don't be evil.


to:
Don't be Google.

Posté le 30/05/2024 à 14h00


Selon la « fuite », la création de Navboost et la volonté de récolter des informations sur le parcours de navigation auraient été les principales motivations à la création de Chrome. Ce dernier permettrait à Google de savoir précisément où et quand un internaute clique sur les différentes parties d’un site.


La volonté d'espionner le comportement des utilisateurs du navigateur était donc bien une fonctionnalité cœur, et non un risque (que toute personne s'intéressant au sujet savait réalisé avec une forte probabilité).

Et la flemmardise intellectuelle de la populace a rendu ce navigateur premier, et loin devant, en termes de parts d'utilisation.

From:
Don't be evil.


via:
Don't be Google.


to:
Don't use Google.

Google recherche autant sur ces utilisateurs qu'il ne fournit des résultats de recherche
Fermer