[Màj] Une vaste fuite met en lumière le fonctionnement de la recherche Google
Plic, ploc
Mise à jour du 30 mai 2024 à 8h00 : Google a confirmé auprès de The Verge l’authenticité des 2 500 documents obtenus par Rand Fishkin. « Nous mettons en garde contre les hypothèses inexactes sur la recherche basées sur des informations hors contexte, obsolètes ou incomplètes », a cependant ajouté un porte-parole. « Nous avons partagé de nombreuses informations sur le fonctionnement de la recherche et les types de facteurs que nos systèmes prennent en compte, tout en nous efforçant de protéger l'intégrité de nos résultats contre les manipulations »
Le 29 mai à 10h40
6 min
Internet
Internet
Article original du 29 mai :
2 500 pages de documentation auraient atterri entre les mains d’un spécialiste du SEO, Rand Fishkin. On y trouve de nombreuses informations sur le fonctionnement du moteur de recherche, dont les données utilisées pour l’ordre des résultats et la possible utilisation des informations recueillies dans Chrome.
Comprendre comment fonctionne la recherche Google, c’est savoir comment pousser son site et passer devant les autres. Le moteur de recherche, qui servait initialement d’annuaire, est vite devenu le mètre-étalon de la visibilité. « C’est tout un art », pourrait-on dire. Au point que savoir référencer correctement un site sur Google est devenu depuis longtemps un métier à part entière. Il n’y a pas d’obligation, seulement un lot de règles pour « optimiser » la visibilité.
Mais aux côtés de ces recommandations, il existerait tout un lot de règles obscures, non publiques et régulièrement niées par Google. C’est ce qui ressort des renseignements publiés par Rand Fishkin, qui dit avoir reçu d’une source, le 5 mai, 2 500 pages de documents. Leur véracité aurait été assurée par d’anciens employés de Google, qui n’ont pas non plus été nommés. L’ensemble reste donc à prendre avec des pincettes.
Navboost dans la ligne de mire
Une partie des informations publiées par Fishkin ont trait à Navboost. Cet algorithme a été révélé durant le procès antitrust de Google en fin d’année dernière, comme le racontait notamment Julien Gourdon en mars. L’objectif de Navboost est de renforcer la qualité des résultats en intégrant les données d’utilisation des internautes. Tout ce qui est fait sur les pages – clics, temps passé sur chaque page, requêtes saisies… – est ainsi comptabilisé pour rendre compte de la qualité d’un site.
Selon la « fuite », la création de Navboost et la volonté de récolter des informations sur le parcours de navigation auraient été les principales motivations à la création de Chrome. Ce dernier permettrait à Google de savoir précisément où et quand un internaute clique sur les différentes parties d’un site. Ce serait particulièrement le cas avec les liens internes dans les pages, dont le nombre d’utilisations alimenterait la popularité et donc le classement des sites dans les résultats.
Navboost examinerait d’autres aspects, le contexte de l’action, par exemple quand les actions sont des clics sur des images et des vidéos. Les clics et l’engagement pendant et après la requête principale seraient également pris en compte. Par exemple, quand on effectue une recherche et qu’on la modifie, les résultats n’offrant pas satisfaction.
Toujours selon les documents, Navboost tiendrait compte de l’emplacement géographique et de l’utilisation d’un appareil mobile ou d’un ordinateur, ce qui n’a rien d’étonnant. Il distinguerait aussi les clics longs des clics courts, c’est-à-dire du temps passé sur la page que l’on vient d’ouvrir via un clic.
Comportements divers et variés
Les documents indiquent que Google disposerait de trois niveaux de qualité pour son index de liens, pour lequel les données des clics seraient particulièrement précieuses. Google créerait en outre des listes blanches dans certains contextes sensibles, dont les élections, les autorités sanitaires locales pendant la pandémie de Covid-19 ou encore les sites de voyages.
L'E-E-A-T, en revanche, ne compterait pas autant qu’imaginé. L’expertise apparait ainsi une fois dans les documents, mais pas les autres éléments. Google se servirait bien des Quality Raters dans son système de recherche, l’entreprise disposant a priori d’une plateforme d’évaluation de la qualité, nommée EWOK.
Les documents pointent en outre que Google serait capable de reconnaître les auteurs des contenus, alors traités comme des entités à part entière. La visibilité d’une personne influencerait donc directement celle de ses publications.
On note d’autres éléments intéressants, notamment l’importance des liens. Les documents évoquent par exemple de nombreux facteurs pour rendre compte de l’importance des liens dans une page : niveau d’indexation des pages sources, pics de spams, examen des 20 dernières versions des liens, PageRank et note de confiance de la page d’accueil ou encore taille de la police.
Google ne répond pas
Sans surprise, Google n’a souhaité répondre jusqu’à présent à aucune demande de réaction, dont celle de The Verge.
Aucun de ces documents ne constitue en l’état une preuve. La source semble crédible, mais Google n’en dit rien pour l’instant. La situation de l’entreprise pourrait être délicate : si les informations sont exactes, il ne fait aucun doute que de nombreux experts du référencement vont se lancer dans des tests. Les résultats obtenus, dans les jours et semaines qui suivront, pourraient confirmer indirectement les informations publiées par Rand Fishkin.
Le timing de la fuite est également intéressant. Google est la cible de nombreuses critiques suite à l’intégration de la fonction AI Overview dans ses résultats. Il semble aisé de faire dire des énormités à ces résumés générés par IA, alors même que des accusations récurrentes de baisse de qualité ciblent le moteur de recherche.
[Màj] Une vaste fuite met en lumière le fonctionnement de la recherche Google
-
Navboost dans la ligne de mire
-
Comportements divers et variés
-
Google ne répond pas
Commentaires (18)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 29/05/2024 à 11h25
Rien de surprenant en soi, juste une confirmaton "officielle" de ce que l'on soupçonnait déjà.
Le 29/05/2024 à 11h27
Rien de nouveau, non ? Ça s'appelle le page-rank, ou je me trompe ?
Le 29/05/2024 à 11h41
Alors qu'ici on parle de lien interne (pas ou peu pris en compte par Page Rank) et on ne parle pas de leur structure mais de leur utilisation : si ils sont beaucoup utilisé ou pas (c'est là que les données fournie par Chrome rentre en jeu). Plus les lien interne sont utilisés, plus la page est considérée comme "active" et ça permet aussi de renvoyer préférentiellement vers telle ou telle partie du site.
Le 29/05/2024 à 12h20
Modifié le 29/05/2024 à 11h31
Le 29/05/2024 à 11h43
Le 29/05/2024 à 18h43
Le 29/05/2024 à 21h17
Le tout sur fond de recherche en IA (car il va falloir investir à mort pour détecter les contenu généré par IA pour les flagger) domaine où Google est à la traine face à ses concurents et donc ne va pas mettre ses sous dans cette sous catégorie de l'IA.
Bref c'est la merde technologiquement, politiquement et stratégiquement...
Donc faut pas espérer une remontée massive des critères EAT selon moi
Le 30/05/2024 à 22h23
Le 29/05/2024 à 12h42
Modifié le 29/05/2024 à 13h18
Le 29/05/2024 à 14h13
Le 29/05/2024 à 16h14
Le 29/05/2024 à 17h37
Le 30/05/2024 à 03h42
Le 30/05/2024 à 03h04
https://www.wheresyoured.at/the-men-who-killed-google/
https://www.arretsurimages.net/chroniques/clic-gauche/apocalypse-google
Modifié le 30/05/2024 à 14h02
Et la flemmardise intellectuelle de la populace a rendu ce navigateur premier, et loin devant, en termes de parts d'utilisation.
From:
via:
to:
Le 30/05/2024 à 18h20