Google référence 120 000 milliards d'URL, dont 60 % avec du contenu en double

Google référence 120 000 milliards d’URL, dont 60 % avec du contenu en double

Une paille

Avatar de l'auteur

Sébastien Gavois

Publié dansInternet

20/11/2015
16
Google référence 120 000 milliards d'URL, dont 60 % avec du contenu en double

Google référence un nombre très important de pages sur le web, mais il est souvent difficile d'avoir une fourchette précise. Lors d'une conférence, un de ses responsables a annoncé qu'il existe 120 000 milliards d'URL dans son index, dont 60 % contiennent du contenu en double.

Lors de la conférence State of Search qui se déroulait récemment à Dallas aux États-Unis, Gary Illyes, Webmaster Trends Analyst chez Google, était monté sur scène. L'occasion pour ce dernier de donner quelques chiffres sur le moteur de recherche, notamment repris par StewArtMedia et TheSemPost.

Il a ainsi annoncé que Google connaissait pas moins de 120 000 milliards d'URL, une information que le moteur de recherche ne dévoile que très rarement. Pour rappel, début 2013 le géant du Net avait publié une infographie où il revendiquait que son index référençait 30 000 milliards de pages et occupait un espace de 100 000 To. Dans tous les cas, c'est donc une multiplication par quatre en moins de trois ans. 

Tout aussi intéressant (et étonnant), Gary Illyes ajoute que 60 % des URL actuellement référencées par le moteur de recherche contiennent du contenu en double (ou duplicate content). Sur cette page, le moteur de recherche explique qu'il s'agit généralement de « blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires. À l'origine, la plupart de ces contenus ne sont pas malveillants ». Il n'en reste pas moins que sur les 120 000 milliards d'URL, plus de 70 000 milliards (excusez du peu) correspondent apparemment à cette définition.

16
Avatar de l'auteur

Écrit par Sébastien Gavois

Tiens, en parlant de ça :

Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Me voilà à poil sur Internet

17:18 Next 0
Logo de StreetPress

Pourquoi le site du média StreetPress a été momentanément inaccessible

Incitation à la LCEN

16:41 Droit 3
Amazon re:Invent

re:Invent 2023 : Amazon lance son assistant Q et plusieurs services IA, dont la génération d’images

Site de Q

14:17 IA 10

Sommaire de l'article

Introduction

Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Next 0
Logo de StreetPress

Pourquoi le site du média StreetPress a été momentanément inaccessible

Droit 3
Amazon re:Invent

re:Invent 2023 : Amazon lance son assistant Q et plusieurs services IA, dont la génération d’images

IA 10
Un œil symbolisant l'Union européenne, et les dissensions et problèmes afférents

Le Conseil de l’UE tire un bilan du RGPD, les États membres réclament des « outils pratiques »

Droit 2

19 associations européennes de consommateurs portent plainte contre Meta

DroitSocials 10

#LeBrief : Ariane 6 l’été prochain, Nextcloud rachète Roundcube, désinformation via la pub

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

Sécu 6
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Web 29
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

HardWeb 35
Photo d'un immeuble troué de part en part

Règlement sur la cyber-résilience : les instances européennes en passe de conclure un accord

DroitSécu 10
lexique IA parodie

AGI, GPAI, modèles de fondation… de quoi on parle ?

IA 7

#LeBrief : logiciels libres scientifiques, fermeture de compte Google, « fabriquer » des femmes pour l’inclusion

livre dématérialisé

Des chercheurs ont élaboré une technique d’extraction des données d’entrainement de ChatGPT

IAScience 3
Un chien avec des lunettes apprend sur une tablette

Devenir expert en sécurité informatique en 3 clics

Sécu 11
Logo ownCloud

ownCloud : faille béante dans les déploiements conteneurisés utilisant graphapi

Sécu 16
Le SoC Graviton4 d’Amazon AWS posé sur une table

Amazon re:invent : SoC Graviton4 (Arm), instance R8g et Trainium2 pour l’IA

Hard 9
Logo Comcybergend

Guéguerre des polices dans le cyber (OFAC et ComCyberMi)

Sécu 10

#LeBrief : faille 0-day dans Chrome, smartphones à Hong Kong, 25 ans de la Dreamcast

Mur d’OVHcloud à Roubaix, avec le logo OVHcloud

OVHcloud Summit 2023 : SecNumCloud, IA et Local Zones

HardWeb 2
algorithmes de la CAF

Transparence, discriminations : les questions soulevées par l’algorithme de la CAF

IASociété 62

Plainte contre l’alternative paiement ou publicité comportementale de Meta

DroitIA 37
Nuage (pour le cloud) avec de la foudre

Économie de la donnée et services de cloud : l’Arcep renforce ses troupes

DroitWeb 0
De vieux ciseaux posés sur une surface en bois

Plus de 60 % des demandes de suppression reçues par Google émanent de Russie

Société 6
Une vieille boussole posée sur un plan en bois

La Commission européenne et Google proposent deux bases de données de fact-checks

DroitWeb 3

#LeBrief : des fichiers Google Drive disparaissent, FreeBSD 14, caméras camouflées, OnePlus 12

Le poing Dev – round 6

Next 150

Produits dangereux sur le web : nouvelles obligations en vue pour les marketplaces

Droit 9
consommation de l'ia

Usages et frugalité : quelle place pour les IA dans la société de demain ?

IA 12

La NASA établit une liaison laser à 16 millions de km, les essais continuent

Science 17
Concept de CPU

Semi-conducteurs : un important accord entre l’Europe et l’Inde

Hard 7

#LeBrief : PS5 Slim en France, Valeo porte plainte contre NVIDIA, pertes publicitaires X/Twitter

Un mélange entre une réunion d’Anonymous et de tête d’ampoules, pour le meilleur et le pire

651e édition des LIDD : Liens Intelligents Du Dimanche

Web 30
Bannière de Flock avec des bomes sur un fond rouge

#Flock, le grand remplacement par les intelligences artificielles

Flock 34
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #9 : LeBrief 2.0, ligne édito, dossiers de fond

Next 67
Nuage (pour le cloud) avec de la foudre

Cloud : Google demande au régulateur britannique d’enquêter sur Microsoft

Droit 13

Ariane 6 sur son pas de tir

Ariane 6 : premier décollage à l’été 2024

Science 7

La Grande Mosquée se détache devant les toits des maisons de Jérusalem.

Conflit Israël-Hamas : 349 marques financent la désinformation via la publicité programmatique

Web 4

Logo de Nextcloud

Nextcloud rachète la solution open-source de webmail Roundcube

ÉcoWeb 9

Logo de Steam

Steam va abandonner le support de macOS 10.13 et 10.14

Soft 6

Commentaires (16)


Tumeconnais
Il y a 8 ans

Si on résume, beaucoup de porno, beaucoup de doublons, il reste pas grand chose en faite sur Internet.


v1nce
Il y a 8 ans

J’aurai pensé à plus de doublons.


zefling Abonné
Il y a 8 ans

120 billion, ça fait combien de lien inutile qui ne pointe sur rien d’intéressant ? (en plus de doubles)


jb18v
Il y a 8 ans

Et combien de liens qui viennent des aggrégateurs de bordel comme FirstSlice, Buzzfeed et consort ? <img data-src=" />

100 000 To :eek:


Lochnar
Il y a 8 ans

Bah c’est pas tant que ça, le moindre datacenter dispose normalement de plusieurs Petaoctets (donc plusieurs dizaines de milliers de Teraoctets). Et Google a beaucoup, beaucoup de datacenter.


anonyme_a6c552c5fb4282d70e634ed16d39416a
Il y a 8 ans

Ce qui l’étonne plus, je pense, c’est la taille de l’index en lui-même et non la volumétrie dont on peut disposer.


Vekin Abonné
Il y a 8 ans

Ils entendent quoi précisément par URL ? Le nombre de pages, concrètement ?


jb18v
Il y a 8 ans

tout à fait <img data-src=" /><img data-src=" />


Anonyme_f7d8f7f164fgnbw67p
Il y a 8 ans

100.000 To, rien que pour l’index <img data-src=" />

Par index ils entendent quoi ? Juste la liste des URL, ou quoi d’autre comme données qui accompagne chaque URL ? Un descriptif, une partie en cache ? Ou bien juste la liste ?


SFX-ZeuS
Il y a 8 ans

J’ai jamais travaillé dans le domaine du big data mais franchement ça donne envie ! Sacré défis d’avoir des temps de réponse aussi rapide avec autant de données.


Nilav
Il y a 8 ans

Beaucoup de choses. Mais il ne faut pas se dire que leur “index” = 1 table dans leur BDD, ils en ont peut-être plusieurs, dans tous les cas, ils doivent t’optimiser ça aux petits oignons.

Ils expliquent pas mal de chosesici.

De base, il suffit de réfléchir à ce dont ils ont besoin pour afficher un résultat de recherche soit :




  • Un titre

  • Une description

  • Une miniature d’image “statique” (Google News - elle pèse moins de 4ko en moyenne) ou une miniature en base64 (Google Images)

  • Tout ce qui a rapport au knowledge graph, schema.org et consort dont ils ont besoin

    Et surtout, le contenu des pages elles-mêmes en texte (équivalent de ce que l’on peut voir en version cache je suppose) pour que leur algorithme puisse vérifier la pertinence d’une page par rapport à la recherche effectuée.

    Ils ne peuvent pas se permettre d’avoir une dépendance avec le site d’une page pertinente pour récupérer des éléments (indisponibilité temporaire). Ce ne serait pas bon non plus pour le site lui-même qui serait sollicité inutilement. C’est pour ça que la fréquence du crawl a une influence forte sur l’indexation.


freefree33
Il y a 8 ans

les lidd tante de répondre a cette question!
&nbsp;


anonyme_a6c552c5fb4282d70e634ed16d39416a
Il y a 8 ans






freefree33 a écrit :

les lidd tante de répondre a cette question!
&nbsp;


Ben mon n’veu !



jb18v
Il y a 8 ans

C’est une histoire de famille <img data-src=" />


Ler van keeg
Il y a 8 ans

Dire qu’on se fait taper sur les doigts en cas de duplicate content…
Ce n’est pas pour améliorer la pertinence, mais pour soulager leur index en fait ! Aha !


Daikyoka
Il y a 8 ans

Oui c’est ça, une URL est l’adresse d’une ressource, que ce soit une page, une image, une vidéo, etc. Quand tu tapes le nom de domaine d’un site dans la barre d’adresse, tu demandes la ressource “index”, la ressource racine.