Connexion Abonnez-vous

Internet Archive : 1 000 milliards de pages dans la Wayback Machine

On peut sauvegarder 1 000 fois une page ET 1 000 pages une fois

Internet Archive : 1 000 milliards de pages dans la Wayback Machine

1 000 milliards de pages sauvegardées, c’est le palier atteint par Internet Archive avec sa machine à voyager dans le temps ou Wayback Machine. Depuis le retour de Donald Trump au pouvoir, l’organisation « n’a pas eu de période de repos ». Internet Archive continue de consulter des centaines de millions de pages par jour.

Le 22 octobre à 15h20

En ce mois d’octobre, Internet Archive annonce que sa Wayback Machine « devrait atteindre une étape unique en son genre » : 1 billion de pages Web archivées. L’organisation affirme ainsi être « le plus grand dépôt public de l’histoire d’Internet ». Alors avant toute chose, entendons-nous bien sur le terme billion !

En France et aux États-Unis, deux échelles différentes sont utilisées : la longue en France, la courte aux États-Unis. Sur les milliers et les millions, rien ne change, mais ça se complique rapidement après. Les billions de l’échelle courte des États-Unis sont des milliards en France (10⁹ dans les deux cas), mais surtout les trillions de l’échelle courte sont des… billions de l’échelle longue (10¹²). On s’arrêtera là, mais sachez que pour ne rien arranger les trillions existent aussi dans l’échelle longue et sont des quintillions de l’échelle courte (10¹⁸).

1 000 milliards de pages en presque 30 ans

Quand Internet Archive annonce donc un trillion de pages dans son échelle américaine, cela donne un billion de pages Web pour la France ou encore 1 000 milliards de pages si cela est plus parlant. L’organisation en profite pour remettre en avant son appel aux dons pour « archiver le prochain billion ».

À l’occasion des 25 ans d’Internet Archive, nous avions consacré tout un dossier à ce projet, lancé par Brewster Kahle en 1996. Il était alors question de « collecter des instantanés des sites web de tous les candidats à la présidentielle de 1996 ». Il faudra attendre octobre 2001 pour que la « machine à voyager dans le temps » – ou Wayback Machine – débarque.

Depuis le retour de Trump, « il n’y a pas eu de période de repos »

Il reste 72% de l'article à découvrir.

Déjà abonné ? Se connecter

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Commentaires (11)

votre avatar
En lisant l'article, je me disais dommage que ces archives soient polluées par le nombre croissant de sites alimentés par du contenu généré artificiellement.
Et dans un deuxième temps, j'en arrive à la conclusion que c'est aussi l'histoire d'Internet, même si le contenu n'est pas pertinent, cette évolution sera très probablement étudiée dans un avenir plus ou moins proche et Internet Archive permet de dresser un état des lieux à des instants précis.
votre avatar
Alors qu'il leur suffirait d'installer l'extension adéquate de NXI pour filtrer tout ça... :-D
votre avatar
Et toujours pas de retour du respect du consentement suite à leur décision de ne plus respecter les robots.txt, on le rappèle.

Internet Archive qui est devenu comme n'importe quel autre crawler de LLM, quel gâchis.
votre avatar
Et ne pas oublier, mais c'est vrai qu'on n'en parle pas très souvent:

- le billiard (pas de typo ici) : 10E12 c.a.d  1 péta.

- le trilliard: 10E21 c.a.d  1 zetta.

Et j'aime bien l'introduction sur la page Wikipédia: "L'échelle longue, ou échelle de Chuquet, et l'échelle courte sont deux systèmes incompatibles de noms des grands nombres"

Ben oui pourquoi faire simple quand on peut faire compliquer, ou bien chacun dans son coin et aucune envie d'harmoniser, assez typique de l'espèce humaine en fait... :D

Echelle courte (et non pas la courte échelle ! :mdr2: ) vs Echelle longue :

fr.wikipedia.org Wikipedia
votre avatar
Et la myriade on l'oublie la myriade ;-)
votre avatar
Exact ! D'ailleurs plusieurs fois, alors que je ne connaissais pas ce concept, je me suis rendu compte d'un phénomène qui provoquait - des fois - une certaine confusion... quand la personne en face de moi - chinoise évidemment - faisait une pause, commençait à utiliser ses doigts et faire un petit effort de calcul mental bien visible pour double-checker le chiffre et pour finalement me confirmer un truc du genre après 5 à 10 secondes de réflexion : (par exemple) : "Non non c'était bien 10 millions ici..."

car il fallait qu'elle switche entre un système basé sur du 10E3 - 10E6 à un système basé sur du 10E2 - 10E4 et vice-versa... et ça, je l'ignorais...

La Myriade ! relique du passé avec les fameux hectares de Bruno Lemaire ou bien les hectolitres de tonneaux de vin !

en.wikipedia.org Wikipedia :D
votre avatar
Exactement, cependant, pour les ares c'est un relicat, cependant pour hectolitres, et plus spécifiquement le hect(o), c'est juste l'usage de du bon préfixe. (que j'avais après très jeunes ; Maternelles ? je ne sais plus)
avec Unité au centre.

déca (x10) déci(x0,1 ou 10^-1)
Hecto (x100) centi (x0,01 ou 10^-2)
Kilo (x1000) Milli (x0,001 ou 10^-3)
etc
De mémoire, les puissances positives préfixes grecs ; Les puissances négatives préfixes latins)

Ou sinon juste voir la page wiki qui dit surement mais de bêtises que moi ;-)

fr.wikipedia.org Wikipedia

PS: C'est pour ça aussi que dans pas mal d'Isekaï, les trouves pieces de bronze (ou cuivre), pièces d'argent, pièces d'or et Grande pieces d'or.
votre avatar
"De mémoire, les puissances positives préfixes grecs ; Les puissances négatives préfixes latins"

Ha tiens, ça, je l'ignorais ! :yes: :inpactitude:
votre avatar
La notation scientifique nous sauvera tous!!
votre avatar
Indeed !  :yes:  :bravo:
votre avatar
Rien à redire :dix:

Internet Archive : 1 000 milliards de pages dans la Wayback Machine

  • 1 000 milliards de pages en presque 30 ans

  • Depuis le retour de Trump, « il n’y a pas eu de période de repos »

  • Internet Archive est une bibliothèque fédérale aux USA

  • Près de 500 millions de pages et 800 000 visiteurs par jour

  • Des Petabox avec des centaines de Po de stockage

Fermer