Connexion
Abonnez-vous

Archive.org : 5 Po de données et 240 milliards d’URL sauvegardées

Le web des années 2000 c'était... autre chose

Archive.org : 5 Po de données et 240 milliards d'URL sauvegardées

Le 12 janvier 2013 à 12h37

Archive.org, le célèbre service qui nous permet de voyager dans le temps d'Internet, vient de se mettre à jour et en profite pour dévoiler quelques chiffres intéressants. Nous apprenons ainsi que sa base de données comporte désormais pas moins de 240 milliards d'URL, pour un total de près de 5 Po, soit 5 000 To.

pcinpact.com archive.org pcinpact.com archive.org

PC INpact le 3 janvier 2007 puis le 1er juillet 2011

 

Archive.org crée régulièrement des captures de très nombreux sites web présents sur la toile, les premiers échantillons remontent à fin 1996 (exemple : Intel ou encore Yahoo) et les derniers datent du 9 décembre 2012. S'il est impossible de réaliser une capture complète du web, le service tente de s'en approcher et ne cesse de grossir. Alors que sa base de données comportait 150 milliards d'URL il y a peu, la nouvelle mouture en intègre désormais 240 milliards. 

 

L'espace de stockage occupé est à la hauteur de la démesure : 5 Po, soit 5 000 000 Go, excusez du peu. Notez que l'organisation a récemment annoncé qu'elle avait récolté assez de dons pour acheter 4 Po supplémentaires, passant ainsi sa capacité de stockage totale à 10 Po... ce qui devrait être suffisant pour l'année 2013.

 

wikipedia 2003

Le 7 février 2003, la version francophone de Wikipedia comptait 5 040 articles, contre 1 339 643 aujourd'hui

 

Cette « machine à voyager dans le temps » semble toujours aussi prisée des internautes puisque Archive.org annonce pas moins de 1000 requêtes par seconde sur sa BDD et 500 000 visiteurs par jour. Quoi qu'il en soit, pour en profiter, il suffit de vous rendre sur cette page et d'entrer l'adresse du site concerné.

Commentaires (69)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar

web.archive.org Archive.org(http://www.pcinpact.com/">http://www.pcinpact.com/



Nostalgie quand tu nous tiens <img data-src=" />



<img data-src=" />

votre avatar

RIP Inpact Virtuel <img data-src=" />

votre avatar

Wow Wikipédia a bien changé <img data-src=" />



Par contre, PCInpact… Pas tant que ça <img data-src=" />

votre avatar

web.archive.org Archive.org(http://www.inpactvirtuel.com/">http://www.inpactvirtuel.com/

votre avatar

http://www.inpactvirtuel.com/” target=”_blank” rel=“nofollow”>Inpactvirtuel/

votre avatar

C’est peut-être bête mais en regardant les deux screen de l’actu, j’ai tendance à spontanément dire que je préfère celui de gauche (seul le logo fait un peut vieillot) <img data-src=" />

votre avatar

J’avais oublié comment c’était aussi moche au début :

Ma-Config.com 2004

<img data-src=" />

votre avatar

Bah en fait depuis 2007 PCInpact n’a pas changé…

On nous aurait menti ! <img data-src=" />

<img data-src=" /> <img data-src=" />

votre avatar

que de souvenir

web.archive.org Archive.org://www.nvchips-fr.com/



web.archive.org Archive.org://www.joystick.fr/


votre avatar

Je souhaite bonne chance à archives.org avant qu’il ne tombe, comme le DP, dans l’exception culturelle. et les mains de la Sacem & Co <img data-src=" />

votre avatar







Berri-UQAM a écrit :



Wow Wikipédia a bien changé <img data-src=" />



Par contre, PCInpact… Pas tant que ça <img data-src=" />







Honnêtement, je préférais PCINpact avant le passage à la V5, mais bon, ‘faut vivre avec son temps, y parait. <img data-src=" />

Tant que la qualité des articles reste bonne, ce n’est pas grave.


votre avatar

sniff …



web.archive.org Archive.org://www.inpactvirtuel.com/

votre avatar



L’espace de stockage occupé est à la hauteur de la démesure : 5 Po, soit 5 000 000 Go, excusez du peu.



Est-ce qu’on a pour ordre d’idée, ce que Google ou d’autres grands sites possèdent comme capacité?

votre avatar

C’est le topic des liens foireux ici ? <img data-src=" />



Je regarde une page de PCI au hasard de la timeline (6 janvier 2007), et je tombe sur cette news :

C’est fait : Hitachi lance le premier disque dur de 1000 Go !



C’est-y pas mignon ? <img data-src=" />





Bonus track :



News : Apple - Dashcode est disponible en version 1.00 bêta

Sous-titre : Arielcode ou Vizircode, ça ne sonnait pas assez bien



<img data-src=" />



<img data-src=" />

votre avatar

‘tin, ça permet aussi de revoir les sites qui ont disparus depuis … séquence nostalgie et l’arme à l’oeil <img data-src=" />

votre avatar







Muzikals a écrit :



‘tin, ça permet aussi de revoir les sites qui ont disparus depuis … séquence nostalgie et l’arme à l’oeil <img data-src=" />







Je viens de me payer une séance nostalgie en retrouvant l’historique de mon site et les premiers que j’ai fait en me disant … “Naaaan comment j’ai pu faire çaaaa c’est trop moche” <img data-src=" />


votre avatar







Muzikals a écrit :



‘tin, ça permet aussi de revoir les sites qui ont disparus depuis … séquence nostalgie et l’arme à l’oeil <img data-src=" />







Reculez ! J’ai un oeil et j’hésiterai pas à m’en servir !


votre avatar

nostalgie :web.archive.org Archive.org://www.inpact-hardware.com/

votre avatar

Savoir que l’œuvre de Jvachez est préservée pour l’édification des générations futures, ça fait chaud au cœur…

votre avatar

Service très intéressant. Par contre je trouve que 5 000 To c’est relativement peu.

votre avatar







nicobiz a écrit :



Est-ce qu’on a pour ordre d’idée, ce que Google ou d’autres grands sites possèdent comme capacité?





Beaucoup Beaucoup plus


votre avatar







kipoos a écrit :



nostalgie :web.archive.org Archive.org://www.inpact-hardware.com/







ha oué pinaise j’avais oublié lol


votre avatar







izbing a écrit :



RIP Inpact Virtuel <img data-src=" />





Bof, le site était un peu trop partisan dans sa ligne éditorial.. L’effet devait être assez tangible selon moi même si il est trop tard pour faire une analyse;.


votre avatar







charon.G a écrit :



J’avais oublié comment c’était aussi moche au début :

Ma-Config.com 2004

<img data-src=" />





Qu’au début? <img data-src=" />







<img data-src=" />


votre avatar







Tolor a écrit :



Qu’au début? <img data-src=" />







<img data-src=" />





<img data-src=" /> c’est DLB qui va être content.

Ceci dit il y a eu plusieurs design par le passé qui étaient bien moche. <img data-src=" />

J’aime bien le dernier design. J’aimais bien aussi le précédent à part l’ergonomie qui était atroce.


votre avatar







nicobiz a écrit :



Est-ce qu’on a pour ordre d’idée, ce que Google ou d’autres grands sites possèdent comme capacité?





À mon avis, 10 Po pour Google c’est quasiment rien. 5 000 disques de 1 To, c’est probablement même pas le centième d’un de leur data center.


votre avatar

ce qui me frappe le plus ce sont les superlatifs utilisés à profusion pour les noms de CG ou carte son de l’époque.


votre avatar







iFrancois a écrit :



Reculez ! J’ai un oeil et j’hésiterai pas à m’en servir !







Mon dieu <img data-src=" /> comment j’ai pu écrire un truc pareil !<img data-src=" />


votre avatar







SebGF a écrit :



Je viens de me payer une séance nostalgie en retrouvant l’historique de mon site et les premiers que j’ai fait en me disant … “Naaaan comment j’ai pu faire çaaaa c’est trop moche” <img data-src=" />







Idem !

Je suis aussi passé voir … caramail <img data-src=" />


votre avatar







nicobiz a écrit :



Est-ce qu’on a pour ordre d’idée, ce que Google ou d’autres grands sites possèdent comme capacité?





Mi-2011, PCI rapportait les chiffres d’une étude estimant le nombre de

serveurs à environ 900.000 (basée sur la consommation électrique officielle).



Si quelqu’un sait ce que contient en moyenne un serveur

Google on peut faire une vague estimation à partir de là.





Dans le même article, il est rappelé aussi les chiffres d’une

autre étude, plus vieille (2009), faisant quelques estimations :





  • Facebook : ~30.000

  • Amazon, eBay, Yahoo!, IBM : ~50.000

  • Microsoft : entre 500.000 et 600.000

  • Google : entre 2.000.000 et 3.000.000



    Même à considérer que ces chiffres étaient justes,

    ils ont dû encore considérablement augmenter depuis 3 ans.





    Enfin bref, globalement c’est totalement démentiel<img data-src=" />


votre avatar







Muzikals a écrit :



Mon dieu <img data-src=" /> comment j’ai pu écrire un truc pareil !<img data-src=" />







C’est cela qu’on appelle lancer un regard tueur? <img data-src=" />


votre avatar







SebGF a écrit :



Je viens de me payer une séance nostalgie en retrouvant l’historique de mon site et les premiers que j’ai fait en me disant … “Naaaan comment j’ai pu faire çaaaa c’est trop moche” <img data-src=" />





Pareil, et dire que ça reste dans les archives


votre avatar

@ SebGF et zefling : faites péter les liens <img data-src=" />



<img data-src=" />

votre avatar
votre avatar

En tout cas, ce qui n’a pas changé chez PCI c’est les liens foireux dans les commentaires. <img data-src=" />

votre avatar







127.0.0.1 a écrit :



En tout cas, ce qui n’a pas changé chez PCI c’est les liens foireux dans les commentaires. <img data-src=" />







Feature monsieur <img data-src=" />


votre avatar







P-A a écrit :



Feature monsieur <img data-src=" />







<img data-src=" /> Comme c’est pas crédible, surtout que les liens auto ce n’est pas ce qu’il y a de plus compliqué à coder.


votre avatar







nicobiz a écrit :



Est-ce qu’on a pour ordre d’idée, ce que Google ou d’autres grands sites possèdent comme capacité?







Il y a 2-3 ans on parlait du passage de Google à 1 exabyte et j’imagine que ca a encore bien augmenté.



Mais c’est tout sauf précis : est-ce qu’on parle de capacité pur de la somme des disques durs, ou de la capacité réelle des RAIDs ? d’ailleurs ce n’est peut être même pas la capacité mais la taille des données, et dans ce cas avec ou sans la déduplication, la compression … ?

Bref un chiffre comme ça c’est beaucoup trop vague et comme Google ne communique pas là dessus … on en sait rien :)


votre avatar







bzc a écrit :



Il y a 2-3 ans on parlait du passage de Google à 1 exabyte et j’imagine que ca a encore bien augmenté.





Ça doit douiller en Rcp<img data-src=" />


votre avatar







zefling a écrit :



<img data-src=" /> Comme c’est pas crédible, surtout que les liens auto ce n’est pas ce qu’il y a de plus compliqué à coder.







Y a meme des gens qui ont cherché un”Accurate Regex Pattern for Matching URLs”, et ca semble marcher pas mal. <img data-src=" />


votre avatar







sioowan a écrit :



Il vient de rejoindre le grand Archiviste.







<img data-src=" /> pour ne pas avoir de new ici à ce sujet


votre avatar



5 Po de données



Ca fait combien de disquette 1.44 tout ça ?<img data-src=" />

votre avatar







Ricard a écrit :



Ca fait combien de disquette 1.44 tout ça ?<img data-src=" />







Ca en fait 3.623.188.405,79 approximativement :p


votre avatar







sitesref a écrit :



Ca en fait 3.623.188.405,79 approximativement :p





Ca fait moins si les 5 Po sont donnes comme les constructeurs de DD le font <img data-src=" />

5.10^15/(1.44*1024^2)~=3,331,369,154


votre avatar







ldesnogu a écrit :



Ca fait moins si les 5 Po sont donnes comme les constructeurs de DD le font <img data-src=" />

5.10^15/(1.44*1024^2)~=3,331,369,154







Je ne prenais pas en compte la classique fourberie des fabricants de DD… Mais toi tu ne prends pas en compte celle des fabricants de disquettes, qui n’ont un espace utilisable que de 1.38 Mo ^^


votre avatar

Ha mais les disquettes c’etait de vrais mo a l’ancienne ! Avec 80 pistes de 18 secteurs de 512 octets sur 2 faces, ca arnaquait moins a l’epoque <img data-src=" />

votre avatar







iFrancois a écrit :



Reculez ! J’ai un oeil et j’hésiterai pas à m’en servir !





<img data-src=" />


votre avatar







sitesref a écrit :



Je ne prenais pas en compte la classique fourberie des fabricants de DD…







Une fourberie qui existe depuis les premiers disques durs, bref quand tu le sais. (Vérifié sur mon premier disque dur de 20 Mo)

Et pour les disquettes 1.44 c’est 1.44×1000×1024, si ça c’est pas fourbe. :P


votre avatar







sitesref a écrit :



Je ne prenais pas en compte la classique fourberie des fabricants de DD…







Apparemment un fabricant de disque dur utilise la bonne notation normalisée : le préfixe SI qui compte de 1000 en 1000.



Windows semble être le seul OS (que j’utilise pourtant beaucoup, et avec plaisir, je précise) qui ne respecte pas la norme, en affichant par exemple “1 Go” alors que c’est “1 Gio”.



En plus clair Windows compte avec le préfixe Binaire (Kio, Mio, Gio, Tio, etc… de 1024 en 1024) mais affiche les noms du préfixe SI, ce qui est trompeur je trouve.



On se retrouve avec des choses aberrantes comme un disque dur de 1 To qui fait bien 1000 Go mais Windows affiche 931 Go (Gio en réalité).



Il serait bon que tous les constructeurs et éditeurs se mettent d’accord sur un seul préfixe à utiliser, et ne mélangent pas les 2 <img data-src=" />


votre avatar







Etre_Libre a écrit :



On se retrouve avec des choses aberrantes comme un disque dur de 1 To qui fait bien 1000 Go mais Windows affiche 931 Go (Gio en réalité).







Pas toujours vrai, il garde une partie pour la table des registres créée au moment du formatage et l’identité du formatage pour être reconnu et pour être lancé



Il est vrai de se demander si c’est vraiment 1T ou 0.9xx T


votre avatar

2show7 : le formatage n’occupe que quelques Mo à quelques centaines en étant large… ça n’explique pas 69 Go “manquants” sur un 1000 Go.



Par contre un simple calcul de conversion l’explique :



Préfixe SI (1000 en 1000) :

1000 Go = 1 000 000 Mo = 1 000 000 000 Ko = 1 000 000 000 000 octets



Conversion en préfixe binaire (1024 en 1024) :

1 000 000 000 000 octets = 976562500 Kio = 953674,31640625 Mio = 931,32 Gio (arrondi)



On obtient donc bien pile 931 Gio, mais visibles comme “931 Go” par Windows.



Il suffit de faire quelques essais avec Linux, Mac et Windows, avec le même disque dur ou les mêmes fichiers, selon les normes utilisées (ou déformées), on obtient des résultats parfois étonnants, mais qui ont une logique.

votre avatar

Un DD peut-être plein même s’il reste de la place, c’est parce que la place réservée à la table des registres est pleine (beaucoup trop de petits fichiers)



Mais on peu le modifier en reformattant et en changeant la place réservée (notamment pour des films qui ne prennent pas beaucoup de place dans les registres)

votre avatar

Plutôt parce que les films sont de gros fichiers.



Mais sur un DD une place plus grande réservée est une assurance pour loger des programmes d’ordi et pas que des films

votre avatar

Mon site en 2003:

http://www.manusfreedom.com/index.php” target=”_blank” rel=“nofollow”>web.archive.org Archive.org(http://www.manusfreedom.com/index.php">http://www.manusfreedom.com/index.php

Le premier que j’ai hébergé directement chez moi.

J’aimais bien mon Framework PHP (OSWeb, un peu prétentieux je sais), il était très flexible pour l’époque… <img data-src=" />

Nostalgie… <img data-src=" />

votre avatar







Reznor26 a écrit :



Enfin bref, globalement c’est totalement démentiel<img data-src=" />





Tiens, je ne savais pas que Google faisait du ModernUI ^^


votre avatar







sitesref a écrit :



Ca en fait 3.623.188.405,79 approximativement :p





<img data-src=" />


votre avatar







manus a écrit :



Mon site en 2003:

http://www.manusfreedom.com/index.php” target=”_blank” rel=“nofollow”>web.archive.org Archive.org(http://www.manusfreedom.com/index.php">http://www.manusfreedom.com/index.php

Le premier que j’ai hébergé directement chez moi.

J’aimais bien mon Framework PHP (OSWeb, un peu prétentieux je sais), il était très flexible pour l’époque… <img data-src=" />

Nostalgie… <img data-src=" />





404 - File or directory not found.<img data-src=" />


votre avatar

web.archive.org Archive.org(http://www.inpactvirtuel.com/">http://www.inpactvirtuel.com/ <img data-src=" />



Edit : Un copie/colle de l’URL et hgop !

votre avatar

Pour ceux qui veulent mettre des url de web.archive sur PCI utilisez tinyurlsinon ça ne marche pas <img data-src=" />

votre avatar







charon.G a écrit :



Pour ceux qui veulent mettre des url de web.archive sur PCI utilisez tinyurlsinon ça ne marche pas <img data-src=" />





Euh si je te dis que j’y ai pensé mais que je me suis dis “Non quand même, pas ça…” <img data-src=" />



/me va se pendre… <img data-src=" />


votre avatar







zefling a écrit :



À mon avis, 10 Po pour Google c’est quasiment rien. 5 000 disques de 1 To, c’est probablement même pas le centième d’un de leur data center.





A la différence que “a priori” google ne stocke pas les anciennes pages, mais que les dernieres…


votre avatar







charon.G a écrit :



Pour ceux qui veulent mettre des url de web.archive sur PCI utilisez tinyurlsinon ça ne marche pas <img data-src=" />





past.is c’est français et c’est bien plus drôle <img data-src=" />


votre avatar







jinge a écrit :



past.is c’est français et c’est bien plus drôle <img data-src=" />





Je ne connaissais pas en effet il vaut mieux utiliser celui là <img data-src=" />


votre avatar







jinge a écrit :



past.is c’est français et c’est bien plus drôle <img data-src=" />





Ah quand même. <img data-src=" />


votre avatar







jinge a écrit :



past.is c’est français et c’est bien plus drôle <img data-src=" />





J’adore, adopte <img data-src=" />


votre avatar
votre avatar







jinge a écrit :



A la différence que “a priori” google ne stocke pas les anciennes pages, mais que les dernieres…





Sauf que tu oublies que google c’est :




  • le moteur de recherche (texte, images, …)

  • you tube (sûrement ce qui prend le plus de place)

  • google doc

  • google plus

  • google map

    etc.



    Donc que ça soit que les dernières pages, à limite on s’en fout, surtout s’il y en plusieurs centaines de milliard.


votre avatar







zefling a écrit :



Sauf que tu oublies que google c’est :




  • le moteur de recherche (texte, images, …)

  • you tube (sûrement ce qui prend le plus de place)

  • google doc

  • google plus

  • google map

    etc.



    Donc que ça soit que les dernières pages, à limite on s’en fout, surtout s’il y en plusieurs centaines de milliard.





    Je ne parlais que l’équivalent de archive.org, sinon c’est sûr que google maps à lui tout seul a à peu la même taille, et youtube n’en parlons pas….. C’est sans équivalent!





    ldesnogu a écrit :



    J’adore, adopte <img data-src=" />









    Aces a écrit :



    Ah quand même. <img data-src=" />





    Je l’utilise même au taf, pour l’instant je n’ai pas eu de remarques, je ne sais pas s’ils lisent les URL avant de cliquer <img data-src=" />


votre avatar

comment Archive.org est il financé?

Archive.org : 5 Po de données et 240 milliards d’URL sauvegardées

Fermer