Connexion
Abonnez-vous

Archive.org dépasse les 400 milliards de pages sauvegardées

Marty et Doc peuvent se rhabiller

Archive.org dépasse les 400 milliards de pages sauvegardées

Le 13 mai 2014 à 13h30

C'est un nouveau cap que viennent de dépasser le site Archive.org et sa machine à voyager dans le temps : 400 milliards de pages sont sauvegardées. Le site en profite pour établir une petite rétrospective depuis son lancement.

pcinpact.com archive.org pcinpact.com archive.org

Voyageons dans le temps avec feu PC INpact

 

Archive.org est bien connu des nostalgiques du web et de ceux qui cherchent à connaître les différentes évolutions d'un site internet. En effet, via sa « Way Back Machine », ou machine à remonter le temps, il propose des captures d'une multitude de sites à différentes périodes. Les premières datent de 1996, tandis que les plus récentes n'ont que quelques heures.

 

L'année dernière, Archive.org annonçait les 240 milliards de pages web indexées, un chiffre qui a fait un bond en l'espace de 16 mois puisque la barre des 400 milliards vient d'être dépassée, 411 milliards exactement à l'heure où nous écrivons ces lignes), soit une moyenne de 10 milliards de plus par mois. À ce rythme-là, le demi-billion devrait arriver d'ici l'année prochaine.

 

L'association en profite pour faire un rapide état des lieux depuis le lancement de sa machine à voyager dans le temps qui remonte à 2001, tandis que le site Archive.org n'était mis en place qu'en 2006. En 2009, les données occupaient pas moins de 3 Po de stockage, avant de dépasser les 5 Po au début de l'année dernière, soit pas moins de 5 000 To ou encore 5 000 000 Go. Notez que la dernière campagne de financement leur a permis d'assurer une capacité de stockage de 10 Po, mais nul doute qu'il faudra bientôt l'augmenter.

 

Pour accéder à cette machine à voyager dans le temps virtuelle, c'est par ici. Pour rappel, vous pouvez également soumettre une URL de votre choix afin de la sauvegarder dans la base de données d'Archive.org. Voici un exemple avec Les offres internet.fr :

 

Commentaires (29)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar







zefling a écrit :



En même temps s’ils ont la capacité de faire ça, ça deviendrait inquiétant. Et puis ça toujours était comme ça, un fait qui n’a jamais était reporté ne s’est jamais produit, vu qu’il y en a aucune trace. Là, on en est à : ce jour là ça ressemblait à ça, pas le site entier était comme ça, et je pense qu’il y a peut de chance que ça aille plus loin, sinon c’est des Zetta-octets d’espace disque qu’il faudrait.





Syntax error… cannot compile


votre avatar

C’est pas avec archive.org qu’on aura le droit à l’oubli…

votre avatar







FunnyD a écrit :



Non, mais Teuf, c’est un gars sérieux, il fait pas dans le sondage graveleux

web.archive.org Archive.org://www.inpact-hardware.com/



PS : j’aime beaucoup la pub “Offrez-vous la maj Windows Me pour

399,00 FRF TTC ” <img data-src=" />





Tu as oublié aussi ce qu’il y a écrit dans le bas de page : « Internet Explorer requis » <img data-src=" />


votre avatar







Reznor26 a écrit :



Tu as oublié aussi ce qu’il y a écrit dans le bas de page : « Internet Explorer requis » <img data-src=" />





J’ai pas voulu remuer la hallebarde dans la plaie <img data-src=" />


votre avatar







zefling a écrit :



En même temps s’ils ont la capacité de faire ça, ça deviendrait inquiétant. Et puis ça toujours était comme ça, un fait qui n’a jamais était reporté ne s’est jamais produit, vu qu’il y en a aucune trace. Là, on en est à : ce jour là ça ressemblait à ça, pas le site entier était comme ça, et je pense qu’il y a peut de chance que ça aille plus loin, sinon c’est des Zetta-octets d’espace disque qu’il faudrait.







En quoi c’est inquiétant ? A partir du moment où une info a été publiée sur un site, pourquoi ne pourrait-on pas la retrouver ? Le cache de Google fait ça, personne ne s’en émeut. Et si l’info n’a pas à être publique, soit on ne la publie pas, soit on la publie avec des restrictions. Pour les problèmes juridiques, voir l’actu sur le droit à l’effacement, qui ne concerne qu’un très infime partie des requêtes.



D’ailleurs pas mal de sites le font d’eux mêmes, soit avec une recherche, soit des catégories par dates (les blogs notamment), ou une section “archives”.


votre avatar







Inny a écrit :



Beaucoup de sites n’ont pu être archivés avant leur disparition, ou alors partiellement. De plus, un robot.txt suffit à interdire l’archivage.







En général, on ne pense pas à Heritrix (leur crawler, que j’aimerai bien tester au boulot soit dit en passant) quand on fait un robots.txt (à moins de foutre un disallow *)


votre avatar



Linderbergh traverse l’Atlantique





<img data-src=" />

votre avatar

J’y ai encore été aujourd’hui.

Mais ce qui manque à la Wayback Machine, c’est un vrai moteur de recherche interne. Si on cherche un site disparu mais qu’on a oublié l’url… chaud pour le retrouver <img data-src=" />

votre avatar

Impressionnant. Et encore, ils ont perdu bien plus que tout ce qu’ils ont enregistré. Hélas.

votre avatar



Actualités INpact Virtuel

Les sorties Wii du printemps



<img data-src=" />

votre avatar



Notez que la dernière campagne de financement leur a permis d’assurer une capacité de stockage de 10 To, mais nul doute qu’il faudra bientôt l’augmenter.





Y’a un problème non ? Parce que si c’est 10 To c’est 0.2% de ce qu’ils avaient besoin en début d’année dernière. C’est pas énorme pour une campagne de financement ;)



10 Po donc je suppose ?

votre avatar







Weig a écrit :



Y’a un problème non ? Parce que si c’est 10 To c’est 0.2% de ce qu’ils avaient besoin en début d’année dernière. C’est pas énorme pour une campagne de financement ;)



10 Po donc je suppose ?







clic bouton magique <img data-src=" /><img data-src=" /><img data-src=" />


votre avatar

C’est les moteurs de recherches qui pourraient être content avec cela, en tout cas, c’est impressionnant, chapeau bas messieurs/dames <img data-src=" />

votre avatar



Les premières datent de 1996



mes premiers pas sur le Net, avec AOL à l’époque :madeleine:

votre avatar

Le premier snapshot de pcinpact, datant du 6 Mai 2003…

web.archive.org Archive.org://www.pcinpact.com/



<img data-src=" />

votre avatar

C’est surtout un moyen pour que la nouvelle génération apprenne des erreurs du passé



<img data-src=" />

votre avatar







Inny a écrit :



Impressionnant. Et encore, ils ont perdu bien plus que tout ce qu’ils ont enregistré. Hélas.







C’est à dire ?


votre avatar

Et c’est encore en Californie…

En fait on se demande bien ce qui n’a pas un lien avec la Californie sur le net.

votre avatar







Arcy a écrit :



C’est surtout un moyen pour que la nouvelle génération apprenne des erreurs du passé



<img data-src=" />





Das war ein Befehl ! <img data-src=" />



edit : oops


votre avatar

ils ne remontent pas bien loin : je ne trouve rien pour l’année de ma naissance (1976) <img data-src=" />



=&gt; suis loin <img data-src=" />

votre avatar

Allez courage, encore quelques années et le prix du SSD sera tellement bas qu’on comptera en Eo, Zo, voire Yo <img data-src=" />

votre avatar







zefling a écrit :



C’est à dire ?





Beaucoup de sites n’ont pu être archivés avant leur disparition, ou alors partiellement. De plus, un robot.txt suffit à interdire l’archivage.


votre avatar

Wha, j’avais pas vu qu’il y a une version de 2004 de mon site… qui a fêté ses 10 ans le mois dernier. <img data-src=" /><img data-src=" />









Inny a écrit :



Beaucoup de sites n’ont pu être archivés avant leur disparition, ou alors partiellement. De plus, un robot.txt suffit à interdire l’archivage.







Sur mon site, depuis que j’ai changé pour une domaine perso, les archivages vachement moins fréquents.



J’avais un site en Flash, et devine quoi. (plein de pages vides) <img data-src=" />


votre avatar

L’astuce pour s’occuper au boulot : si vous avez 12 ou 13 000 ans devant vous, vous pouvez vous occuper en passant une seconde sur chaque page <img data-src=" />

votre avatar

Non, mais Teuf, c’est un gars sérieux, il fait pas dans le sondage graveleux

web.archive.org Archive.org://www.inpact-hardware.com/





PS : j’aime beaucoup la pub “Offrez-vous la maj Windows Me pour

399,00 FRF TTC ” <img data-src=" />

votre avatar







trash54 a écrit :



clic bouton magique <img data-src=" /><img data-src=" /><img data-src=" />







Je l’utilise quand je suis sûr (par exemple les fautes d’orthographe)

Ici je m’interrogeais car je trouvais ça bien étrange…


votre avatar







zefling a écrit :



C’est à dire ?







Archive ne fait pas de screenshot de tous les sites tous les jours, donc certaines versions sont tombées dans l’oubli.


votre avatar







Jarodd a écrit :



Archive ne fait pas de screenshot de tous les sites tous les jours, donc certaines versions sont tombées dans l’oubli.







Eux peut-être ne le font pas, mais les archives sont redondées en temps réel sur le serveurs de la NSA…



<img data-src=" />



<img data-src=" />


votre avatar







Jarodd a écrit :



Archive ne fait pas de screenshot de tous les sites tous les jours, donc certaines versions sont tombées dans l’oubli.







En même temps s’ils ont la capacité de faire ça, ça deviendrait inquiétant. Et puis ça toujours était comme ça, un fait qui n’a jamais était reporté ne s’est jamais produit, vu qu’il y en a aucune trace. Là, on en est à : ce jour là ça ressemblait à ça, pas le site entier était comme ça, et je pense qu’il y a peut de chance que ça aille plus loin, sinon c’est des Zetta-octets d’espace disque qu’il faudrait.


Archive.org dépasse les 400 milliards de pages sauvegardées

Fermer