Internet Archive : 25 ans de la mémoire du web et du numérique

Merci les Petabox !

Sébastien Gavois

Le 31 janvier 2023 à 08h32

Internet Archive : 25 ans de la mémoire du web et du numérique

Merci les Petabox !

Sébastien Gavois

Le 31 janvier 2023 à 08h32

Internet

9 min

C’est en 1996 que le projet Internet Archive est créé. Un jeune informaticien du nom de Brewster Kahle rêvait alors de construire une « Library of Everything » adaptée à l’ère numérique. Le projet devait à l’époque regrouper « toutes les œuvres publiées de l’humanité, être gratuit pour le public et structuré comme une organisation à but non lucratif pour durer dans le temps ».

Dès le début, l’ouverture était au centre des préoccupations de cette « mémoire permanente du web » avec la volonté qu’elle soit « accessible à tous, n’importe où dans le monde ». « Nous n’avons peut-être pas encore atteint l’accès universel à toutes les connaissances, mais nous le pouvons toujours », affirme Kahle dans le billet de blog publié à l’occasion du 25e anniversaire du projet.

« Au cours des 25 dernières années, nous avons accumulé des milliards de pages, 70 pétaoctets de données à offrir à la prochaine génération » ajoute-t-il, alors que les usages d’Internet ne cessent de se transformer et que l’on nous promet un avenir tout en métavers. Il ne voit ainsi pas la tendance se calmer. Pour lui, « dans 25 ans, nous pourrons avoir des écrits non pas de centaines de millions de personnes, mais d’un milliard, préservés à jamais ».

Entre la création du web et Wikipédia

Entré au « Hall of Fame » de l’Internet Society en 2012, Kahle a eu le nez fin en créant le projet seulement sept ans après l’annonce du World Wide Web par Tim Berners-Lee. Nous étions en octobre 1996, année de la publication de la déclaration d’indépendance du cyberespace par John Perry Barlow, cinq ans avant le lancement officiel de Wikipédia.

Les ingénieurs, situés à San Francisco, lançaient alors leurs premiers robots d’indexation, prenant des instantanés des pages. Le Web pesait alors dans son ensemble environ 2,5 To. Les liens cassés – renvoyant la fameuse erreur 404 pour « Not Found » – existaient déjà et l’idée de garder une trace s’est rapidement imposée.

Une des premières pages enregistrées est la page d’accueil de MTV avec Beavis et Butt-Head en tête d’affiche. Les outils n’étaient pas très sophistiqués : « il s’agissait essentiellement d’applications PC conçues pour capturer des sites Web entiers en suivant des liens », les fameux « aspirateurs de site Web » que les moins jeunes d’entre vous ont certainement utilisé un jour ou l’autre.

Les élections américaines font partie de l’histoire d’Internet Archive

Rapidement, pour maximiser le potentiel de son service, « Internet Archive s’est associé à la Smithsonian Institution de Washington, afin de collecter des instantanés des sites web de tous les candidats à la présidentielle de 1996 », gagnée par Bill Clinton pour son second mandat. Ces données ont ensuite été intégrées aux archives présidentielles du musée. Déjà à l’époque, il n’était pas question de se limiter à l’archivage des pages web puisque des « logiciels téléchargeables » étaient aussi au programme.

En 2000, alors que la politique prenait de l’importance dans sa dimension numérique, la bibliothèque du Congrès a demandé à Internet Archive de sauvegarder le site des élections. Cette archive était la première collection à grande échelle dans laquelle on pouvait effectuer des recherches.

Le siège social d’Internet Archive à San Francisco

Images animées, films et documentaires au début des années 2000

Sa taille est de 2 To, avec notamment « des informations provenant des sites web des candidats, des partis politiques et des principaux organes d’information ». La question de la capacité de stockage était déjà sous-jacente... mais fort heureusement, avec l’évolution technologique, les coûts ont rapidement baissé. « Au point qu’Internet Archive pouvait commencer à collecter des images animées » dès 2000.

L’extraordinaire évolution du stockage

En partenariat avec l’archiviste Rick Prelinger, l’association se lance dans la sauvegarde d’un millier de films non cinématographiques. Le premier était Aluminum on the March de 1956. Aujourd’hui, plus de quatre millions de vidéos sont présentes dans les archives.

Un an plus tard, le 11 septembre 2001, les États-Unis étaient victimes d’une attaque terroriste. Internet Archive a travaillé avec 71 partenaires afin de garder une trace des actualités télévisées internationales. Plus de 3 000 heures provenant de vingt chaines différentes sont ainsi disponibles. Ces ressources ont été « largement utilisées par les diffuseurs internationaux, les universitaires, les journalistes et le public ».

2001, l’odyssée de la Wayback Machine commence

C’est en octobre 2001 que la « machine à voyager dans le temps » – ou Wayback Machine – fait son apparition. À l’époque, elle donnait accès à plus de 10 milliards de pages web et occupait 100 To de données. L’année suivante, Live Music Archive est lancé en partenariat avec Etree. Aujourd’hui, on y trouve plus de 220 000 concerts de musique Live de 8 000 groupes.

Toujours en 2002, Internet Archive fait rouler son « Internet Bookmobile », un petit van avec une connexion Internet – par satellite à l’époque – permettant d’accéder à une bibliothèque virtuelle d’un million de livres. Une manière de prouver une fois encore que ce n’est pas la taille qui compte.

En 2005, c‘est au tour d’Archive-IT de se lancer, un « service d’abonnement qui permet aux utilisateurs de créer et gérer leurs propres archives ». Aujourd’hui, via Save Page Now, n’importe qui peut demander à sauvegarder une page « pour une utilisation future en tant que citation de confiance », mais uniquement sur les sites qui autorisent les robots.

Historical Software Archive, Internet Archive Scholar, éviter les 404…

En 2013, l’Historical Software Archive voit le jour. C’est la « première collection de logiciels importants et historiquement remarquables, notamment des applications, des jeux et des systèmes d’exploitation de 1984 à 1989 ». Des émulateurs accessibles depuis le navigateur permettent de jouer directement. Envie de vous faire un petit Karateka (de 1984) ? C’est possible. Les plus nostalgiques peuvent s’y plonger pour revivre une partie de leur jeunesse et montrer à la nouvelle génération ce que c'étaient les jeux vidéo à leur époque.

Plus récemment, en 2020, Internet Archive s’est associé au navigateur Brave pour proposer une ancienne version d’une page lorsque le serveur renvoie une erreur 404. Sur le même principe, une extension No More 404 s pour Firefox avait déjà été lancée en 2016. C’est cette même année que le moteur de recherche Scholar, contenant 25 millions d’articles scientifiques, est lancé « pour aider les chercheurs et les bibliothécaires à trouver des articles en libre accès ».

Si la Wayback Machine est probablement l’outil le plus connu de l’association, c’est loin d’être le seul. Aujourd’hui, Internet Archive en regroupe pas moins d’une quinzaine et permet par exemple de numériser vos documents afin de les proposer ensuite en accès libre et gratuit, via un stockage sur le long terme avec téléchargements illimités.

Le FBI s’en mêle, les projets se multiplient… 10 Po de données en 2012

En 2007, Internet Archive reçoit une lettre de sécurité nationale (NSL, National Security Letters) envoyée par le FBI qui cherchait à obtenir des informations sur l’un de ses utilisateurs. « Avec l’aide de l’Electronic Frontier Foundation (EFF) , Internet Archive contestait avec succès la NSL ». Le FBI a ensuite autorisé l’association à parler publiquement de cette affaire.

Les projets continuent d’avancer bon train. En 2010, RECAP met les documents de la Cour fédérale des États-Unis à la disposition du public gratuitement. Un partenariat avec la NASA pour les images spatiales est également annoncé et l’Open Library Accessible Books propose un million de livres numériques pour les personnes avec des difficultés de lecture, stockés au format DAISY.

Un portail dédié aux émissions de télévision (sauvegardées depuis les années 2000) fait son apparition en 2012 afin de permettre aux utilisateurs d’effectuer des recherches dans les transcriptions et les sous-titrages, mais aussi afficher des extraits d’une minute.

En octobre de cette même année, un palier est franchi : 10 Po de données sauvegardées. C’est à la même période que les dons en bitcoins sont acceptés par l’association, tandis que les employés peuvent être partiellement payés avec cet actif numérique dès 2013. Dans les bureaux, on trouvait même un « Bitcoin ATM » pour permettre d’effectuer des retraits en dollars.

Internet Archive, c’est aussi des Petabox

Le défi principal pour l’équipe est celui du stockage, ce qui a mené à la création de la Petabox qui, comme son nom l’indique, permet de stocker plus d’un Po de données. Mais elle devait respecter un cahier des charges précis : proposer une densité importante, être efficace d’un point de vue énergétique, facile à faire évoluer et à entretenir, avec un faible coût par Po. Actuellement, les Petabox permettent de stocker 1,4 Po par rack avec une consommation de trois kilowatts par Po.

Aucune climatisation n’est nécessaire, la chaleur dégagée étant utilisée pour aider à chauffer le bâtiment. Au dernier décompte (2014), la capacité totale était de 50 Po, avec pas moins de 20 000 disques durs actifs. Un projet qui montre que le succès peut aller au-delà des besoins d’Internet Archive puisque « les Petabox sont maintenant utilisées dans de grandes institutions académiques et des agences gouvernementales ».

John Perry Barlow recevant le prix Internet Archive Hero en 2015. Crédits : Photo de Brad Shirakawa – CC by 4.0

L’évolution d’Internet Archive en deux décennies

Nous avons regroupé ci-dessous les différents chiffres publiés par Internet Archive sur son blog afin de suivre l’évolution de son archivage. Il faut noter qu’en 2016 un important changement a été mis en place pour séparer le nombre de pages web sauvegardées de celui du nombre total d’objets, ce qui explique l’importante cassure :

2000 : 1 milliard de pages
2001 : 4 milliards de pages
2002 : 10 milliards de pages
2004 : 50 milliards de pages
2007 : 85 milliards de pages
2009 : 150 milliards de pages
2013 : 350 milliards de pages
2014 : 450 milliards de pages
2016 : 510 milliards « d’objets web » et 273 milliards de pages avec la nouvelle formule
2017 : 300 milliards de pages avec la nouvelle formule
2018 : 350 milliards de pages avec la nouvelle formule
2020 : 450 milliards de pages avec la nouvelle formule
2021 : 630 milliards de pages avec la nouvelle formule

Commentaires (7)

Timanu69

Le 31/01/2023 à 09h32

1 BTC = 34,40 USD ….

Neliger Premium

Le 31/01/2023 à 13h43

Malheureusement, Internet Archive va à l’encontre du droit à l’oubli, et se couvre derrière un statut particulier pour ne respecter aucun droit d’auteur.

swiper Premium

Le 31/01/2023 à 14h08

Dans ce cas, tout service d’archives doit respecter ce droit à l’oubli et gérer d’incessantes demandes de suppression à tout va… Bref, c’est vraiment inapplicable pour ce genre d’activités.
Le but d’une archive est de témoigner d’une état de fait à un moment donné. Censurer cela revient à modifier l’histoire et vide la substance de l’archivage.

xouboudou

Le 31/01/2023 à 14h28

La Wayback Machine m’a tellement servi et me sert toujours tellement. On a tendance à dire “the internet never forgets”, mais c’est si faux. Dommage que tant de sites ont bloqué les robots :(

Billye

Le 31/01/2023 à 16h08

J’y avais un site bien “backupé” mais là pu rien … C’est ballot, moi j’aimais bien que ça soit encore en ligne … Bon y’a sans doute prescription, mais pitard les tenants lieux de droits d’auteurs auraient pu se régaler (Site de fanboy d’un artiste, classé dans les 3 premiers mondiaux, bien devant l’officiel ) même s’il n’y a plus les dizaines de répertoires de contenu audio … (genre 500 bootlegs)

FraGG

Le 02/02/2023 à 05h35

Archive.org me permet parfois de naviguer sur un ancien site sur lequel j’ai bossé pendant plus de 10 ans, je trouve ça sympa :)

Neliger Premium

Le 02/02/2023 à 13h06

swiper a dit:

Dans ce cas, tout service d’archives doit respecter ce droit à l’oubli et gérer d’incessantes demandes de suppression à tout va…

Je pense que c’est le minimum, oui.

Par le passé, ils respectaient le souhait de l’auteur indiqué dans le robots.txt, puis ils ont délibérément décidé de l’ignorer. Depuis ce bad move, je suis plutôt opposé à ce qu’Internet Archive perdure.