Internet Archive : 25 ans de la mémoire du web et du numérique

Internet Archive : 25 ans de la mémoire du web et du numérique

Merci les Petabox !

Avatar de l'auteur

Sébastien Gavois

Publié dansInternet

31/01/2023
7
Internet Archive : 25 ans de la mémoire du web et du numérique

C’est en 1996 que le projet Internet Archive est créé. Un jeune informaticien du nom de Brewster Kahle rêvait alors de construire une « Library of Everything » adaptée à l’ère numérique. Le projet devait à l’époque regrouper « toutes les œuvres publiées de l’humanité, être gratuit pour le public et structuré comme une organisation à but non lucratif pour durer dans le temps ».

Dès le début, l'ouverture était au centre des préoccupations de cette « mémoire permanente du web » avec la volonté qu’elle soit « accessible à tous, n’importe où dans le monde ». « Nous n’avons peut-être pas encore atteint l’accès universel à toutes les connaissances, mais nous le pouvons toujours », affirme Kahle dans le billet de blog publié à l’occasion du 25e anniversaire du projet.

« Au cours des 25 dernières années, nous avons accumulé des milliards de pages, 70 pétaoctets de données à offrir à la prochaine génération » ajoute-t-il, alors que les usages d’Internet ne cessent de se transformer et que l’on nous promet un avenir tout en métavers. Il ne voit ainsi pas la tendance se calmer. Pour lui, « dans 25 ans, nous pourrons avoir des écrits non pas de centaines de millions de personnes, mais d’un milliard, préservés à jamais ».

Entre la création du web et Wikipédia

Entré au « Hall of Fame » de l’Internet Society en 2012, Kahle a eu le nez fin en créant le projet seulement sept ans après l’annonce du World Wide Web par Tim Berners-Lee. Nous étions en octobre 1996, année de la publication de la déclaration d’indépendance du cyberespace par John Perry Barlow, cinq ans avant le lancement officiel de Wikipédia.

Les ingénieurs, situés à San Francisco, lançaient alors leurs premiers robots d’indexation, prenant des instantanés des pages. Le Web pesait alors dans son ensemble environ 2,5 To. Les liens cassés – renvoyant la fameuse erreur 404 pour « Not Found » – existaient déjà et l’idée de garder une trace s’est rapidement imposée.

Une des premières pages enregistrées est la page d’accueil de MTV avec Beavis et Butt-Head en tête d’affiche. Les outils n’étaient pas très sophistiqués : « il s’agissait essentiellement d’applications PC conçues pour capturer des sites Web entiers en suivant des liens », les fameux « aspirateurs de site Web » que les moins jeunes d’entre vous ont certainement utilisé un jour ou l’autre.

Les élections américaines font partie de l’histoire d’Internet Archive

Rapidement, pour maximiser le potentiel de son service, « Internet Archive s’est associé à la Smithsonian Institution de Washington, afin de collecter des instantanés des sites web de tous les candidats à la présidentielle de 1996 », gagnée par Bill Clinton pour son second mandat. Ces données ont ensuite été intégrées aux archives présidentielles du musée. Déjà à l’époque, il n’était pas question de se limiter à l’archivage des pages web puisque des « logiciels téléchargeables » étaient aussi au programme.

En 2000, alors que la politique prenait de l’importance dans sa dimension numérique, la bibliothèque du Congrès a demandé à Internet Archive de sauvegarder le site des élections. Cette archive était la première collection à grande échelle dans laquelle on pouvait effectuer des recherches.

 siège social d’Internet Archive à San FranciscoLe siège social d’Internet Archive à San Francisco

Images animées, films et documentaires au début des années 2000

Sa taille est de 2 To, avec notamment « des informations provenant des sites web des candidats, des partis politiques et des principaux organes d’information ». La question de la capacité de stockage était déjà sous-jacente... mais fort heureusement, avec l’évolution technologique, les coûts ont rapidement baissé. « Au point qu’Internet Archive pouvait commencer à collecter des images animées » dès 2000.

En partenariat avec l’archiviste Rick Prelinger, l’association se lance dans la sauvegarde d’un millier de films non cinématographiques. Le premier était Aluminum on the March de 1956. Aujourd’hui, plus de quatre millions de vidéos sont présentes dans les archives.

Un an plus tard, le 11 septembre 2001, les États-Unis étaient victimes d’une attaque terroriste. Internet Archive a travaillé avec 71 partenaires afin de garder une trace des actualités télévisées internationales. Plus de 3 000 heures provenant de vingt chaines différentes sont ainsi disponibles. Ces ressources ont été « largement utilisées par les diffuseurs internationaux, les universitaires, les journalistes et le public ».

2001, l’odyssée de la Wayback Machine commence

C’est en octobre 2001 que la « machine à voyager dans le temps » – ou Wayback Machine – fait son apparition. À l’époque, elle donnait accès à plus de 10 milliards de pages web et occupait 100 To de données. L’année suivante, Live Music Archive est lancé en partenariat avec Etree. Aujourd’hui, on y trouve plus de 220 000 concerts de musique Live de 8 000 groupes.

Toujours en 2002, Internet Archive fait rouler son « Internet Bookmobile », un petit van avec une connexion Internet – par satellite à l’époque – permettant d’accéder à une bibliothèque virtuelle d’un million de livres. Une manière de prouver une fois encore que ce n’est pas la taille qui compte.

BookMobile
Crédits : Internet Archive

En 2005, c‘est au tour d’Archive-IT de se lancer, un « service d’abonnement qui permet aux utilisateurs de créer et gérer leurs propres archives ». Aujourd’hui, via Save Page Now, n’importe qui peut demander à sauvegarder une page « pour une utilisation future en tant que citation de confiance », mais uniquement sur les sites qui autorisent les robots.

Historical Software Archive, Internet Archive Scholar, éviter les 404…

En 2013, l’Historical Software Archive voit le jour. C’est la « première collection de logiciels importants et historiquement remarquables, notamment des applications, des jeux et des systèmes d’exploitation de 1984 à 1989 ». Des émulateurs accessibles depuis le navigateur permettent de jouer directement. Envie de vous faire un petit Karateka (de 1984) ? C’est possible. Les plus nostalgiques peuvent s’y plonger pour revivre une partie de leur jeunesse et montrer à la nouvelle génération ce que c'étaient les jeux vidéo à leur époque.

Plus récemment, en 2020, Internet Archive s’est associé au navigateur Brave pour proposer une ancienne version d’une page lorsque le serveur renvoie une erreur 404. Sur le même principe, une extension No More 404s pour Firefox avait déjà été lancée en 2016. C’est cette même année que le moteur de recherche Scholar, contenant 25 millions d’articles scientifiques, est lancé « pour aider les chercheurs et les bibliothécaires à trouver des articles en libre accès ».

Si la Wayback Machine est probablement l’outil le plus connu de l’association, c’est loin d’être le seul. Aujourd’hui, Internet Archive en regroupe pas moins d’une quinzaine et permet par exemple de numériser vos documents afin de les proposer ensuite en accès libre et gratuit, via un stockage sur le long terme avec téléchargements illimités.

Le FBI s’en mêle, les projets se multiplient… 10 Po de données en 2012

En 2007, Internet Archive reçoit une lettre de sécurité nationale (NSL, National Security Letters) envoyée par le FBI qui cherchait à obtenir des informations sur l’un de ses utilisateurs. « Avec l’aide de l’Electronic Frontier Foundation (EFF) , Internet Archive contestait avec succès la NSL ». Le FBI a ensuite autorisé l’association à parler publiquement de cette affaire.

Les projets continuent d’avancer bon train. En 2010, RECAP met les documents de la Cour fédérale des États-Unis à la disposition du public gratuitement. Un partenariat avec la NASA pour les images spatiales est également annoncé et l’Open Library Accessible Books propose un million de livres numériques pour les personnes avec des difficultés de lecture, stockés au format DAISY.

Un portail dédié aux émissions de télévision (sauvegardées depuis les années 2000) fait son apparition en 2012 afin de permettre aux utilisateurs d’effectuer des recherches dans les transcriptions et les sous-titrages, mais aussi afficher des extraits d’une minute.

En octobre de cette même année, un palier est franchi : 10 Po de données sauvegardées. C’est à la même période que les dons en bitcoins sont acceptés par l’association, tandis que les employés peuvent être partiellement payés avec cet actif numérique dès 2013. Dans les bureaux, on trouvait même un « Bitcoin ATM » pour permettre d’effectuer des retraits en dollars.

Bitcoin ATM Internet Archive

Internet Archive, c’est aussi des Petabox

Le défi principal pour l’équipe est celui du stockage, ce qui a mené à la création de la Petabox qui, comme son nom l’indique, permet de stocker plus d’un Po de données. Mais elle devait respecter un cahier des charges précis : proposer une densité importante, être efficace d’un point de vue énergétique, facile à faire évoluer et à entretenir, avec un faible coût par Po. Actuellement, les Petabox permettent de stocker 1,4 Po par rack avec une consommation de trois kilowatts par Po.

Aucune climatisation n’est nécessaire, la chaleur dégagée étant utilisée pour aider à chauffer le bâtiment. Au dernier décompte (2014), la capacité totale était de 50 Po, avec pas moins de 20 000 disques durs actifs. Un projet qui montre que le succès peut aller au-delà des besoins d’Internet Archive puisque « les Petabox sont maintenant utilisées dans de grandes institutions académiques et des agences gouvernementales ».

John Perry Barlow recevant le prix Internet Archive Hero en 2015 John Perry Barlow recevant le prix Internet Archive Hero en 2015. Crédits : Photo de Brad Shirakawa – CC by 4.0

L’évolution d’Internet Archive en deux décennies

Nous avons regroupé ci-dessous les différents chiffres publiés par Internet Archive sur son blog afin de suivre l’évolution de son archivage. Il faut noter qu’en 2016 un important changement a été mis en place pour séparer le nombre de pages web sauvegardées de celui du nombre total d’objets, ce qui explique l’importante cassure :

  • 2000 : 1 milliard de pages
  • 2001 : 4 milliards de pages
  • 2002 : 10 milliards de pages
  • 2004 : 50 milliards de pages
  • 2007 : 85 milliards de pages
  • 2009 : 150 milliards de pages
  • 2013 : 350 milliards de pages
  • 2014 : 450 milliards de pages
  • 2016 : 510 milliards « d’objets web » et 273 milliards de pages avec la nouvelle formule
  • 2017 : 300 milliards de pages avec la nouvelle formule
  • 2018 : 350 milliards de pages avec la nouvelle formule
  • 2020 : 450 milliards de pages avec la nouvelle formule
  • 2021 : 630 milliards de pages avec la nouvelle formule
7
Avatar de l'auteur

Écrit par Sébastien Gavois

Tiens, en parlant de ça :

Nouveautés pour Messenger

Meta lance (enfin) le chiffrement de bout en bout de Messenger, entre autres

ME2EEssenger

08:43 Socials 0

Windows en 2024 : beaucoup d’IA, mais pas forcément un « 12 »

Technique contre marketing

17:36 Soft 7
Einstein avec des qubits en arrière plan

Informatique quantique, qubits : avez-vous les bases ?

Q-Doliprane sur demande

16:10 HardScience 8

Sommaire de l'article

Introduction

Entre la création du web et Wikipédia

Les élections américaines font partie de l’histoire d’Internet Archive

Images animées, films et documentaires au début des années 2000

2001, l’odyssée de la Wayback Machine commence

Historical Software Archive, Internet Archive Scholar, éviter les 404…

Le FBI s’en mêle, les projets se multiplient… 10 Po de données en 2012

Internet Archive, c’est aussi des Petabox

L’évolution d’Internet Archive en deux décennies

Nouveautés pour Messenger

Meta lance (enfin) le chiffrement de bout en bout de Messenger, entre autres

Socials 0

#LeBrief : cloud européen, OSIRIS-REx a frôlée la catastrophe, CPU AMD Ryzen 8040

Windows en 2024 : beaucoup d’IA, mais pas forcément un « 12 »

Soft 7
Einstein avec des qubits en arrière plan

Informatique quantique, qubits : avez-vous les bases ?

HardScience 8
Notifications iPhone

Surveillance des notifications : un sénateur américain demande la fin du secret

DroitSécu 13

En ligne, les promos foireuses restent d’actualité

DroitWeb 16

#LeBrief : modalité des amendes RGPD, cyberattaque agricole, hallucinations d’Amazon Q, 25 ans d’ISS

Logo Twitch

Citant des « coûts prohibitifs », Twitch quitte la Corée du Sud

ÉcoWeb 27
Formation aux cryptomonnaies par Binance à Pôle Emploi

Binance fait son marketing pendant des formations sur la blockchain destinées aux chômeurs

Éco 9
Consommation électrique du CERN

L’empreinte écologique CERN en 2022 : 1 215 GWh, 184 173 teqCO₂, 3 234 Ml…

Science 6
station électrique pour voitures

Voitures électriques : dans la jungle, terrible jungle, des bornes de recharge publiques

Société 73

#LeBrief : intelligence artificielle à tous les étages, fichier biométrique EURODAC

KDE Plasma 6

KDE Plasma 6 a sa première bêta, le tour des nouveautés

Soft 13
Un homme noir regarde la caméra. Sur son visage, des traits blancs suggèrent un traitement algorithmique.

AI Act et reconnaissance faciale : la France interpelée par 45 eurodéputés

DroitSociété 4
Api

La CNIL préconise l’utilisation des API pour le partage de données personnelles entre organismes

SécuSociété 3
Fouet de l’Arcep avec de la fibre

Orange sanctionnée sur la fibre : l’argumentaire de l’opérateur démonté par l’Arcep

DroitWeb 22
Bombes

Israël – Hamas : comment l’IA intensifie les attaques contre Gaza

IA 22

#LeBrief : bande-annonce GTA VI, guerre électronique, Spotify licencie massivement

Poing Dev

Le poing Dev – Round 7

Next 99
Logo de Gaia-X sour la forme d’un arbre, avec la légende : infrastructure de données en forme de réseau

Gaia-X « vit toujours » et « arrive à des étapes très concrètes »

WebSécu 6

Trois consoles portables en quelques semaines

Hard 37
Une tasse estampillée "Keep calm and carry on teaching"

Cyberrésilience : les compromis (provisoires) du trilogue européen

DroitSécu 3

#LeBrief : fuite de tests ADN 23andMe, le milliard pour Android Messages, il y a 30 ans Hubble voyait clair

#Flock a sa propre vision de l’inclusion

Flock 25
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

44
Fairphone 5 démonté par iFixit

Sans surprise, le Fairphone 5 obtient 10/10 chez iFixit

Hard 0

WhatsApp vocaux à vue/écoute unique

WhatsApp permet d’envoyer des vocaux à écoute unique

Soft 0

Logo de Google sur un ordinateur portable

Google propose un correctif aux disparitions mystérieuses sur Drive

Soft 0

Puce AMD Instinct

IA : AMD annonce la disponibilité des accélérateurs Instinct MI300A et MI300X

Hard 0

Un œil symbolisant l'Union européenne, et les dissensions et problèmes afférents

Cloud : 1,2 milliard d’euros pour un Projet important d’intérêt européen commun

Web 1

Sonde OSIRIS-REx de la NASA lors du retour de la capsule des échantillons sur Terre

Échantillons d’OSIRIS-REx : la NASA a frôlé la catastrophe

Science 0

CPU AMD Ryzen avec NPU pour l’IA

Ryzen 8040 : AMD lance de nouveaux CPU mobiles (Zen 4, RDNA 3, NPU)

Hard 0

Commentaires (7)


Timanu69
Hier à 09h32

1 BTC = 34,40 USD …. :roll:


Neliger Abonné
Hier à 13h43

Malheureusement, Internet Archive va à l’encontre du droit à l’oubli, et se couvre derrière un statut particulier pour ne respecter aucun droit d’auteur.


swiper Abonné
Hier à 14h08

Dans ce cas, tout service d’archives doit respecter ce droit à l’oubli et gérer d’incessantes demandes de suppression à tout va… Bref, c’est vraiment inapplicable pour ce genre d’activités.
Le but d’une archive est de témoigner d’une état de fait à un moment donné. Censurer cela revient à modifier l’histoire et vide la substance de l’archivage.


xouboudou Abonné
Hier à 14h28

La Wayback Machine m’a tellement servi et me sert toujours tellement. On a tendance à dire “the internet never forgets”, mais c’est si faux. Dommage que tant de sites ont bloqué les robots :(


Billye
Hier à 16h08

J’y avais un site bien “backupé” mais là pu rien :rhooo: … C’est ballot, moi j’aimais bien que ça soit encore en ligne … Bon y’a sans doute prescription, mais pitard les tenants lieux de droits d’auteurs auraient pu se régaler :stress: (Site de fanboy d’un artiste, classé dans les 3 premiers mondiaux, bien devant l’officiel :phiphi: ) même s’il n’y a plus les dizaines de répertoires de contenu audio :bocul: … (genre 500 bootlegs)


FraGG Abonné
Hier à 05h35

Archive.org me permet parfois de naviguer sur un ancien site sur lequel j’ai bossé pendant plus de 10 ans, je trouve ça sympa :)


Neliger Abonné
Hier à 13h06

swiper a dit:


Dans ce cas, tout service d’archives doit respecter ce droit à l’oubli et gérer d’incessantes demandes de suppression à tout va…




Je pense que c’est le minimum, oui.



Par le passé, ils respectaient le souhait de l’auteur indiqué dans le robots.txt, puis ils ont délibérément décidé de l’ignorer. Depuis ce bad move, je suis plutôt opposé à ce qu’Internet Archive perdure.