[Interview] Internet Archive (Wayback Machine) : des bots, des crawls… et des humains
Crawls operators
Le 02 février 2023 à 10h13
9 min
Internet
Internet
Internet Archive et sa Wayback Machine sont des robots d’indexation, mais pas seulement. Nous sommes allés à la rencontre de l’une des « petites mains » qui s’assurent chaque jour que les bonnes pages soient sauvegardées.
Corentin Barreau est ingénieur logiciel, archiviste pour le projet Internet Archive, travaillant sur la Wayback Machine. Il a rejoint l’organisme à but non lucratif il y a un peu moins de trois ans, alors qu’il était encore étudiant. Mais il avait déjà une longue liste de projets d’archivage à son actif.
« J’ai envoyé un message sur Twitter pour savoir s’il y avait de la place, on m’a dit oui. Une semaine après avoir commencé, j’ai arrêté mes études, j’avais 19 ans [...] Je m’occupe de récupérer ce qui arrive dans la Wayback Machine. J’opère des crawls à large échelle pour essayer de récupérer des données », nous explique-t-il.
Sujet d’actualité, nous lui demandons si les événements de ces derniers mois (crise sanitaire, explosion des réseaux sociaux, fake news...) ont eu des effets tangibles sur les questions d’archivage. Sans surprise la réponse est oui : « Cela nous a rappelé violemment qu’il est important d’archiver le web et ce qu’il se dit sur les médias, les réseaux, notamment avant l’élection présidentielle » de 2020, avec la victoire Joe Biden sur Donald Trump.
L’occasion pour nous d’évoquer un autre projet (collaboratif) de l’association : End of Term. Comme son nom l’indique, il « vise à préserver la présence sur le web du gouvernement fédéral américain à chaque changement d’administration. Le contenu comprend des sites gouvernementaux accessibles au public hébergé sur .gov, .mil et des domaines pertinents autres qu’en .gov, ainsi que des documents des réseaux sociaux gouvernementaux », peut-on lire sur sa page de présentation.
« Les crawls sont faits avant et après les élections », nous précise Corentin Barreau. Durant la présidence de Trump, ce travail d’archiviste a dû être fait « non pas à la fin du mandat mais tout le long », car ces quatre années furent mouvementées... c’est le moins que l’on puisse dire. Notamment avec le bannissement du président des États-Unis de Facebook et Twitter (entre autres) suite à l’invasion du Capitole et aux violences qui en ont découlé. « Je n’étais pas là avant, mais je pense que ça a pris beaucoup d’importance sous Donald Trump », reconnait d’ailleurs l’ingénieur.
Archive vs scraping
Dans un autre registre, nous lui demandons si le barrage fait par certains sites aux robots n’est pas problématique pour le travail d’archivage. Il nous répond que ce choix reste minoritaire, mais constitue tout de même un problème. « Les anti-robots ont pris de l’importance ces dernières années parce qu’à côté de l’archivage, il y a tout le mouvement des sociétés qui font du scraping [extraire tout le contenu d’un site, ndlr] à des fins industrielles, pour récupérer des informations et les utiliser ».
Internet Archive est surtout un dommage collatéral car « généralement, les sites ne sont pas anti-archivage [...] On a rarement de l’hostilité directe, ce sont des sites qui sont anti-scraping parce qu’ils ne veulent pas que leurs données soient récupérées par des concurrents à grande échelle, et du coup on paye les frais de cette situation car on utilise à peu près les mêmes techniques, on accède aux pages de manière informatisée ».
Un autre problème concerne les « pages qui sont de plus en plus dynamiques », avec du JavaScript par exemple. « Du coup c’est un peu plus compliqué parfois pour nous à archiver ». Il y a également la question des paywalls qui empêchent d’accéder à l’entièreté des contenus d’information.
Mais avec un peu de bonne volonté de part et d’autre cela peut fonctionner : « Cela arrive d’avoir des sites avec lesquels il y a des discussions et cela mène parfois à de belles choses avec une collaboration entre les deux ».
1 milliard de pages archivées… chaque jour
Pour donner un chiffre : « Environ un milliard de pages sont archivées par jour » dans la Wayback Machine. Cela concerne à la fois les nouvelles entrées et les mises à jour. Elle est « dans un rythme de croisière et cela fonctionne plutôt bien. On n’a pas souvent de révolution dans la manière dont on fait les choses ».
Cela n’empêche pas des améliorations ponctuelles, notamment du côté de la compression afin de réduire l’empreinte sur le stockage. Cet enjeu reste de taille : « on archive de plus en plus, des centaines de To par mois ». Ce sujet étant l’enjeu principal d’Internet Archive, des solutions ont été trouvées, notamment à travers la Petabox.
Dans un billet de blog, Internet Archive indique ajouter chaque trimestre 5 à 6 Po de stockage utile (soit 10 à 12 Po de stockage avec la redondance). Mais il y a d’autres éléments à prendre en compte. C’est notamment le cas des « ressources pour archiver avec les serveurs, les CPU, les réseaux...) ».
Nous demandons à l’ingénieur comment est géré le matériel chez Internet Archive : « Globalement, on a 99,99 % du matériel qui est juste à nous dans nos datacenters [...] Cela arrive que l’on passe des partenariats avec des entités externes qui peuvent nous prêter du matériel, mais c’est vraiment infime et cela ne se produit quasiment jamais. Ce n’est pas quelque chose vers lequel on tend spécifiquement, car nous préférons garder le contrôle ». L’indépendance technologique est là aussi jugée importante.
Partir à la découverte du web avec des wide crawls
Corentin Barreau nous parle d’ailleurs d’un projet qui lui tient particulièrement à cœur : les wide (et mega) crawls, qui sont effectués une ou plusieurs fois par an. Dans tous les cas, depuis des serveurs maison appartenant à Internet Archive.
Comme leur nom l’indique, ils ciblent très large : « On part sur une grande quantité d’URL et on configure les crawlers pour qu’ils en découvrent un maximum. On n’a pas de scope particulier, contrairement à certains projets où l’on reste concentré sur un site ou sur un sujet en particulier, qui va être nourri avec une source d’URL spécifiques ».
La première étape avant de lancer un tel crawl est d’essayer « de trouver de bonnes listes d’URL de bases ». Le 18eme wide crawl a ainsi été lancé entre le 11 aout et le 1er novembre 2021, en se basant sur le Majestic Million. Il s’agit d’un index contenant un million d’URL les plus populaires sur Internet.
Sur chaque page, les crawlers font trois sauts (hops), c’est-à-dire qu’ils suivent des liens jusqu’à trois niveaux de profondeur. « J’ai exclu les 100 premières parce qu’il y a des trucs genre Facebook et Twitter qui génèrent beaucoup, beaucoup d’URL et finalement ça pollue nos crawls, car nous n’arrivons jamais à tout archiver », nous explique Corentin Barreau.
Le résultat des courses : 75 To de données et environ 1 milliard d’URL archivées. Le prochain wide crawl « va être
beaucoup plus gros [et] se basera sur une liste de centaines de millions de domaines différents ». « C’est comme ça qu’on va découvrir de nouveaux sites ». Le développeur nous précise que c’est le « premier de son genre [...] Et au vu de la quantité de domaines en entrée, "seulement" 1 hop ».
Comme on peut s’en douter, le nombre de liens devrait suivre une courbe exponentielle, même avec un seul bond. Le lancement de ce mega crawl devrait intervenir dans les « prochaines semaines », sans doute au début de l’année 2022.
Save page now, « une source précieuse »
Mais selon l’ingénieur, la « meilleure source d’URL c’est Save page now », un outil qui permet à n’importe qui d’entrer l’adresse d’une page afin qu’elle soit archivée. « Les gens savent que ce qu’ils soumettent, c'est important. Si ça l’est pour eux, ça l’est sûrement pour beaucoup de gens [...] C’est l’un des projets les plus importants ».
Il existe aussi une version pensée pour les professionnels : Archive IT. C’est un logiciel web avec une interface « pour les sociétés et organisations qui ont des besoins d’archivage pour leurs propres contenus, mais pas que ». Là encore, les crawls sont exécutés par Internet Archive et les données stockées sur ses propres serveurs. Autant dire que le projet ne devrait pas se retrouver à court de contenus à archiver au cours des prochaines années... bien au contraire.
Internet Archive et la Wayback Machine en chiffres
Fin 2020, l’ensemble des données d’Internet Archive représentait plus de 70 Po, pour une capacité brute de 200 Po. La croissance est supérieure à 25 % par an, avec 5 à 6 Po de stockage utile (10 à 12 Po bruts) par trimestre au début de l’année.
À titre de comparaison, la barrière des 10 Po a été franchie il y a neuf ans. Pour gérer l’ensemble des données, ce ne sont pas moins de 750 serveurs (dont certains ont neuf ans) et 1 300 machines virtuelles. On y retrouve plus de 65 millions de médias au sens large (texte, films, audio, images, etc.). Internet Archive c’est aussi 1,5 million de visiteurs uniques par jour et 17 000 uploads journaliers des utilisateurs.
Lors de la rédaction de cet article, en 2022, la Wayback Machine totalisait à elle seule 588 milliards de pages web, et archivait 750 millions de nouvelles pages par jour. Elle en dénombre désormais 735 milliards. De son côté, Archive-IT représente 49 milliards de pages dont 14 000 collections et des partenariats avec plus de 800 organisations.
Internet Archive c’est aussi 41 millions de textes et de livres, 8,4 millions de vidéos (dont 2,4 millions de programmes TV), 14,7 millions d’enregistrements audio, 4,4 millions d’images et près de 890 000 logiciels, dont une bonne partie que l’on peut lancer directement depuis son navigateur grâce à des émulateurs.
[Interview] Internet Archive (Wayback Machine) : des bots, des crawls… et des humains
-
Archive vs scraping
-
1 milliard de pages archivées… chaque jour
-
Partir à la découverte du web avec des wide crawls
-
Save page now, « une source précieuse »
-
Internet Archive et la Wayback Machine en chiffres
Commentaires (5)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 02/02/2023 à 11h44
Les chiffres sont vraiment impressionnants. Sait-on d’où vient l’argent car toute l’infrastructure nécessaire à ce projet ne doit pas être donné. En gros, ils font ce que fait Google mais sans avoir les revenus de la publicité.
Le 02/02/2023 à 11h57
C’est une bonne question, subventions publiques ?
Le 02/02/2023 à 12h07
En regardant leur page about, c’est un mélange de financement par des organismes (fondations, musées, bibliothèques) et des dons de particuliers :
Archive.org Archive.org
Le 02/02/2023 à 11h56
Saviez-vous que la Commission d’enrichissement de la langue a proposé un équivalent français à scraping : moissonnage de données ?
Le 02/02/2023 à 15h32
Ah flûte, j’ai signalé une potentielle erreur de frappe mais c’est un ancien article.
@Sébastien Gavois: ne pas tenir compte de mon signalement
Au passage: article très intéressant, merci!