La Wayback Machine victime indirecte des crawlers des IA génératives ?
Imprimer Internet avant que ça ne s'arrête ?
De plus en plus de sites web, dont ceux de média importants, font tout pour bloquer l'outil d'archivage du web d'Internet Archive, la Wayback Machine. Ils soupçonnent les entreprises d'IA génératives de récupérer leurs contenus de manière indirecte via cet outil pour entrainer leurs modèles. D'autres outils d'archivage moins conventionnels comme Common Crawl ou Anna's Archive sont aussi visés par les éditeurs de sites.
Le 04 février à 11h17
6 min
IA et algorithmes
IA
Plusieurs médias commencent à activement prendre des mesures pour bloquer l'archivage de leurs articles par la Wayback Machine. Ce site géré par I'organisation à but non lucratif Internet Archive permet d'accéder à 1 000 milliards de pages qu'elle a sauvegardées en presque 30 ans.
Mais depuis l'arrivée de l'IA générative, leurs crawlers parcourent le web à l’affût de toutes les pages qui pourraient renforcer l’entraînement des modèles de langage et de leur système de RAG (Retrieval-augmented generation) qui leur permettent de citer des documents récents. Et ils posent de sérieux problèmes aux sites web en augmentant de façon disproportionnée le nombre de visites des robots, mettant en péril les infrastructures. Ainsi, l'année dernière des responsables de sites scientifiques mais aussi la Fondation Wikimédia avaient alerté sur le problème.
Les sites de média ne font pas exception, d'autant que leurs contenus sont particulièrement prisés des entreprises d'IA générative qui basent leur connaissance de l'actualité essentiellement sur le travail des journalistes qui travaillent pour ces médias. Une bonne partie d'entre eux utilisent bien le fichier robots.txt pour les bloquer. Ainsi, selon un relevé du journaliste Ben Welsh, la moitié des 1 157 sites de presse qu'il a recensés bloque maintenant le robot d'OpenAI et 44 % celui qu'utilise Google pour Gemini.
Comme le faisait remarquer Cloudflare en août dernier, certaines entreprises d'IA générative masquent leurs crawlers web en modifiant leur agent utilisateur pour se faire passer pour ce qu’ils ne sont pas.
Mais, selon Robert Hahn, directeur des affaires commerciales et des licences du journal britannique The Guardian, certains passeraient aussi par des voies indirectes comme Internet Archive pour récupérer les contenus des médias. « Beaucoup de ces entreprises spécialisées dans l'IA recherchent des bases de données structurées et facilement accessibles », affirme-t-il au blog du Nieman Lab, « l'API d'Internet Archive serait un endroit évident où brancher leurs machines et extraire la propriété intellectuelle », tout en admettant que la Wayback Machine en elle-même serait « moins risquée ». Le responsable du média britannique confirme donc avoir pris des mesures, en collaboration avec Internet Archive, pour retirer les articles du Guardian de cette API et de l'outil de l'organisation.
En France, le Monde bloque, Le Figaro et Libération laissent passer
Il reste 59% de l'article à découvrir.
Déjà abonné ? Se connecter
Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.
Accédez en illimité aux articles
Profitez d'un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
La Wayback Machine victime indirecte des crawlers des IA génératives ?
-
En France, le Monde bloque, Le Figaro et Libération laissent passer
-
Pas de changements globaux récemment selon Internet Archive
-
Common Crawl et Anna's Archive aussi dans le viseur
Commentaires (8)
Modifié le 04/02/2026 à 12h28
C'est triste mais depuis ce jour, je suis devenu fermement opposé à ce projet. Le consentement, c'est important, là ils agissent exactement comme les robots de LLM et sont traités de la même façon, c'est parfaitement logique 🤷♂️
Le 04/02/2026 à 13h53
Le 04/02/2026 à 14h18
par contre, faire comment reddit et mettre un paywall pour les LLM pour financer ce projet, ça ne me dérange pas.
Les sites d'actualités sont bien sur visé en priorité par les LLM, car la tendance est de faire "des agent journalistes" pour ecrire des tonnes de news, pour noyer l'information.
Le 04/02/2026 à 16h04
Le 04/02/2026 à 23h01
Que cela soit un site d'entreprise/organisation ou juste un site perso.
Le 05/02/2026 à 16h59
La BNF utilise d'ailleurs l'outil d'Internet Archive pour l'indexation.
Le 05/02/2026 à 18h29
Le 05/02/2026 à 00h12
Est-ce que Internet Archive "passe outre" le consentement du site tout le temps, ou uniquement lorsqu'une page est explicitement demandée à être archivée par un utilisateur ?
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?