Connexion Premium

La Wayback Machine victime indirecte des crawlers des IA génératives ?

Imprimer Internet avant que ça ne s'arrête ?

La Wayback Machine victime indirecte des crawlers des IA génératives ?

De plus en plus de sites web, dont ceux de média importants, font tout pour bloquer l'outil d'archivage du web d'Internet Archive, la Wayback Machine. Ils soupçonnent les entreprises d'IA génératives de récupérer leurs contenus de manière indirecte via cet outil pour entrainer leurs modèles. D'autres outils d'archivage moins conventionnels comme Common Crawl ou Anna's Archive sont aussi visés par les éditeurs de sites.

Le 04 février à 11h17

Plusieurs médias commencent à activement prendre des mesures pour bloquer l'archivage de leurs articles par la Wayback Machine. Ce site géré par I'organisation à but non lucratif Internet Archive permet d'accéder à 1 000 milliards de pages qu'elle a sauvegardées en presque 30 ans.

Mais depuis l'arrivée de l'IA générative, leurs crawlers parcourent le web à l’affût de toutes les pages qui pourraient renforcer l’entraînement des modèles de langage et de leur système de RAG (Retrieval-augmented generation) qui leur permettent de citer des documents récents. Et ils posent de sérieux problèmes aux sites web en augmentant de façon disproportionnée le nombre de visites des robots, mettant en péril les infrastructures. Ainsi, l'année dernière des responsables de sites scientifiques mais aussi la Fondation Wikimédia avaient alerté sur le problème.

Les sites de média ne font pas exception, d'autant que leurs contenus sont particulièrement prisés des entreprises d'IA générative qui basent leur connaissance de l'actualité essentiellement sur le travail des journalistes qui travaillent pour ces médias. Une bonne partie d'entre eux utilisent bien le fichier robots.txt pour les bloquer. Ainsi, selon un relevé du journaliste Ben Welsh, la moitié des 1 157 sites de presse qu'il a recensés bloque maintenant le robot d'OpenAI et 44 % celui qu'utilise Google pour Gemini.

Comme le faisait remarquer Cloudflare en août dernier, certaines entreprises d'IA générative masquent leurs crawlers web en modifiant leur agent utilisateur pour se faire passer pour ce qu’ils ne sont pas.

Mais, selon Robert Hahn, directeur des affaires commerciales et des licences du journal britannique The Guardian, certains passeraient aussi par des voies indirectes comme Internet Archive pour récupérer les contenus des médias. « Beaucoup de ces entreprises spécialisées dans l'IA recherchent des bases de données structurées et facilement accessibles », affirme-t-il au blog du Nieman Lab, « l'API d'Internet Archive serait un endroit évident où brancher leurs machines et extraire la propriété intellectuelle », tout en admettant que la Wayback Machine en elle-même serait « moins risquée ». Le responsable du média britannique confirme donc avoir pris des mesures, en collaboration avec Internet Archive, pour retirer les articles du Guardian de cette API et de l'outil de l'organisation.

En France, le Monde bloque, Le Figaro et Libération laissent passer

Il reste 59% de l'article à découvrir.

Déjà abonné ? Se connecter

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Commentaires (8)

votre avatar
On rappelle qu'Internet Archive ne respecte plus le consentement des éditeurs de site depuis plusieurs années - et de façon volontaire et assumée - en ne tenant plus compte du choix exprimé dans le robots.txt :

blog.archive.org Archive.org

C'est triste mais depuis ce jour, je suis devenu fermement opposé à ce projet. Le consentement, c'est important, là ils agissent exactement comme les robots de LLM et sont traités de la même façon, c'est parfaitement logique 🤷‍♂️
votre avatar
Le rappel est fait dans l'actu ;)
votre avatar
A partir du moment où les serveurs sont dans une église dans le but de recréer une bibliothèque numérique du savoir humain pour les générations futur. Ce n'est pas un simple LLM, c'est non lucratif et sans aucune forme de censure, ça "aspire" tout le web, sans aucune distinction.
par contre, faire comment reddit et mettre un paywall pour les LLM pour financer ce projet, ça ne me dérange pas.
Les sites d'actualités sont bien sur visé en priorité par les LLM, car la tendance est de faire "des agent journalistes" pour ecrire des tonnes de news, pour noyer l'information.
votre avatar
Ce n'est pas parceque c'est "non lucratif" que le consentement est à mettre à la poubelle.
votre avatar
Je ne suis pas sûr que le mot consentement est approprié pour une personne morale.
Que cela soit un site d'entreprise/organisation ou juste un site perso.
votre avatar
C'est exactement pareil pour la BNF d'ailleurs mais par contre, ils n'ont pas l'outil wayback machine.

La BNF utilise d'ailleurs l'outil d'Internet Archive pour l'indexation.
votre avatar
La différence, pour la BNF, c'est que la loi française lui impose cette collecte dans le cadre du dépôt légal.
votre avatar
Question peut-être bête, mais les indexations de pages de Internet Archive ne sont-ils pas faits à l'initiative des utilisateurs ? C'est (aussi) automatique ?

Est-ce que Internet Archive "passe outre" le consentement du site tout le temps, ou uniquement lorsqu'une page est explicitement demandée à être archivée par un utilisateur ?

La Wayback Machine victime indirecte des crawlers des IA génératives ?

  • En France, le Monde bloque, Le Figaro et Libération laissent passer

  • Pas de changements globaux récemment selon Internet Archive

  • Common Crawl et Anna's Archive aussi dans le viseur

Fermer