La Wayback Machine victime indirecte des crawlers des IA génératives ?

Imprimer Internet avant que ça ne s'arrête ?

Illustration : Flock

Martin Clavey

Le 04 février à 11h17

De plus en plus de sites web, dont ceux de média importants, font tout pour bloquer l’outil d’archivage du web d’Internet Archive, la Wayback Machine. Ils soupçonnent les entreprises d’IA génératives de récupérer leurs contenus de manière indirecte via cet outil pour entrainer leurs modèles. D’autres outils d’archivage moins conventionnels comme Common Crawl ou Anna’s Archive sont aussi visés par les éditeurs de sites.

La Wayback Machine victime indirecte des crawlers des IA génératives ?

Imprimer Internet avant que ça ne s'arrête ?

Illustration : Flock

Martin Clavey

Le 04 février à 11h17

IA et algorithmes

6 min

Plusieurs médias commencent à activement prendre des mesures pour bloquer l’archivage de leurs articles par la Wayback Machine. Ce site géré par I’organisation à but non lucratif Internet Archive permet d’accéder à 1 000 milliards de pages qu’elle a sauvegardées en presque 30 ans.

Mais depuis l’arrivée de l’IA générative, leurs crawlers parcourent le web à l’affût de toutes les pages qui pourraient renforcer l’entraînement des modèles de langage et de leur système de RAG (Retrieval-augmented generation) qui leur permettent de citer des documents récents. Et ils posent de sérieux problèmes aux sites web en augmentant de façon disproportionnée le nombre de visites des robots, mettant en péril les infrastructures. Ainsi, l’année dernière des responsables de sites scientifiques mais aussi la Fondation Wikimédia avaient alerté sur le problème.

Les sites de média ne font pas exception, d’autant que leurs contenus sont particulièrement prisés des entreprises d’IA générative qui basent leur connaissance de l’actualité essentiellement sur le travail des journalistes qui travaillent pour ces médias. Une bonne partie d’entre eux utilisent bien le fichier robots.txt pour les bloquer. Ainsi, selon un relevé du journaliste Ben Welsh, la moitié des 1 157 sites de presse qu’il a recensés bloque maintenant le robot d’OpenAI et 44 % celui qu’utilise Google pour Gemini.

Comme le faisait remarquer Cloudflare en août dernier, certaines entreprises d’IA générative masquent leurs crawlers web en modifiant leur agent utilisateur pour se faire passer pour ce qu’ils ne sont pas.

Mais, selon Robert Hahn, directeur des affaires commerciales et des licences du journal britannique The Guardian, certains passeraient aussi par des voies indirectes comme Internet Archive pour récupérer les contenus des médias. « Beaucoup de ces entreprises spécialisées dans l’IA recherchent des bases de données structurées et facilement accessibles », affirme-t-il au blog du Nieman Lab, « l’API d’Internet Archive serait un endroit évident où brancher leurs machines et extraire la propriété intellectuelle », tout en admettant que la Wayback Machine en elle-même serait « moins risquée ». Le responsable du média britannique confirme donc avoir pris des mesures, en collaboration avec Internet Archive, pour retirer les articles du Guardian de cette API et de l’outil de l’organisation.

En France, le Monde bloque, Le Figaro et Libération laissent passer

Il reste 67% de l'article à découvrir.

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

La suite de cet article est réservée à nos abonnés

Soutenez un journalisme indépendant,
expert et sans pub.

Abonnez-vous sur next.ink/subs

Commentaires (8)

Neliger Premium

Modifié le 4 février à 12h28

On rappelle qu'Internet Archive ne respecte plus le consentement des éditeurs de site depuis plusieurs années - et de façon volontaire et assumée - en ne tenant plus compte du choix exprimé dans le robots.txt :

Archive.org

C'est triste mais depuis ce jour, je suis devenu fermement opposé à ce projet. Le consentement, c'est important, là ils agissent exactement comme les robots de LLM et sont traités de la même façon, c'est parfaitement logique 🤷‍♂️

Martin Clavey Équipe

Le 4 février à 13h53

Le rappel est fait dans l'actu ;)

Grutorel Premium

Le 4 février à 14h18

A partir du moment où les serveurs sont dans une église dans le but de recréer une bibliothèque numérique du savoir humain pour les générations futur. Ce n'est pas un simple LLM, c'est non lucratif et sans aucune forme de censure, ça "aspire" tout le web, sans aucune distinction.
par contre, faire comment reddit et mettre un paywall pour les LLM pour financer ce projet, ça ne me dérange pas.
Les sites d'actualités sont bien sur visé en priorité par les LLM, car la tendance est de faire "des agent journalistes" pour ecrire des tonnes de news, pour noyer l'information.

Neliger Premium

Le 4 février à 16h04

Ce n'est pas parceque c'est "non lucratif" que le consentement est à mettre à la poubelle.

mrintrepide Premium

Le 4 février à 23h01

Je ne suis pas sûr que le mot consentement est approprié pour une personne morale.
Que cela soit un site d'entreprise/organisation ou juste un site perso.

bilbonsacquet Premium

Le 5 février à 16h59

C'est exactement pareil pour la BNF d'ailleurs mais par contre, ils n'ont pas l'outil wayback machine.

La BNF utilise d'ailleurs l'outil d'Internet Archive pour l'indexation.

fred42 Premium

Le 5 février à 18h29

La différence, pour la BNF, c'est que la loi française lui impose cette collecte dans le cadre du dépôt légal.

potn Premium

Le 5 février à 00h12

Question peut-être bête, mais les indexations de pages de Internet Archive ne sont-ils pas faits à l'initiative des utilisateurs ? C'est (aussi) automatique ?

Est-ce que Internet Archive "passe outre" le consentement du site tout le temps, ou uniquement lorsqu'une page est explicitement demandée à être archivée par un utilisateur ?