Connexion
Abonnez-vous

Les crawlers des IA menacent les sites scientifiques

Oups

Les crawlers des IA menacent les sites scientifiques

Les bots des entreprises d'IA qui parcourent le web en permanence augmentent la fréquentation des sites de manière vertigineuse. Si tout type de sites est touché, les bases de données ouvertes et les revues scientifiques le sont particulièrement. Le blocage de ces bots n'est pas simple, mais CloudFlare a esquissé récemment une solution.

Le 03 juin à 16h35

Les bots des entreprises d'IA continuent, plus que jamais, à parcourir le web en permanence à la recherche d'information à récolter pour entrainer de nouveaux modèles mais aussi pour répondre en direct aux questions de leurs utilisateurs. En avril, Wikimédia alertait sur le sujet.

D'autres sites, moins connus mais avec des contenus tout aussi prisés, en font les frais : ceux qui hébergent des données et des articles scientifiques. Alors que les données de la recherche sont déjà menacées par l'administration Trump, les sites qui les hébergent doivent supporter un nombre important de connexions venant de ces bots.

Des contenus de haute qualité facilement accessibles

En effet, ces sites de revues sont réputés pour la qualité de leurs contenus qui sont, par définition, à la pointe de la connaissance scientifique. De même, les bases de données scientifiques sont des mines d'or de contenus. Elles rassemblent des informations agrégées par des experts d'un sujet, et souvent un tri et des métadonnées précises. Les chercheurs ont, de plus, récemment fait d'énormes efforts en ce qui concerne l'open access. Plus besoin de passer par un paywall ou même un compte pour accéder aux contenus ou aux données scientifiques. Bref, le rêve pour quelqu'un qui veut entrainer un modèle d'IA.

La revue Nature explique, par exemple, que DiscoverLife reçoit actuellement des millions de visites par jour. Jusqu'à récemment, cette base de données qui contient près de 3 millions de photos d'espèces d'animaux et de végétaux n'avaient aucun problème de trafic. Mais depuis le début de cette année, ça devient de plus en plus compliqué. « En février, environ dix millions de visites quotidiennes de robots sur DiscoverLife ont ralenti le site, interrompant de fait l'accès des humains », expliquaient récemment les responsables du site.

De même, en mars, Ian Mulvany, le CTO du British Medical Journal (BMJ, une des revues les plus connues dans le domaine) écrivait que « le problème est réel » et citait une des personnes de son équipe : « malheureusement, le trafic de robots sur les sites web de nos journaux a maintenant dépassé le trafic des utilisateurs réels. Ces robots agressifs tentent de parcourir des sites web entiers en peu de temps, ce qui surcharge nos serveurs web et a un impact négatif sur l'expérience des utilisateurs légitimes. (…) Plus de 100 millions de requêtes de robots proviennent de centres de données de Hong Kong et de Singapour au cours des trois dernières semaines ».

Auprès de Nature, le responsable de l'hébergeur de revues scientifique Highwire Press, Jes Kainth, témoigne aussi d' « une augmentation considérable de ce qu' [ils appellent] le trafic des "mauvais robots" ». Le géant de l'édition scientifique Wiley a aussi jugé bon de prendre position sur « le scraping illégal » mis en place par les développeurs d'IA. Ici, l'éditeur met plutôt en avant les problèmes de Copyright.

Un blocage par IP peu efficace

« Nous bloquons désormais plus de 190 millions d'adresses IP signalées par mois, mais les tentatives d'autres robots pour visiter le site restent une menace existentielle pour la plateforme », expliquaient le 20 mai dernier les responsables de DiscoverLife. Et effectivement, la course folle au blocage des blocs d'IP semble être la solution la plus simple et rapide à mettre en place.

Dans son billet de mars, Ian Mulvany expliquait que l'hébergeur de BMJ utilisait les services de blocage de bots de Cloudflare. Il remarquait cependant un problème : « lorsque le blocage du trafic de robots a été activé, il semblait que Cloudflare adoptait une approche large et bloquait presque tout ce qui ressemble à une communication de machine à machine ». Notamment, étaient bloquées l'utilisation des API mis en place ainsi que les méthodes d'authentification par lots d'IP. Plutôt problématique quand une bonne partie des utilisateurs sont des chercheurs dont l'autorisation d'accès est donnée par ce genre de méthodes et qui ont besoin d'accéder aux données sans forcément passer par le web.

Cloudflare propose une authentification des bots

Cloudflare et d'autres ont, depuis, mis en place des systèmes de labyrinthe pour bloquer les bots d'IA. Nous en parlions en avril. Mais, mi-mai, l'entreprise confirmait dans un billet de blog que « les mécanismes actuels de vérification des robots sont cassés ». Cloudflare pousse pour une autre approche : la signature de message HTTP. Stéphane Bortzmeyer détaille dans un billet de blog le fonctionnement de cette signature.

Cloudflare ajoute travailler « en étroite collaboration avec l'ensemble de l'industrie pour soutenir ces approches fondées sur des normes » et donne l'exemple d'OpenAI qui a commencé à signer ses demandes avec des signatures de message HTTP. L'entreprise creuse aussi d'autres pistes : « le protocole HTTP n'est pas le seul moyen de transmettre des signatures. Par exemple, un mécanisme qui a été utilisé dans le passé pour authentifier le trafic automatisé contre des points finaux sécurisés est mTLS, la présentation "mutuelle" des certificats TLS ».

L'entreprise pense que ces deux voies sont « des mécanismes prometteurs permettant aux propriétaires de robots et aux développeurs d'agents d'intelligence artificielle de s'authentifier de manière infalsifiable ». L'un de ces systèmes devrait, selon Cloudflare, permettre de remplacer les listes interminables de plages d'adresses IP et la vérification par User-Agent qui sont facilement falsifiables. Reste à voir si l'industrie de l'IA générative, qui jusque-là s'accommode bien de pouvoir moissonner le web sans demander d'autorisation, adoptera massivement ce genre de solutions.

Commentaires (16)

votre avatar
Haha, et pas que les sites scientifiques. J'ai des IP Singapour qui ont fait tomber mon petit serveur, plusieurs fois par semaine. Résultat, j'ai bloqué tout Singapour, je pense. Désolé, mais c'était ça ou mon serveur down quasiment toute la journée.
Ça devient un vrai problème. La majorité du trafic de mon serveur c'est Amazon Crawler. Beaucoup plus supportable, mais ça cause de gros ralentissement par moment. Et là pour bloquer ça, je sais pas comment faire. Trop plages IP qui ont l'air de changer tout le temps.

Je ne doute pas qu'un site d'actu comme celui-ci doit avoir les mêmes problèmes. :transpi:
votre avatar
Pareil, j'ai une base de données d'un vieux forum phpBB qui a explosée à cause des milliers de sessions créées pour des robots de crawlers d'IA
votre avatar
C'est bien pour ça qu'on a vu des projets comme Anubis prendre de l'ampleur ses derniers temps.
votre avatar
Tu veux dire le truc qui bloque uniquement ceux qui ont "mozilla" dans leur user agent ? ^^

D'ailleurs, l'info est donnée sur leur site web, et n'importe quel crawler d'IA aura vite fait de changer d'user agent pour rendre anubis totalement inutile. Le plus drôle, c'est que tu peux attendre d'atteindre anubis, voir qu'il te bloque, changer ton user-agent, rebalancer la requête et hop ca marche sans soucis ^^
votre avatar
malheureusement, le trafic de robots sur les sites web de nos journaux a maintenant dépassé le trafic des utilisateurs réels.
Dead internet.

2021: c'est une théorie du complot.
2025: au secours, c'est réel !
votre avatar
C'est carrément ça.
votre avatar
Moi je tenterai bien une petite Zip bomb, ça pourrait peut être les calmer !
votre avatar
J'imagine bien le truc : un lorem ipsum variant de 0.5Mo à 10M, avec des phrases à la pipotron.

Le contenu semble legit, bon courage pour découvrir que c'est de la merde ^^
votre avatar
Ah oui pas mal aussi, je pensais surtout à planter le bot par une décompression générant des dizaines de Go, mais là c'est encore plus vicelard !
votre avatar
Le truc, c'est que la zip bomb, c'est vite visible. Là, c'est beaucoup plus sioux ^^
votre avatar
Yes !
votre avatar
Mais encore mieux : en utilisant une IA pour générer un site à "peu près" crédible, pour rendre la détection de la zipbomb encore plus vicieuse :)
votre avatar
Amusant, je tombe juste sur cet article de notre ami Korben (qui, au passage, génère de plus en plus ses articles par IA)

https://korben.info/zip-bombs-protection-serveur-bots-malveillants.html
votre avatar
Cloudflare et d'autres ont, depuis, mis en place des systèmes de labyrinthe pour bloquer les bots d'IA.
Histoire de juste laisser passer les leur.

Ah, la philanthropie des acteurs de la tech.
votre avatar
Le problème du robot par opposition à l'humain c'est qu'il "bourine" comme un naze.

Il me semble que ces institutions ont des firewalls... En général ces outils savent faire de la restriction. On peut même le faire chez soit sur son Linux favori. Un genre :


iptables -A INPUT -p tcp --dport 80 -i eth0 -m state --state NEW -m recent --set
iptables -A INPUT -p tcp --dport 80 -i eth0 -m state --state NEW -m recent --update --seconds 10 --hitcount 100 -j REJECT


Ce n'est peut être pas la seule solution mais s'ajoute bien dans un arsenal. Non ?

Oui ça fera bosser le kernel un peu; mais une fois "rejected" (ou 'DROPed' si on préfère) X fois, les bots passent au site suivant.
votre avatar
L'authentification des bots ça marchera pas. S'ils sont pas volontaires pour limiter leur agressivité, ils le seront pas non plus pour se déclarer. Surtout qu'on a de bonnes raisons de croire que les crawlers pour les IA passent par des proxys sur des postes d'humains : https://jan.wildeboer.net/2025/04/Web-is-Broken-Botnet-Part-2/

Les crawlers des IA menacent les sites scientifiques

  • Des contenus de haute qualité facilement accessibles

  • Un blocage par IP peu efficace

  • Cloudflare propose une authentification des bots

Fermer