Les crawlers des IA menacent les sites scientifiques
Oups

Les bots des entreprises d'IA qui parcourent le web en permanence augmentent la fréquentation des sites de manière vertigineuse. Si tout type de sites est touché, les bases de données ouvertes et les revues scientifiques le sont particulièrement. Le blocage de ces bots n'est pas simple, mais CloudFlare a esquissé récemment une solution.
Le 03 juin à 16h35
6 min
Droit
Droit
Les bots des entreprises d'IA continuent, plus que jamais, à parcourir le web en permanence à la recherche d'information à récolter pour entrainer de nouveaux modèles mais aussi pour répondre en direct aux questions de leurs utilisateurs. En avril, Wikimédia alertait sur le sujet.
D'autres sites, moins connus mais avec des contenus tout aussi prisés, en font les frais : ceux qui hébergent des données et des articles scientifiques. Alors que les données de la recherche sont déjà menacées par l'administration Trump, les sites qui les hébergent doivent supporter un nombre important de connexions venant de ces bots.
Des contenus de haute qualité facilement accessibles
En effet, ces sites de revues sont réputés pour la qualité de leurs contenus qui sont, par définition, à la pointe de la connaissance scientifique. De même, les bases de données scientifiques sont des mines d'or de contenus. Elles rassemblent des informations agrégées par des experts d'un sujet, et souvent un tri et des métadonnées précises. Les chercheurs ont, de plus, récemment fait d'énormes efforts en ce qui concerne l'open access. Plus besoin de passer par un paywall ou même un compte pour accéder aux contenus ou aux données scientifiques. Bref, le rêve pour quelqu'un qui veut entrainer un modèle d'IA.
La revue Nature explique, par exemple, que DiscoverLife reçoit actuellement des millions de visites par jour. Jusqu'à récemment, cette base de données qui contient près de 3 millions de photos d'espèces d'animaux et de végétaux n'avaient aucun problème de trafic. Mais depuis le début de cette année, ça devient de plus en plus compliqué. « En février, environ dix millions de visites quotidiennes de robots sur DiscoverLife ont ralenti le site, interrompant de fait l'accès des humains », expliquaient récemment les responsables du site.
De même, en mars, Ian Mulvany, le CTO du British Medical Journal (BMJ, une des revues les plus connues dans le domaine) écrivait que « le problème est réel » et citait une des personnes de son équipe : « malheureusement, le trafic de robots sur les sites web de nos journaux a maintenant dépassé le trafic des utilisateurs réels. Ces robots agressifs tentent de parcourir des sites web entiers en peu de temps, ce qui surcharge nos serveurs web et a un impact négatif sur l'expérience des utilisateurs légitimes. (…) Plus de 100 millions de requêtes de robots proviennent de centres de données de Hong Kong et de Singapour au cours des trois dernières semaines ».
Auprès de Nature, le responsable de l'hébergeur de revues scientifique Highwire Press, Jes Kainth, témoigne aussi d' « une augmentation considérable de ce qu' [ils appellent] le trafic des "mauvais robots" ». Le géant de l'édition scientifique Wiley a aussi jugé bon de prendre position sur « le scraping illégal » mis en place par les développeurs d'IA. Ici, l'éditeur met plutôt en avant les problèmes de Copyright.
Un blocage par IP peu efficace
« Nous bloquons désormais plus de 190 millions d'adresses IP signalées par mois, mais les tentatives d'autres robots pour visiter le site restent une menace existentielle pour la plateforme », expliquaient le 20 mai dernier les responsables de DiscoverLife. Et effectivement, la course folle au blocage des blocs d'IP semble être la solution la plus simple et rapide à mettre en place.
Dans son billet de mars, Ian Mulvany expliquait que l'hébergeur de BMJ utilisait les services de blocage de bots de Cloudflare. Il remarquait cependant un problème : « lorsque le blocage du trafic de robots a été activé, il semblait que Cloudflare adoptait une approche large et bloquait presque tout ce qui ressemble à une communication de machine à machine ». Notamment, étaient bloquées l'utilisation des API mis en place ainsi que les méthodes d'authentification par lots d'IP. Plutôt problématique quand une bonne partie des utilisateurs sont des chercheurs dont l'autorisation d'accès est donnée par ce genre de méthodes et qui ont besoin d'accéder aux données sans forcément passer par le web.
Cloudflare propose une authentification des bots
Cloudflare et d'autres ont, depuis, mis en place des systèmes de labyrinthe pour bloquer les bots d'IA. Nous en parlions en avril. Mais, mi-mai, l'entreprise confirmait dans un billet de blog que « les mécanismes actuels de vérification des robots sont cassés ». Cloudflare pousse pour une autre approche : la signature de message HTTP. Stéphane Bortzmeyer détaille dans un billet de blog le fonctionnement de cette signature.
Cloudflare ajoute travailler « en étroite collaboration avec l'ensemble de l'industrie pour soutenir ces approches fondées sur des normes » et donne l'exemple d'OpenAI qui a commencé à signer ses demandes avec des signatures de message HTTP. L'entreprise creuse aussi d'autres pistes : « le protocole HTTP n'est pas le seul moyen de transmettre des signatures. Par exemple, un mécanisme qui a été utilisé dans le passé pour authentifier le trafic automatisé contre des points finaux sécurisés est mTLS, la présentation "mutuelle" des certificats TLS ».
L'entreprise pense que ces deux voies sont « des mécanismes prometteurs permettant aux propriétaires de robots et aux développeurs d'agents d'intelligence artificielle de s'authentifier de manière infalsifiable ». L'un de ces systèmes devrait, selon Cloudflare, permettre de remplacer les listes interminables de plages d'adresses IP et la vérification par User-Agent qui sont facilement falsifiables. Reste à voir si l'industrie de l'IA générative, qui jusque-là s'accommode bien de pouvoir moissonner le web sans demander d'autorisation, adoptera massivement ce genre de solutions.
Les crawlers des IA menacent les sites scientifiques
-
Des contenus de haute qualité facilement accessibles
-
Un blocage par IP peu efficace
-
Cloudflare propose une authentification des bots
Commentaires (16)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousModifié le 03/06/2025 à 17h06
Ça devient un vrai problème. La majorité du trafic de mon serveur c'est Amazon Crawler. Beaucoup plus supportable, mais ça cause de gros ralentissement par moment. Et là pour bloquer ça, je sais pas comment faire. Trop plages IP qui ont l'air de changer tout le temps.
Je ne doute pas qu'un site d'actu comme celui-ci doit avoir les mêmes problèmes.
Le 04/06/2025 à 10h04
Le 03/06/2025 à 17h09
Le 03/06/2025 à 19h54
D'ailleurs, l'info est donnée sur leur site web, et n'importe quel crawler d'IA aura vite fait de changer d'user agent pour rendre anubis totalement inutile. Le plus drôle, c'est que tu peux attendre d'atteindre anubis, voir qu'il te bloque, changer ton user-agent, rebalancer la requête et hop ca marche sans soucis ^^
Le 03/06/2025 à 17h40
2021: c'est une théorie du complot.
2025: au secours, c'est réel !
Le 03/06/2025 à 22h26
Le 03/06/2025 à 18h39
Le 03/06/2025 à 19h25
Le contenu semble legit, bon courage pour découvrir que c'est de la merde ^^
Le 03/06/2025 à 19h45
Le 03/06/2025 à 19h51
Le 03/06/2025 à 19h55
Le 04/06/2025 à 09h27
Modifié le 04/06/2025 à 10h15
https://korben.info/zip-bombs-protection-serveur-bots-malveillants.html
Le 03/06/2025 à 22h26
Ah, la philanthropie des acteurs de la tech.
Le 03/06/2025 à 22h45
Il me semble que ces institutions ont des firewalls... En général ces outils savent faire de la restriction. On peut même le faire chez soit sur son Linux favori. Un genre :
iptables -A INPUT -p tcp --dport 80 -i eth0 -m state --state NEW -m recent --set
iptables -A INPUT -p tcp --dport 80 -i eth0 -m state --state NEW -m recent --update --seconds 10 --hitcount 100 -j REJECT
Ce n'est peut être pas la seule solution mais s'ajoute bien dans un arsenal. Non ?
Oui ça fera bosser le kernel un peu; mais une fois "rejected" (ou 'DROPed' si on préfère) X fois, les bots passent au site suivant.
Le 03/06/2025 à 23h27