Les crawlers des IA menacent les sites scientifiques

Oups

Illustration : Flock

Martin Clavey

Le 03 juin 2025 à 16h35

Les bots des entreprises d’IA qui parcourent le web en permanence augmentent la fréquentation des sites de manière vertigineuse. Si tout type de sites est touché, les bases de données ouvertes et les revues scientifiques le sont particulièrement. Le blocage de ces bots n’est pas simple, mais CloudFlare a esquissé récemment une solution.

Les crawlers des IA menacent les sites scientifiques

Oups

Illustration : Flock

Martin Clavey

Le 03 juin 2025 à 16h35

Droit

6 min

Les bots des entreprises d’IA continuent, plus que jamais, à parcourir le web en permanence à la recherche d’information à récolter pour entrainer de nouveaux modèles mais aussi pour répondre en direct aux questions de leurs utilisateurs. En avril, Wikimédia alertait sur le sujet.

D’autres sites, moins connus mais avec des contenus tout aussi prisés, en font les frais : ceux qui hébergent des données et des articles scientifiques. Alors que les données de la recherche sont déjà menacées par l’administration Trump, les sites qui les hébergent doivent supporter un nombre important de connexions venant de ces bots.

Des contenus de haute qualité facilement accessibles

En effet, ces sites de revues sont réputés pour la qualité de leurs contenus qui sont, par définition, à la pointe de la connaissance scientifique. De même, les bases de données scientifiques sont des mines d’or de contenus. Elles rassemblent des informations agrégées par des experts d’un sujet, et souvent un tri et des métadonnées précises. Les chercheurs ont, de plus, récemment fait d’énormes efforts en ce qui concerne l’open access. Plus besoin de passer par un paywall ou même un compte pour accéder aux contenus ou aux données scientifiques. Bref, le rêve pour quelqu’un qui veut entrainer un modèle d’IA.

La revue Nature explique, par exemple, que DiscoverLife reçoit actuellement des millions de visites par jour. Jusqu’à récemment, cette base de données qui contient près de 3 millions de photos d’espèces d’animaux et de végétaux n’avaient aucun problème de trafic. Mais depuis le début de cette année, ça devient de plus en plus compliqué. « En février, environ dix millions de visites quotidiennes de robots sur DiscoverLife ont ralenti le site, interrompant de fait l’accès des humains », expliquaient récemment les responsables du site.

De même, en mars, Ian Mulvany, le CTO du British Medical Journal (BMJ, une des revues les plus connues dans le domaine) écrivait que « le problème est réel » et citait une des personnes de son équipe : « malheureusement, le trafic de robots sur les sites web de nos journaux a maintenant dépassé le trafic des utilisateurs réels. Ces robots agressifs tentent de parcourir des sites web entiers en peu de temps, ce qui surcharge nos serveurs web et a un impact négatif sur l’expérience des utilisateurs légitimes. (…) Plus de 100 millions de requêtes de robots proviennent de centres de données de Hong Kong et de Singapour au cours des trois dernières semaines ».

Auprès de Nature, le responsable de l’hébergeur de revues scientifique Highwire Press, Jes Kainth, témoigne aussi d’ « une augmentation considérable de ce qu’ [ils appellent] le trafic des « mauvais robots » ». Le géant de l’édition scientifique Wiley a aussi jugé bon de prendre position sur « le scraping illégal » mis en place par les développeurs d’IA. Ici, l’éditeur met plutôt en avant les problèmes de Copyright.

Un blocage par IP peu efficace

« Nous bloquons désormais plus de 190 millions d’adresses IP signalées par mois, mais les tentatives d’autres robots pour visiter le site restent une menace existentielle pour la plateforme », expliquaient le 20 mai dernier les responsables de DiscoverLife. Et effectivement, la course folle au blocage des blocs d’IP semble être la solution la plus simple et rapide à mettre en place.

Dans son billet de mars, Ian Mulvany expliquait que l’hébergeur de BMJ utilisait les services de blocage de bots de Cloudflare. Il remarquait cependant un problème : « lorsque le blocage du trafic de robots a été activé, il semblait que Cloudflare adoptait une approche large et bloquait presque tout ce qui ressemble à une communication de machine à machine ». Notamment, étaient bloquées l’utilisation des API mis en place ainsi que les méthodes d’authentification par lots d’IP. Plutôt problématique quand une bonne partie des utilisateurs sont des chercheurs dont l’autorisation d’accès est donnée par ce genre de méthodes et qui ont besoin d’accéder aux données sans forcément passer par le web.

Cloudflare propose une authentification des bots

Cloudflare et d’autres ont, depuis, mis en place des systèmes de labyrinthe pour bloquer les bots d’IA. Nous en parlions en avril. Mais, mi-mai, l’entreprise confirmait dans un billet de blog que « les mécanismes actuels de vérification des robots sont cassés ». Cloudflare pousse pour une autre approche : la signature de message HTTP. Stéphane Bortzmeyer détaille dans un billet de blog le fonctionnement de cette signature.

Cloudflare ajoute travailler « en étroite collaboration avec l’ensemble de l’industrie pour soutenir ces approches fondées sur des normes » et donne l’exemple d’OpenAI qui a commencé à signer ses demandes avec des signatures de message HTTP. L’entreprise creuse aussi d’autres pistes : « le protocole HTTP n’est pas le seul moyen de transmettre des signatures. Par exemple, un mécanisme qui a été utilisé dans le passé pour authentifier le trafic automatisé contre des points finaux sécurisés est mTLS, la présentation « mutuelle » des certificats TLS ».

L’entreprise pense que ces deux voies sont « des mécanismes prometteurs permettant aux propriétaires de robots et aux développeurs d’agents d’intelligence artificielle de s’authentifier de manière infalsifiable ». L’un de ces systèmes devrait, selon Cloudflare, permettre de remplacer les listes interminables de plages d’adresses IP et la vérification par User-Agent qui sont facilement falsifiables. Reste à voir si l’industrie de l’IA générative, qui jusque-là s’accommode bien de pouvoir moissonner le web sans demander d’autorisation, adoptera massivement ce genre de solutions.

Commentaires (16)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

zefling Premium

Modifié le 03/06/2025 à 17h06

Haha, et pas que les sites scientifiques. J'ai des IP Singapour qui ont fait tomber mon petit serveur, plusieurs fois par semaine. Résultat, j'ai bloqué tout Singapour, je pense. Désolé, mais c'était ça ou mon serveur down quasiment toute la journée.
Ça devient un vrai problème. La majorité du trafic de mon serveur c'est Amazon Crawler. Beaucoup plus supportable, mais ça cause de gros ralentissement par moment. Et là pour bloquer ça, je sais pas comment faire. Trop plages IP qui ont l'air de changer tout le temps.

Je ne doute pas qu'un site d'actu comme celui-ci doit avoir les mêmes problèmes.

Rowin Premium

Le 04/06/2025 à 10h04

Pareil, j'ai une base de données d'un vieux forum phpBB qui a explosée à cause des milliers de sessions créées pour des robots de crawlers d'IA

Patatt Premium

Le 03/06/2025 à 17h09

C'est bien pour ça qu'on a vu des projets comme Anubis prendre de l'ampleur ses derniers temps.

eliumnick

Le 03/06/2025 à 19h54

Tu veux dire le truc qui bloque uniquement ceux qui ont "mozilla" dans leur user agent ? ^^

D'ailleurs, l'info est donnée sur leur site web, et n'importe quel crawler d'IA aura vite fait de changer d'user agent pour rendre anubis totalement inutile. Le plus drôle, c'est que tu peux attendre d'atteindre anubis, voir qu'il te bloque, changer ton user-agent, rebalancer la requête et hop ca marche sans soucis ^^

127.0.0.1

Le 03/06/2025 à 17h40

malheureusement, le trafic de robots sur les sites web de nos journaux a maintenant dépassé le trafic des utilisateurs réels.

Dead internet.

2021: c'est une théorie du complot.
2025: au secours, c'est réel !

SebGF Premium

Le 03/06/2025 à 22h26

C'est carrément ça.

iMaman Premium

Le 03/06/2025 à 18h39

Moi je tenterai bien une petite Zip bomb, ça pourrait peut être les calmer !

fdorin Premium

Le 03/06/2025 à 19h25

J'imagine bien le truc : un lorem ipsum variant de 0.5Mo à 10M, avec des phrases à la pipotron.

Le contenu semble legit, bon courage pour découvrir que c'est de la merde ^^

iMaman Premium

Le 03/06/2025 à 19h45

Ah oui pas mal aussi, je pensais surtout à planter le bot par une décompression générant des dizaines de Go, mais là c'est encore plus vicelard !

fdorin Premium

Le 03/06/2025 à 19h51

Le truc, c'est que la zip bomb, c'est vite visible. Là, c'est beaucoup plus sioux ^^

iMaman Premium

Le 03/06/2025 à 19h55

Yes !

Baldurien Premium

Le 04/06/2025 à 09h27

Mais encore mieux : en utilisant une IA pour générer un site à "peu près" crédible, pour rendre la détection de la zipbomb encore plus vicieuse :)

Pretarian

Modifié le 04/06/2025 à 10h15

Amusant, je tombe juste sur cet article de notre ami Korben (qui, au passage, génère de plus en plus ses articles par IA)

https://korben.info/zip-bombs-protection-serveur-bots-malveillants.html

SebGF Premium

Le 03/06/2025 à 22h26

Cloudflare et d'autres ont, depuis, mis en place des systèmes de labyrinthe pour bloquer les bots d'IA.

Histoire de juste laisser passer les leur.

Ah, la philanthropie des acteurs de la tech.

TexMex Premium

Le 03/06/2025 à 22h45

Le problème du robot par opposition à l'humain c'est qu'il "bourine" comme un naze.

Il me semble que ces institutions ont des firewalls... En général ces outils savent faire de la restriction. On peut même le faire chez soit sur son Linux favori. Un genre :


iptables -A INPUT -p tcp --dport 80 -i eth0 -m state --state NEW -m recent --set
iptables -A INPUT -p tcp --dport 80 -i eth0 -m state --state NEW -m recent --update --seconds 10 --hitcount 100 -j REJECT

Ce n'est peut être pas la seule solution mais s'ajoute bien dans un arsenal. Non ?

Oui ça fera bosser le kernel un peu; mais une fois "rejected" (ou 'DROPed' si on préfère) X fois, les bots passent au site suivant.

enerhpozyks Premium

Le 03/06/2025 à 23h27

L'authentification des bots ça marchera pas. S'ils sont pas volontaires pour limiter leur agressivité, ils le seront pas non plus pour se déclarer. Surtout qu'on a de bonnes raisons de croire que les crawlers pour les IA passent par des proxys sur des postes d'humains : https://jan.wildeboer.net/2025/04/Web-is-Broken-Botnet-Part-2/