Cloudflare va bloquer les crawlers des IA par défaut
Humains, non-humains

La récupération sauvage de contenus en ligne pour entrainer les IA génératives va devenir plus compliquée. Cloudflare a décidé d'activer par défaut ses outils qui permettent de bloquer les bots des IA sur les sites de ses clients. L'entreprise teste en parallèle un programme permettant de les débloquer moyennant finance.
Le 01 juillet à 16h55
4 min
Internet
Internet
Face au sérieux problème créé par les crawlers d'IA sur l'accès aux sites web, Cloudflare vient d'annoncer qu'elle passait à l'offensive. Après avoir développé des outils pour les bloquer et avoir donné la possibilité de les utiliser gratuitement, l'entreprise passe à la vitesse supérieure en les activant par défaut sur tous les sites qui utilisent ses solutions.
Des sites qui vacillent à cause du trafic généré par les crawlers
Il faut dire que la question devient de plus en plus problématique pour les responsables de sites web. En passant très régulièrement sur les différentes pages à l'affût de la moindre information nouvelle, les crawlers mettent en péril de nombreux sites web, ceux de projets scientifiques, de logiciels libres et ont même de fortes répercussions sur les activités de Wikimédia.
Un trafic artificiel qui prend le pas sur le trafic humain
En plus de l'infrastructure que cette augmentation soudaine de trafic artificiel implique, les outils qui utilisent ces crawlers ont de moins en moins tendance à renvoyer de visiteurs réels aux sites. Le 19 juin, lors d'un événement organisé à Cannes par Axios, le CEO de Cloudflare, Matthew Prince expliquait cette rapide évolution.
Il y a 10 ans, pour un visiteur qui visitait un site depuis le moteur de recherche de Google, les robots de Google parcouraient 2 pages.
Il y a seulement six mois, selon lui, ce ratio était de :
- 1 visiteur pour 6 pages parcourues par les robots de Google
- 1 visiteur pour 250 pages parcourues par les robots d'OpenAI
- 1 visiteur pour 6 000 pages parcourues par les robots d'Anthropic.
Mais, toujours selon Matthew Prince, maintenant ce ratio est passé à :
- 1 visiteur pour 18 pages parcourues chez Google
- 1 visiteur pour 1 500 pages parcourues chez OpenAI
- 1 visiteur pour 60 000 pages parcourues chez Anthropic
Comme il le résume, « les gens ne lisent plus les notes de bas de page ».
Son entreprise a encore fait des mesures la semaine d'après (du 19 au 26 juin). Et ces chiffres ont encore gonflés. Dans un billet de blog publié ce mardi 1er juillet, elle montre que le ratio mesuré pour Anthropic était de 70 900 pages parcourues par les robots d'Anthropic pour un visiteur qui cliquait sur le lien vers l'article original.
Des outils par défaut et une option pour un blocage uniquement sur les pages comportant des pubs
Cloudflare explique dans un autre billet de blog qu'elle fournit maintenant deux outils pour ses clients. Le premier permet de gérer de façon fine la rédaction du fichier robots.txt qui indique aux différents robots s'ils peuvent ou pas parcourir le site et ses différentes sections. C'est une première étape, mais si le respect de ce fichier est une bonne pratique, les responsables de robots sans vergogne peuvent passer outre.
Le deuxième outil proposé par Cloudflare permet de bloquer le parcours du site par tous les robots. L'entreprise propose deux options : soit de bloquer les robots sur toutes les pages, soit de les bloquer seulement sur celles qui contiennent des publicités.

Une arme de négociation pour les éditeurs
Concernant la fiabilité du blocage, « je suis convaincu à 100 % que nous pouvons les empêcher d'accéder au contenu », a affirmé Matthew Prince au New York Times. Ajoutant, « et s'ils n'ont pas accès au contenu, leurs produits seront moins bons ». L'idée étant d'amener les entreprises d'IA génératives à négocier, notamment avec les éditeurs des sites les plus importants.
« Jusqu'à présent, les entreprises d'IA n'avaient pas besoin de payer pour obtenir des licences de contenu, car elles savaient qu'elles pouvaient les prendre sans conséquences », explique à Wired le CEO de The Atlantic. « Désormais, elles devront négocier, et cela deviendra un avantage concurrentiel pour les entreprises d'IA qui parviendront à conclure des accords plus nombreux et de meilleure qualité avec des éditeurs plus nombreux et de meilleure qualité ».
Cloudflare va bloquer les crawlers des IA par défaut
-
Des sites qui vacillent à cause du trafic généré par les crawlers
-
Un trafic artificiel qui prend le pas sur le trafic humain
-
Des outils par défaut et une option pour un blocage uniquement sur les pages comportant des pubs
-
Une arme de négociation pour les éditeurs
Commentaires (30)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 01/07/2025 à 16h59
Moins cool si c’est une monétisation en plus pour cloudflare si ce n’est pas dans la version gratuite.
Le souci des crowler ça reste le Google bot qui est utilisé pour être référencé par Google et pour être pillé pour gemini… donc si on veut être référencé, il faut accepter d’être pillé.
Le 01/07/2025 à 17h50
Ecosia / Qwant probablement aussi.
Aucun moyen d'être sûr vu que ce sont des outils "boites noires".
De plus, ça me gène de confier une bonne partie du web à CloudFlare, boite américaine qui devient un méga "SPOF" (Single point of failure), qui est d'ailleurs tombé récemment à cause de Google Cloud.
Le 01/07/2025 à 18h20
meta
pour indiquer que les données ne doivent pas servir aux entraînements.Mais bon, ça c'est officiellement, comme toujours avec les entreprises de la Tech.
Quant à Google, il continue d'abuser allègrement de sa position dominante.
Pour CloudFlare, c'est devenu une horreur tellement il est omniprésent sur le Web. Il tousse et les 3/4 du Web s'effondrent
Accessoirement, j'en ai ras le cul de devoir qualifier des jeux de donnée d'entraînement gratuitement avec les CAPTCHA qu'ils m'imposent (étant donné que je supprime systématiquement les cookies, j'y ai droit à chaque fois sur les sites qui sont derrière).
Modifié le 02/07/2025 à 11h13
Le 02/07/2025 à 10h26
Ceux qu’utilise Sony sont cotons aussi : trouver un spectateur à partir de son numéro dans une grille 3D isométrique :fouet:
Je préfère tellement les captchas d’Orange….
J’ai aussi souvenir à une époque d’un captcha qui utilisait de la prof of work blockchain comme validation et qui au passage filait quelques sous au mainteneur du site, je trouvais que c’était une bonne idée…
Modifié le 02/07/2025 à 11h16
Le 02/07/2025 à 13h04
Le 02/07/2025 à 08h57
Le 02/07/2025 à 19h06
Le 02/07/2025 à 09h08
D'ailleurs, il faudrait rendre les enfants illégaux : ils pourraient apprendre en lisant Le Monde ou le New York Times sans payer de royalties à chaque phrase !
Un LLM n'enregistre pas vos "œuvres", il apprend en les lisant exactement comme un gamin (c'est à peu près la même méthode, puisque les LLM fonctionnent sur des réseaux de neurones formels inspirés du neurone biologique - rassurez-vous, un neurone humain reste infiniment plus complexe qu'un neurone formel).
Alors messieurs-dames de la presse, cohérence : soit vous facturez aussi les bibliothèques publiques, les écoles et tous les humains qui osent apprendre en lisant vos articles, soit vous admettez que votre combat relève plus de la protection de rente que de la défense du droit d'auteur. formel))
Le 02/07/2025 à 10h32
Les bibliothèques publiques ne sont pas gratuites, on paye des impôts pour les financer.
Et un LLM n'apprend rien, car dire qu'il apprend signifierait dire qu'il comprend. Au mieux il retient des informations.
Le 02/07/2025 à 11h02
En quoi crowler tout le web pour s’en approprier le contenu pour faire des LLM en blackbox a but lucratif c’est plus légitime ? Dans ce cas ça devrait être gratuit et illimité ?
Alors si c’est le cas c’est quoi la différence entre moi qui télécharge un truc tipiak et le LLM ? Je n’en vois pas.
Le 02/07/2025 à 11h13
Une comparaison équilibrée aurait été : un film en accès libre sur YouTube, pas un dvd piraté.
Le 02/07/2025 à 11h23
Aussi ici, ce qui est reproché c’est que les crowler ne prennent pas ou mal en compte les fichiers robots ou les éventuelles licences ou protections.
Donc en soit avoir une protection pour le rappeler que c’est pas la foire à la saucisse c’est plutôt pas mal.
Un truc qui m’est déjà arrivé par contre c’était si user agent = Linux alors le site bloquait en disant qu’ils ne voulaient pas de robots crowler IA. Mais moi j’étais juste venu visiter rapidement.
Le 02/07/2025 à 11h31
Le 01/07/2025 à 17h24
Le 01/07/2025 à 17h26
Le 01/07/2025 à 17h41
Mais je regrette de devoir me féliciter que CloudFlare soit en charge de la protection du droit sur internet.
Ca en fait un acteur quasi incontournable, alors qu'aucune autorité légale ne lui a accordé ce pouvoir.
Le 01/07/2025 à 18h34
Ils protègent leurs intérêts (la bande passante) en la faisant monétiser, ce qui leur permet de passer pour les "gentils".
Modifié le 01/07/2025 à 23h31
Seules les grosses entreprises ont l'argent, le temps et les moyens humain pour payer et négocier.
Cloudflare renfonce donc surtout les GAFAM avec cette idée. Toutes les petites boites, les chercheurs... peuvent dire adieux à tous leurs crawlers. Et c'est mort pour voir émerger de nouvelles boites dans le domaine de l'IA (en tout cas, dans la création de modèle).
Le plus avantagé est clairement Google. Comme personne ne peut se passer de leur crawler pour le moteur de recherche (qui est le même crawler que pour leur IA), ils n'auront donc même pas à payer. Les pontes de Google doivent sabrer le champagne ce soir.
Le 02/07/2025 à 00h06
Ce sera très probablement Cloudflare qui la mettra techniquement en œuvre (ce sont eux qui en ont les outils), avec au hasard 30% de commission ?
Pour eux ce serait le jackpot, sans avoir à être embêté par le DSA...
Le 02/07/2025 à 07h40
Comme quoi, les pratiques mafieuses restent des classiques indémodables
Le 02/07/2025 à 08h51
Le 02/07/2025 à 09h24
J'ai testé Cloudflare, mais ça me pète tout ce qui n'est pas http(s). Il faudra que je regarde en testant un domaine qui n'a que du web. Ou une autre solution.
Le 02/07/2025 à 09h49
Le 02/07/2025 à 13h34
Trop de truc à faire.
Déjà, mon serveur ne tombe plus avec un cron qui surveille la charge.
Le 02/07/2025 à 13h35
Par savoir que un algorythme ne doit pas utiliser les données d'une page, il doit quand même il aller ?
Donc le volume du passage sera le même, me trompe-je ?
Le 02/07/2025 à 14h11
Ensuite, de nombreux sites ont rapportés un trafic intense de la part de crawler IA. Par intense, je veux dire aussi bien en nombre de requêtes par seconde, que le temps moyen entre deux passages (qui pouvaient n'être que de quelques heures !).
Si un crawler IA "éthique" fait correctement son travail, alors :
1) il regarde d'abord le robots.txt (pour potentiellement éviter de scanner tout un site)
2) il ne repasse pas toutes les heures sur la même page.
Donc même s'il passe sur une page la première fois, si la page a indiqué "pas de crawl pour l'IA", et que le crawler retient l'info, cela devrait normalement diminuer le nombre de requêtes...
Le 02/07/2025 à 15h05
Le 02/07/2025 à 17h58
L'un comme l'autre, les éditeurs ont le droit de se torcher le cul avec et DDoS les sites parce qu'ils sont des abrutis finis à la pisse.