Connexion
Abonnez-vous

Cloudflare va bloquer les crawlers des IA par défaut

Humains, non-humains

Cloudflare va bloquer les crawlers des IA par défaut

La récupération sauvage de contenus en ligne pour entrainer les IA génératives va devenir plus compliquée. Cloudflare a décidé d'activer par défaut ses outils qui permettent de bloquer les bots des IA sur les sites de ses clients. L'entreprise teste en parallèle un programme permettant de les débloquer moyennant finance.

Le 01 juillet à 16h55

Face au sérieux problème créé par les crawlers d'IA sur l'accès aux sites web, Cloudflare vient d'annoncer qu'elle passait à l'offensive. Après avoir développé des outils pour les bloquer et avoir donné la possibilité de les utiliser gratuitement, l'entreprise passe à la vitesse supérieure en les activant par défaut sur tous les sites qui utilisent ses solutions.

Des sites qui vacillent à cause du trafic généré par les crawlers

Il faut dire que la question devient de plus en plus problématique pour les responsables de sites web. En passant très régulièrement sur les différentes pages à l'affût de la moindre information nouvelle, les crawlers mettent en péril de nombreux sites web, ceux de projets scientifiques, de logiciels libres et ont même de fortes répercussions sur les activités de Wikimédia.

Un trafic artificiel qui prend le pas sur le trafic humain

En plus de l'infrastructure que cette augmentation soudaine de trafic artificiel implique, les outils qui utilisent ces crawlers ont de moins en moins tendance à renvoyer de visiteurs réels aux sites. Le 19 juin, lors d'un événement organisé à Cannes par Axios, le CEO de Cloudflare, Matthew Prince expliquait cette rapide évolution.

Il y a 10 ans, pour un visiteur qui visitait un site depuis le moteur de recherche de Google, les robots de Google parcouraient 2 pages.

Il y a seulement six mois, selon lui, ce ratio était de :

  • 1 visiteur pour 6 pages parcourues par les robots de Google
  • 1 visiteur pour 250 pages parcourues par les robots d'OpenAI
  • 1 visiteur pour 6 000 pages parcourues par les robots d'Anthropic.

Mais, toujours selon Matthew Prince, maintenant ce ratio est passé à :

  • 1 visiteur pour 18 pages parcourues chez Google
  • 1 visiteur pour 1 500 pages parcourues chez OpenAI
  • 1 visiteur pour 60 000 pages parcourues chez Anthropic

Comme il le résume, « les gens ne lisent plus les notes de bas de page ».

Son entreprise a encore fait des mesures la semaine d'après (du 19 au 26 juin). Et ces chiffres ont encore gonflés. Dans un billet de blog publié ce mardi 1er juillet, elle montre que le ratio mesuré pour Anthropic était de 70 900 pages parcourues par les robots d'Anthropic pour un visiteur qui cliquait sur le lien vers l'article original.

Des outils par défaut et une option pour un blocage uniquement sur les pages comportant des pubs

Cloudflare explique dans un autre billet de blog qu'elle fournit maintenant deux outils pour ses clients. Le premier permet de gérer de façon fine la rédaction du fichier robots.txt qui indique aux différents robots s'ils peuvent ou pas parcourir le site et ses différentes sections. C'est une première étape, mais si le respect de ce fichier est une bonne pratique, les responsables de robots sans vergogne peuvent passer outre.

Le deuxième outil proposé par Cloudflare permet de bloquer le parcours du site par tous les robots. L'entreprise propose deux options : soit de bloquer les robots sur toutes les pages, soit de les bloquer seulement sur celles qui contiennent des publicités.

Une arme de négociation pour les éditeurs

Concernant la fiabilité du blocage, « je suis convaincu à 100 % que nous pouvons les empêcher d'accéder au contenu », a affirmé Matthew Prince au New York Times. Ajoutant, « et s'ils n'ont pas accès au contenu, leurs produits seront moins bons ». L'idée étant d'amener les entreprises d'IA génératives à négocier, notamment avec les éditeurs des sites les plus importants.

« Jusqu'à présent, les entreprises d'IA n'avaient pas besoin de payer pour obtenir des licences de contenu, car elles savaient qu'elles pouvaient les prendre sans conséquences », explique à Wired le CEO de The Atlantic. « Désormais, elles devront négocier, et cela deviendra un avantage concurrentiel pour les entreprises d'IA qui parviendront à conclure des accords plus nombreux et de meilleure qualité avec des éditeurs plus nombreux et de meilleure qualité ».

Commentaires (30)

votre avatar
C’est une bonne chose. Cool si c’est aussi dans la version gratuite.

Moins cool si c’est une monétisation en plus pour cloudflare si ce n’est pas dans la version gratuite.

Le souci des crowler ça reste le Google bot qui est utilisé pour être référencé par Google et pour être pillé pour gemini… donc si on veut être référencé, il faut accepter d’être pillé.
votre avatar
Bing doit faire probablement pareil.

Ecosia / Qwant probablement aussi.

Aucun moyen d'être sûr vu que ce sont des outils "boites noires".

De plus, ça me gène de confier une bonne partie du web à CloudFlare, boite américaine qui devient un méga "SPOF" (Single point of failure), qui est d'ailleurs tombé récemment à cause de Google Cloud.
votre avatar
Officiellement, on peut opt-out de Bing via un tag meta pour indiquer que les données ne doivent pas servir aux entraînements.

Mais bon, ça c'est officiellement, comme toujours avec les entreprises de la Tech.

Quant à Google, il continue d'abuser allègrement de sa position dominante.

Pour CloudFlare, c'est devenu une horreur tellement il est omniprésent sur le Web. Il tousse et les 3/4 du Web s'effondrent :craint:
Accessoirement, j'en ai ras le cul de devoir qualifier des jeux de donnée d'entraînement gratuitement avec les CAPTCHA qu'ils m'imposent (étant donné que je supprime systématiquement les cookies, j'y ai droit à chaque fois sur les sites qui sont derrière).
votre avatar
Idem pour moi et que dire des captcha de Google qui sont de plus en plus pénibles… Google, tu fais -beep- avec tes -beep- identification d'escaliers, de bornes à incendies…
votre avatar
En ce moment le nombre de « Veuillez réessayer » que j’obtiens avec leur captcha grandit de manière exponentielle…. Récemment j’ai du le faire 8 fois (avec les cases qui mettent bien leur temps à changer d’image, merci l’animation de fondu au blanc bien lente) juste pour me connecter à un site ….

Ceux qu’utilise Sony sont cotons aussi : trouver un spectateur à partir de son numéro dans une grille 3D isométrique :fouet:

Je préfère tellement les captchas d’Orange….

J’ai aussi souvenir à une époque d’un captcha qui utilisait de la prof of work blockchain comme validation et qui au passage filait quelques sous au mainteneur du site, je trouvais que c’était une bonne idée…
votre avatar
Pareil pour les "réessayez", ça a l'air d'être fait exprès pour forcer les gens à baisser le niveau de protection des navigateurs pour accepter tout le tracking et la pub.
votre avatar
Ou alors ... la vérité est ailleurs: vous n'arrivez pas à distinguer le bus au milieu des vélos... :bravo:
votre avatar
Une pièce en plus dans l’argumentaire en faveur d’un démantèlement d’Alphabet peut-être ?
votre avatar
Si seulement …
votre avatar
Les LLM ne "pillent" pas les données, ils apprennent. Je propose donc que les éditeurs de dictionnaires fassent payer les écoles - vous vous rendez compte ? Tous ces enfants qui "pillent" leurs œuvres en apprenant à lire et à écrire !

D'ailleurs, il faudrait rendre les enfants illégaux : ils pourraient apprendre en lisant Le Monde ou le New York Times sans payer de royalties à chaque phrase !

Un LLM n'enregistre pas vos "œuvres", il apprend en les lisant exactement comme un gamin (c'est à peu près la même méthode, puisque les LLM fonctionnent sur des réseaux de neurones formels inspirés du neurone biologique - rassurez-vous, un neurone humain reste infiniment plus complexe qu'un neurone formel).

Alors messieurs-dames de la presse, cohérence : soit vous facturez aussi les bibliothèques publiques, les écoles et tous les humains qui osent apprendre en lisant vos articles, soit vous admettez que votre combat relève plus de la protection de rente que de la défense du droit d'auteur. formel))
votre avatar
Les dictionnaires papier sont payant, même pour les écoles. Les lettres et les mots sont gratuits, l'information ne l'est pas. Les écoles ne sont d'ailleurs pas non plus gratuites.

Les bibliothèques publiques ne sont pas gratuites, on paye des impôts pour les financer.

Et un LLM n'apprend rien, car dire qu'il apprend signifierait dire qu'il comprend. Au mieux il retient des informations.
votre avatar
Si je pirate un dvd, je regarde le film piraté, « j’apprends » le contenu de ce film en le regardant : c’est illégal le piratage.

En quoi crowler tout le web pour s’en approprier le contenu pour faire des LLM en blackbox a but lucratif c’est plus légitime ? Dans ce cas ça devrait être gratuit et illimité ?

Alors si c’est le cas c’est quoi la différence entre moi qui télécharge un truc tipiak et le LLM ? Je n’en vois pas.
votre avatar
La différence est l'accès libre sur le web par rapport au piratage.

Une comparaison équilibrée aurait été : un film en accès libre sur YouTube, pas un dvd piraté.
votre avatar
Pourtant les entreprises de LLM ont bien entraîné leurs modèles sur des contenus protégés par les droits d’auteur (torrent, livres,…).

Aussi ici, ce qui est reproché c’est que les crowler ne prennent pas ou mal en compte les fichiers robots ou les éventuelles licences ou protections.

Donc en soit avoir une protection pour le rappeler que c’est pas la foire à la saucisse c’est plutôt pas mal.

Un truc qui m’est déjà arrivé par contre c’était si user agent = Linux alors le site bloquait en disant qu’ils ne voulaient pas de robots crowler IA. Mais moi j’étais juste venu visiter rapidement.
votre avatar
J'ai juste répondu à la question que tu posais. Si tu changes complètement le contexte en mettant d'autres points en avant, la réponse peut être différente.
votre avatar
Une bonne chose, mais beaucoup trop tard. Et comme dit au dessus, Gemini, google... C'est un combat perdu d'avance.
votre avatar
CloudFlare aura un peu de poids dans le débat 👌
votre avatar
Bonne initiative, même si tardive.

Mais je regrette de devoir me féliciter que CloudFlare soit en charge de la protection du droit sur internet.
Ca en fait un acteur quasi incontournable, alors qu'aucune autorité légale ne lui a accordé ce pouvoir.
votre avatar
Mais je regrette de devoir me féliciter que CloudFlare soit en charge de la protection du droit sur internet.
En quoi ils protègent le droit ?

Ils protègent leurs intérêts (la bande passante) en la faisant monétiser, ce qui leur permet de passer pour les "gentils".
votre avatar
Je comprends que certains se réjouissent de cela, mais pour ma part, c'est une très mauvaise nouvelle et idée.

Seules les grosses entreprises ont l'argent, le temps et les moyens humain pour payer et négocier.
Cloudflare renfonce donc surtout les GAFAM avec cette idée. Toutes les petites boites, les chercheurs... peuvent dire adieux à tous leurs crawlers. Et c'est mort pour voir émerger de nouvelles boites dans le domaine de l'IA (en tout cas, dans la création de modèle).

Le plus avantagé est clairement Google. Comme personne ne peut se passer de leur crawler pour le moteur de recherche (qui est le même crawler que pour leur IA), ils n'auront donc même pas à payer. Les pontes de Google doivent sabrer le champagne ce soir.
votre avatar
Je suis curieux de savoir comment va se passer la monétisation pour les éditeurs d'IA.
Ce sera très probablement Cloudflare qui la mettra techniquement en œuvre (ce sont eux qui en ont les outils), avec au hasard 30% de commission ?
Pour eux ce serait le jackpot, sans avoir à être embêté par le DSA...
votre avatar
Marrant n'empêche : ça me rappelle le modèle économique des développeurs d'extensions anti pub sur le Web qui proposaient de payer pour être en liste blanche :D

Comme quoi, les pratiques mafieuses restent des classiques indémodables :D
votre avatar
Ca trigger les rate limiting aussi, générant des faux positifs c'est très chiant
votre avatar
En effet c'est devenu catastrophique. J'ai mis de solution en place pour éviter de faire tomber mon serveur. Avant j'avais 1 problème de surcharge par jour, maintenant c'est toutes les heures.
J'ai testé Cloudflare, mais ça me pète tout ce qui n'est pas http(s). Il faudra que je regarde en testant un domaine qui n'a que du web. Ou une autre solution.
votre avatar
votre avatar
C'est prévu, mais il faut que je trouve le temps de l'installer.
Trop de truc à faire. :D
Déjà, mon serveur ne tombe plus avec un cron qui surveille la charge.
votre avatar
Question de newbie :
Par savoir que un algorythme ne doit pas utiliser les données d'une page, il doit quand même il aller ?
Donc le volume du passage sera le même, me trompe-je ?
votre avatar
L'info peut être donné par site, et non pas par page (cas du robots.txt).

Ensuite, de nombreux sites ont rapportés un trafic intense de la part de crawler IA. Par intense, je veux dire aussi bien en nombre de requêtes par seconde, que le temps moyen entre deux passages (qui pouvaient n'être que de quelques heures !).

Si un crawler IA "éthique" fait correctement son travail, alors :
1) il regarde d'abord le robots.txt (pour potentiellement éviter de scanner tout un site)
2) il ne repasse pas toutes les heures sur la même page.

Donc même s'il passe sur une page la première fois, si la page a indiqué "pas de crawl pour l'IA", et que le crawler retient l'info, cela devrait normalement diminuer le nombre de requêtes...
votre avatar
:dix::inpactitude:
votre avatar
Tu as le robots.txt et la TDP policy aussi qui sont là pour fournir un moyen technique aux bots.

L'un comme l'autre, les éditeurs ont le droit de se torcher le cul avec et DDoS les sites parce qu'ils sont des abrutis finis à la pisse.

Cloudflare va bloquer les crawlers des IA par défaut

  • Des sites qui vacillent à cause du trafic généré par les crawlers

  • Un trafic artificiel qui prend le pas sur le trafic humain

  • Des outils par défaut et une option pour un blocage uniquement sur les pages comportant des pubs

  • Une arme de négociation pour les éditeurs

Fermer