Cloudflare accuse Perplexity d’aspirer furtivement les contenus web
Il y a les bons robots et les mauvais robots
Yasmine Boudiaf & LOTI / Better Images of AI / CC-BY 4.0
Cloudflare, dans un rapport publié hier soir, pointe du doigt Perplexity pour ses techniques furtives. Les crawlers web de l’entreprise avanceraient masqués, modifiant leur agent utilisateur pour se faire passer pour ce qu’ils ne sont pas. Perplexity nie les accusations.
Le 05 août 2025 à 13h10
7 min
IA et algorithmes
IA
Dans son billet, Cloudflare dit avoir observé un comportement d’exploration furtive venant de Perplexity. Cette société, qui s’est fait une spécialité de la recherche sur web en se basant sur l’IA générative, chercherait volontairement à tromper les sites ayant déclaré qu’ils ne souhaitaient voir leurs contenus aspirés par des crawlers appartenant à des sociétés spécialisées dans l’IA.
Selon Cloudflare, Perplexity procèderait en deux temps. Initialement, les robots détectés seraient bien ceux de l’entreprise. Ce n’est qu’en lisant le fichier robots.txt que l’entreprise passerait à la deuxième phase. Si le fichier indique que les crawlers ne peuvent pas indexer le contenu pour des besoins d’entrainement des modèles d’intelligence artificielle, Perplexity présenterait d’autres robots. Ces derniers afficheraient un autre agent utilisateur (user agent), pour se faire passer pour des navigateurs tout ce qu’il y a de plus classique.
Campagne de détection
Cloudflare déclare avoir été avertie par des clients. Selon l’entreprise, ceux-ci se seraient plaints de l’activité d’exploration de Perplexity. Certains auraient mis en place des règles WAF (pare-feu d’applications web) pour bloquer spécifiquement les deux robots de Perplexity, mais l’entreprise aurait continué ses activités, accédant au contenu même quand les robots étaient bloqués.
Dans son billet, Cloudflare dit avoir constaté sur certaines pages que les robots en question étaient bien bloqués et a donc mis en place plusieurs tests pour confirmer le comportement. L’entreprise a donc créé plusieurs nouveaux domaines. Tout juste achetés, ils n’étaient pas encore indexés par les robots et, selon Cloudflare, n’avaient pas été rendus publics « d’une manière découvrable ». Sur ces domaines, des fichiers robots.txt ont été placés pour interdire aux robots d’accéder aux sites.
Et c’est là que tout a basculé, selon Cloudflare : interrogé, Perplexity AI aurait été en mesure de répondre précisément à des questions sur le contenu de ces sites. « Perplexity fournissait toujours des informations détaillées sur le contenu exact hébergé sur chacun de ces domaines restreints. Cette réponse était inattendue, car nous avions pris toutes les précautions nécessaires pour éviter que ces données ne soient récupérables par leurs crawlers », déclare Cloudflare.

Techniques présumées de furtivité
Perplexity n’aurait en théorie jamais dû pouvoir répondre aux questions sur le contenu, puisque ses robots n’étaient pas censés en avoir indexé le contenu. Cloudflare indique avoir soigneusement configuré les fichiers robots.txt, ainsi que des règles WAF.
La société dit avoir constaté les deux passages des robots : d’abord les crawlers officiels, puis un autre, se faisant passer pour un navigateur générique, « destiné à se faire passer pour Google Chrome sur macOS ». Par le biais de son infrastructure, Cloudflare aurait compté de 20 à 25 millions de requêtes quotidiennes pour les robots officiels, et 3 à 6 millions pour le robot furtif.
| Declared | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) | 20 - 25 m daily requests |
| Stealth | Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 | 3 - 6 m daily requests |
Toujours selon l’entreprise, ce robot furtif aurait utilisé plusieurs adresses IP non répertoriées dans la plage IP officielle de Perplexity, en rotation pour s’adapter aux situations, dont les règles du fichier robots.txt.
Cloudflare dit également avoir observé des requêtes provenant de plusieurs ASN (numéro identifiant les grands réseaux sur internet), toujours pour éviter les blocages. Toute cette activité aurait été constatée sur des dizaines de milliers de domaines. Via des signaux réseau et un apprentissage automatique, Cloudflare dit avoir pris l’empreinte digitale de ce fameux robot furtif.
Cloudflare en profite pour dresser une liste de règles à respecter pour les robots « bien intentionnés » : être transparent (notamment au travers d’un agent utilisateur honnête et unique), ne pas inonder les sites web avec un trafic excessif, ne pas récupérer les données sensibles, éviter les techniques furtives, avoir un objectif clair et facilement consultable, utiliser des robots distincts selon les activités et respecter les règles mises en place par les sites.
« Sur la base du comportement observé de Perplexity, qui est incompatible avec ces préférences, nous l’avons retiré de la liste des bots vérifiés et ajouté des heuristiques à nos règles gérées qui bloquent cette exploration furtive », ajoute Cloudflare.
Pour Perplexity, les arguments de Cloudflare sont commerciaux
Interrogée par plusieurs médias, dont TechCrunch, Perplexity se défend de toute activité furtive. Jesse Dwyer, porte-parole de l’entreprise, affirme que l’exposé de Cloudflare n’est rien de plus qu’un « argumentaire de vente ». Les captures affichées par Cloudflare n’afficheraient rien d’incriminant, montreraient « qu’aucun contenu n’a été consulté » et que le robot en question ne serait pas de Perplexity.
Dans la foulée, Perplexity a publié son propre billet de blog. L’entreprise n’est pas tendre avec Cloudflare, qu’elle accuse d’incompétence. En cause, l’inaptitude de Cloudflare à savoir faire la différence entre un bot classique et un agent IA piloté par un utilisateur. « Avec l'essor des assistants alimentés par l'IA et des agents pilotés par l'utilisateur, la frontière entre ce qui est considéré comme "un simple robot" et ce qui répond aux besoins immédiats de personnes réelles est devenue de plus en plus floue », insiste l'entreprise.
Pour Perplexity, tout se jouerait sur cette différence, car les actions déclenchées au nom d’un internaute ne sont pas traitées de la même manière que les mécanismes automatiques comme les crawlers. « Lorsque Perplexity récupère une page Web, c’est parce que vous avez posé une question spécifique nécessitant des informations actuelles. Le contenu n’est pas stocké pour l'entraînement, il est utilisé immédiatement pour répondre à votre question », fait valoir l’entreprise.
« Un échec embarrassant »
« Cette controverse révèle que les systèmes de Cloudflare sont fondamentalement inadéquats pour faire la distinction entre les assistants d’IA légitimes et les menaces réelles. Si vous ne pouvez pas distinguer un assistant numérique utile d’un scraper malveillant, vous ne devriez probablement pas prendre de décisions sur ce qui constitue un trafic Web légitime », fustige Perplexity.
Pour cette dernière, Cloudflare voulait uniquement se faire de la publicité à bon compte, Perplexity fournissant « un nom utile ». Cliente de Cloudflare, l’entreprise ajoute que les 3 à 6 millions de requêtes quotidiennes attribuées au robot furtif supposé représentent « un échec d’analyse de trafic de base particulièrement embarrassant pour une entreprise dont l’activité principale est de comprendre et catégoriser le trafic web ».
Perplexity ajoute que Cloudflare serait restée silencieuse sur sa méthodologie exacte et aurait refusé de répondre aux questions.
Rappelons cependant que ce n’est pas la première fois que Perplexity se retrouve accusée d’avoir aspiré des contenus sans autorisation. En juin 2024, Wired avait ainsi pesté contre cette activité, allant jusqu’à décrire le produit comme « une machine à conneries ». Le mois suivant, TechCrunch pointait que plusieurs médias accusaient Perplexity de plagiat et d’une absence d’éthique dans son aspiration du web.
Cloudflare accuse Perplexity d’aspirer furtivement les contenus web
-
Campagne de détection
-
Techniques présumées de furtivité
-
Pour Perplexity, les arguments de Cloudflare sont commerciaux
-
« Un échec embarrassant »
Commentaires (31)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 05/08/2025 à 13h36
On voit bien que cloudflare prepare l'introduction de son forfait "IA/scrapper" qui ferais payer l'accès au site web à ce type d'outils et la première etapes est d'identifier les agents :)
Le 05/08/2025 à 13h39
L'avenir du Web pue l'authentication / pay wall à tout bout de champ
Le 05/08/2025 à 13h49
Allez, juste pour rire :
Donc peut être que le problème n'est pas tant la furtivité qu'une histoire de gros sous.
Modifié le 05/08/2025 à 16h51
CloudFare indique que même si un site interdit dans son robots.txt tout le surf autre qu'humain avec la directive dans robot.txt (User-agent: * Dissalow :/) les assistants AI (qui sont des robots) vont quand même venir. Et pire que parmi les gros agents AI, seuls ceux de Perplexity agissent de la sorte.
Certes, chacun défend son business.
Mais si un site indique qu'il ne veut pas de robot quel qu'il soit, et si le site en assume les conséquences (manque de visibilité ou non intégration dans des services plus globaux), alors je ne comprends pas que Perplexity s'arroge volontairement le droit d'ignorer cela.
Edit : Orthographe c.f. Thorgalix_21
Le 05/08/2025 à 15h35
Le 05/08/2025 à 16h41
Déjà certains se plaignent que google place désormais une réponse IA en haut des recherches et les privent de visite (et donc de source de revenus publicitaire qui paient les frais): Je pense qu'ils savent configurer leur site pour éviter cela, malgré tout des réponses très peu communes leur semblant moulinées de contenus pris chez eux sortent ainsi!
Alors sauf à bannir des plages d'adresses entières allouées à des boites d'IA et d'indexation, je ne voit pas trop comment se prémunir.
Modifié le 05/08/2025 à 16h59
Déjà en le sachant, et le rapport de Cloudfare l'explique bien. Mise en perspective, je trouve que la réponse de Perplexity, l'explique encore mieux.
Peut-être qu'une solution légale émergera devant cette attitude ?
Et techniquement, Cloudfare se fait fort de vendre ce service.
Mais évidemment, cela amène à le penser pas totalement neutre dans son rapport. Mais certains faits sont parfaitement clairs : Perplexity ignore les consignes robots.txt et s'en défend, ou s'en vante, dans sa réponse.
Le 06/08/2025 à 09h40
Et derrière ce constat tu as deux types de robots : celui qui s'assume et a un user agent identifiable, donc blocable au niveau serveur (nginx/apache/whatever), et celui qui se fait passer pour un browser, donc difficilement blocable...
Et le blocage IP... c'est compliqué car les blots en ont souvent plusieurs, et peuvent en changer facilement. N'empêche que par défaut sur tous mes serveurs je bloque quelques user agents, et des pays entiers à l'aide de la db MaxMind.
Bref, pas de solution réellement viable. Si l'humain qui code/setup le bot veut venir, il viendra.
Le 06/08/2025 à 13h48
Ca va donc rester du bricolage...
Le 05/08/2025 à 14h45
Ca ressemble un peu à ce gouvernement qui obligerait les gens à changer de boitier pour le bien commun. Eh ben, non, merci de respecter les volontés de ceux qui en sont responsables.
Je donne le point à Cloudflare, puisqu'on me le demande.
Le 05/08/2025 à 16h46
Ici on parle de tests effectués sur des sites exclus, pas sur des sites déjà passés en revue par les robots. Donc le client fait en sorte d'avoir des sites normalement non exposés, et donc inconnus d'un utilisateur même si il demande des infos mais Perplexity y arrive tout de même.
Le 06/08/2025 à 13h56
Le 05/08/2025 à 15h08
Le 05/08/2025 à 15h36
Le 05/08/2025 à 15h33
Le 05/08/2025 à 15h48
Modifié le 05/08/2025 à 16h05
Oh, et c'est un bon moment pour rappeler aussi que depuis plusieurs années, Internet Archive qui est placé sur un pied d'estale ne respecte plus du tout les robots.txt, et n'agit donc pas mieux que ces crawlers d'IA nuisibles en ce qui concerne le consentement.
Le 05/08/2025 à 16h15
Le 05/08/2025 à 17h15
Le 06/08/2025 à 00h21
Le 05/08/2025 à 16h33
Le 05/08/2025 à 17h57
Le 05/08/2025 à 18h52
Parce que sinon, oui, via un htaccess perso je leur retourne un 403.
Le 05/08/2025 à 20h38
Les IA n'ont p-e pas assez d'expérience, mais je pense que Google doit quand même essayer de détecter la triche (un échantillonnage avec un autre user-agent ?)
Le 06/08/2025 à 08h17
Par contre, le service en face pourrait avoir white list des plages spécifiques.
Le 06/08/2025 à 09h52
- Quand j'usurpe le user-agent de Google pour contourner le paywall, le site peut le détecter, c'est documenté ici :
- Si le site ment à Google en lui donnant un contenu différent du contenu public, alors je me doute que Google a implémenté des sécurités du genre un échantillonnage de requêtes avec d'autres users-agent.
Le 06/08/2025 à 16h39
Modifié le 06/08/2025 à 01h40
Le 06/08/2025 à 09h19
Le 06/08/2025 à 10h39
Car s'il on en croit Cloudflare les nouveaux sites mis en ligne étant encore tout "nouveau", théoriquement aucun utilisateur humain ne pouvait sciemment faire une recherche pour aboutir dessus.
Donc Perplexity qui nous dirait "si si ce sont des humains qui ont fait ces requètes initiales et donc l'agent derrière qui se rend sur le site".
Je pense que c'est du pipeau bien assumé.
Mais il faut croire sur parole la méthodo de Cloudflare.
Cocasse aussi que l'entreprise soit cliente de Cloudflare, en tout cas...
Le 06/08/2025 à 18h53
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?