Connexion Premium

Cloudflare accuse Perplexity d’aspirer furtivement les contenus web

Il y a les bons robots et les mauvais robots

Cloudflare accuse Perplexity d’aspirer furtivement les contenus web

Yasmine Boudiaf & LOTI / Better Images of AI / CC-BY 4.0

Cloudflare, dans un rapport publié hier soir, pointe du doigt Perplexity pour ses techniques furtives. Les crawlers web de l’entreprise avanceraient masqués, modifiant leur agent utilisateur pour se faire passer pour ce qu’ils ne sont pas. Perplexity nie les accusations.

Le 05 août 2025 à 13h10

Dans son billet, Cloudflare dit avoir observé un comportement d’exploration furtive venant de Perplexity. Cette société, qui s’est fait une spécialité de la recherche sur web en se basant sur l’IA générative, chercherait volontairement à tromper les sites ayant déclaré qu’ils ne souhaitaient voir leurs contenus aspirés par des crawlers appartenant à des sociétés spécialisées dans l’IA.

Selon Cloudflare, Perplexity procèderait en deux temps. Initialement, les robots détectés seraient bien ceux de l’entreprise. Ce n’est qu’en lisant le fichier robots.txt que l’entreprise passerait à la deuxième phase. Si le fichier indique que les crawlers ne peuvent pas indexer le contenu pour des besoins d’entrainement des modèles d’intelligence artificielle, Perplexity présenterait d’autres robots. Ces derniers afficheraient un autre agent utilisateur (user agent), pour se faire passer pour des navigateurs tout ce qu’il y a de plus classique.

Campagne de détection

Cloudflare déclare avoir été avertie par des clients. Selon l’entreprise, ceux-ci se seraient plaints de l’activité d’exploration de Perplexity. Certains auraient mis en place des règles WAF (pare-feu d’applications web) pour bloquer spécifiquement les deux robots de Perplexity, mais l’entreprise aurait continué ses activités, accédant au contenu même quand les robots étaient bloqués.

Dans son billet, Cloudflare dit avoir constaté sur certaines pages que les robots en question étaient bien bloqués et a donc mis en place plusieurs tests pour confirmer le comportement. L’entreprise a donc créé plusieurs nouveaux domaines. Tout juste achetés, ils n’étaient pas encore indexés par les robots et, selon Cloudflare, n’avaient pas été rendus publics « d’une manière découvrable ». Sur ces domaines, des fichiers robots.txt ont été placés pour interdire aux robots d’accéder aux sites.

Et c’est là que tout a basculé, selon Cloudflare : interrogé, Perplexity AI aurait été en mesure de répondre précisément à des questions sur le contenu de ces sites. « Perplexity fournissait toujours des informations détaillées sur le contenu exact hébergé sur chacun de ces domaines restreints. Cette réponse était inattendue, car nous avions pris toutes les précautions nécessaires pour éviter que ces données ne soient récupérables par leurs crawlers », déclare Cloudflare.

Source : Cloudflare

Techniques présumées de furtivité

Perplexity n’aurait en théorie jamais dû pouvoir répondre aux questions sur le contenu, puisque ses robots n’étaient pas censés en avoir indexé le contenu. Cloudflare indique avoir soigneusement configuré les fichiers robots.txt, ainsi que des règles WAF.

La société dit avoir constaté les deux passages des robots : d’abord les crawlers officiels, puis un autre, se faisant passer pour un navigateur générique, « destiné à se faire passer pour Google Chrome sur macOS ». Par le biais de son infrastructure, Cloudflare aurait compté de 20 à 25 millions de requêtes quotidiennes pour les robots officiels, et 3 à 6 millions pour le robot furtif.

DeclaredMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)20 - 25 m daily requests
StealthMozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.363 - 6 m daily requests

Toujours selon l’entreprise, ce robot furtif aurait utilisé plusieurs adresses IP non répertoriées dans la plage IP officielle de Perplexity, en rotation pour s’adapter aux situations, dont les règles du fichier robots.txt.

Cloudflare dit également avoir observé des requêtes provenant de plusieurs ASN (numéro identifiant les grands réseaux sur internet), toujours pour éviter les blocages. Toute cette activité aurait été constatée sur des dizaines de milliers de domaines. Via des signaux réseau et un apprentissage automatique, Cloudflare dit avoir pris l’empreinte digitale de ce fameux robot furtif.

Cloudflare en profite pour dresser une liste de règles à respecter pour les robots « bien intentionnés » : être transparent (notamment au travers d’un agent utilisateur honnête et unique), ne pas inonder les sites web avec un trafic excessif, ne pas récupérer les données sensibles, éviter les techniques furtives, avoir un objectif clair et facilement consultable, utiliser des robots distincts selon les activités et respecter les règles mises en place par les sites.

« Sur la base du comportement observé de Perplexity, qui est incompatible avec ces préférences, nous l’avons retiré de la liste des bots vérifiés et ajouté des heuristiques à nos règles gérées qui bloquent cette exploration furtive », ajoute Cloudflare.

Pour Perplexity, les arguments de Cloudflare sont commerciaux

Interrogée par plusieurs médias, dont TechCrunch, Perplexity se défend de toute activité furtive. Jesse Dwyer, porte-parole de l’entreprise, affirme que l’exposé de Cloudflare n’est rien de plus qu’un « argumentaire de vente ». Les captures affichées par Cloudflare n’afficheraient rien d’incriminant, montreraient « qu’aucun contenu n’a été consulté » et que le robot en question ne serait pas de Perplexity.

Dans la foulée, Perplexity a publié son propre billet de blog. L’entreprise n’est pas tendre avec Cloudflare, qu’elle accuse d’incompétence. En cause, l’inaptitude de Cloudflare à savoir faire la différence entre un bot classique et un agent IA piloté par un utilisateur. « Avec l'essor des assistants alimentés par l'IA et des agents pilotés par l'utilisateur, la frontière entre ce qui est considéré comme "un simple robot" et ce qui répond aux besoins immédiats de personnes réelles est devenue de plus en plus floue », insiste l'entreprise.

Pour Perplexity, tout se jouerait sur cette différence, car les actions déclenchées au nom d’un internaute ne sont pas traitées de la même manière que les mécanismes automatiques comme les crawlers. « Lorsque Perplexity récupère une page Web, c’est parce que vous avez posé une question spécifique nécessitant des informations actuelles. Le contenu n’est pas stocké pour l'entraînement, il est utilisé immédiatement pour répondre à votre question », fait valoir l’entreprise.

« Un échec embarrassant »

« Cette controverse révèle que les systèmes de Cloudflare sont fondamentalement inadéquats pour faire la distinction entre les assistants d’IA légitimes et les menaces réelles. Si vous ne pouvez pas distinguer un assistant numérique utile d’un scraper malveillant, vous ne devriez probablement pas prendre de décisions sur ce qui constitue un trafic Web légitime », fustige Perplexity.

Pour cette dernière, Cloudflare voulait uniquement se faire de la publicité à bon compte, Perplexity fournissant « un nom utile ». Cliente de Cloudflare, l’entreprise ajoute que les 3 à 6 millions de requêtes quotidiennes attribuées au robot furtif supposé représentent « un échec d’analyse de trafic de base particulièrement embarrassant pour une entreprise dont l’activité principale est de comprendre et catégoriser le trafic web ».

Perplexity ajoute que Cloudflare serait restée silencieuse sur sa méthodologie exacte et aurait refusé de répondre aux questions.

Rappelons cependant que ce n’est pas la première fois que Perplexity se retrouve accusée d’avoir aspiré des contenus sans autorisation. En juin 2024, Wired avait ainsi pesté contre cette activité, allant jusqu’à décrire le produit comme « une machine à conneries ». Le mois suivant, TechCrunch pointait que plusieurs médias accusaient Perplexity de plagiat et d’une absence d’éthique dans son aspiration du web.

Commentaires (31)

votre avatar
Le plus alarmant c'est qu'ils sortent le fameux: "cpasnouscdespresta" pour cacher leur activité et aussi on peut se demander pourquoi un simple robot.txt arrète le scrapping de site web.
On voit bien que cloudflare prepare l'introduction de son forfait "IA/scrapper" qui ferais payer l'accès au site web à ce type d'outils et la première etapes est d'identifier les agents :)
votre avatar
La guerre des intermédiaires pour l'accès aux contenus.

L'avenir du Web pue l'authentication / pay wall à tout bout de champ :craint:
votre avatar
A fond.
Allez, juste pour rire : next.ink Next
Donc peut être que le problème n'est pas tant la furtivité qu'une histoire de gros sous.
votre avatar
Perplexity dit que les agents (assistants AI sous le contrôle d'un humain) devraient passer et les distingue avec l'entête User-agent et la valeur Perplexity-User/1.0

CloudFare indique que même si un site interdit dans son robots.txt tout le surf autre qu'humain avec la directive dans robot.txt (User-agent: * Dissalow :/) les assistants AI (qui sont des robots) vont quand même venir. Et pire que parmi les gros agents AI, seuls ceux de Perplexity agissent de la sorte.

Certes, chacun défend son business.

Mais si un site indique qu'il ne veut pas de robot quel qu'il soit, et si le site en assume les conséquences (manque de visibilité ou non intégration dans des services plus globaux), alors je ne comprends pas que Perplexity s'arroge volontairement le droit d'ignorer cela.

Edit : Orthographe c.f. Thorgalix_21
votre avatar
que Perplexity s'abroge arroge volontairement
:cap:
votre avatar
Si le site indique qu'il ne veut pas de robots, rien n'empêche l'autre côté (si on a affaire à un mal élevé) de pomper tout de même.
Déjà certains se plaignent que google place désormais une réponse IA en haut des recherches et les privent de visite (et donc de source de revenus publicitaire qui paient les frais): Je pense qu'ils savent configurer leur site pour éviter cela, malgré tout des réponses très peu communes leur semblant moulinées de contenus pris chez eux sortent ainsi!
Alors sauf à bannir des plages d'adresses entières allouées à des boites d'IA et d'indexation, je ne voit pas trop comment se prémunir.
votre avatar
Comment se prémunir ?

Déjà en le sachant, et le rapport de Cloudfare l'explique bien. Mise en perspective, je trouve que la réponse de Perplexity, l'explique encore mieux.
Peut-être qu'une solution légale émergera devant cette attitude ?

Et techniquement, Cloudfare se fait fort de vendre ce service.
Mais évidemment, cela amène à le penser pas totalement neutre dans son rapport. Mais certains faits sont parfaitement clairs : Perplexity ignore les consignes robots.txt et s'en défend, ou s'en vante, dans sa réponse.
votre avatar
D'une oui, ce n'est pas du tout une sécurité, juste un petit mot sur la porte qui dit "svp pas de robots". Ca a autant d'efficacité que le sticker "no pub". Alors il est évident qu'un tas de robots ignorent car l'humain qui les programme reste un humain...

Et derrière ce constat tu as deux types de robots : celui qui s'assume et a un user agent identifiable, donc blocable au niveau serveur (nginx/apache/whatever), et celui qui se fait passer pour un browser, donc difficilement blocable...

Et le blocage IP... c'est compliqué car les blots en ont souvent plusieurs, et peuvent en changer facilement. N'empêche que par défaut sur tous mes serveurs je bloque quelques user agents, et des pays entiers à l'aide de la db MaxMind.

Bref, pas de solution réellement viable. Si l'humain qui code/setup le bot veut venir, il viendra.
votre avatar
C'est en effet compliqué (cette affaire avec pourtant un cloudflare en bonne position d'analyse globale l'illustre) et c'est pas les possibilités de se cacher ou brouiller les pistes qui manquent... La réponse idéale serait, comme dit plus haut, légale mais à un niveau international, même pas en rêve!
Ca va donc rester du bricolage...
votre avatar
Il y a quand même ici, un problème de respect de la volonté des sites dont Clouflare s'occupe. C'est comme ceux qui poussent pour installer le nouveau (qui ne l'est plus vraiment) Linky, ils disent que c'est le progrès et que c'est trop bien car maintenant on peut suivre la conso plus facilement et finement mais il existe des gens qui ne veulent pas du nouveau boitier, peu importe les avancées qu'il permet et ils ont bien le droits de ne pas le vouloir.
Ca ressemble un peu à ce gouvernement qui obligerait les gens à changer de boitier pour le bien commun. Eh ben, non, merci de respecter les volontés de ceux qui en sont responsables.
Je donne le point à Cloudflare, puisqu'on me le demande.
votre avatar
Il y a tout de même un sacré mélange des genres dans ton argumentaire. Tu n'as pas a refusé, le boîtier ne t'appartient pas. Si le gestionnaire décidé d'une mise a jour, pour ton bien ou non, ça reste son produit, pas celui du client.

Ici on parle de tests effectués sur des sites exclus, pas sur des sites déjà passés en revue par les robots. Donc le client fait en sorte d'avoir des sites normalement non exposés, et donc inconnus d'un utilisateur même si il demande des infos mais Perplexity y arrive tout de même.
votre avatar
Bin là il peut plus répondre sur la confusion torchons/serviettes, y'a 6 mois il a refusé le changement de sa box obsolète proposé par son FAI! :fou3:
votre avatar
Je suis absolument certain que les autres boites d'IA en font de même, juste pas encore prises sur le fait. De plus en plus de sites refusent (à raison) le craling par les robots de boites IA.
votre avatar
le craWling par les robots de boites IA.
:cap:
votre avatar
QUand j'ai lu WAF sur le graph, je me suis bien demandé si c'est de ça dont on parle :ouimaistusors:
votre avatar
C'est plus au moins le même rôle :p
votre avatar
Les bots sont devenus une plaie, dans l'hébergement, oui. Ils sont vraiment très nombreux depuis un peu plus d'un an, et font du furtif dès que l'on bloque leur user_agent (c'est fait d'une manière si peu discrète et immédiate que ça en est risible).

Oh, et c'est un bon moment pour rappeler aussi que depuis plusieurs années, Internet Archive qui est placé sur un pied d'estale ne respecte plus du tout les robots.txt, et n'agit donc pas mieux que ces crawlers d'IA nuisibles en ce qui concerne le consentement.
votre avatar
:cap: piédestal :inpactitude2:
votre avatar
Merci beaucoup, j'aurai du apprendre ça il y a bien longtemps !
votre avatar
Dommage, j'avais pris ça pour un calembour de bon aloi, comme il disait le Capello, pas pour une erreur :bravo:
votre avatar
Une méthode serait de servir un autre contenu totalement délirant dans le cas d'un agent IA qui cherche des pages qu'on ne veut pas qu'il scanne. L'agent ne cherchera pas plus loin car il aura été servi mais n'aura rien de valeur. En plus, si beaucoup de sites font ça, il y a moyen de bien polluer le modèle.
votre avatar
ils finirons par passer deux fois avec des users agent différents :D
votre avatar
Le problème est que les crawlers et agents se dissimulent via des user-agents standard pour se faire passer pour du trafic "légitime".

Parce que sinon, oui, via un htaccess perso je leur retourne un 403.
votre avatar
A un moment j'utilisais le user agent de Google, ça me permettait de contourner un paywall car l'article entier était donné à Google vs. une version tronquée aux autres user-agents :D
Les IA n'ont p-e pas assez d'expérience, mais je pense que Google doit quand même essayer de détecter la triche (un échantillonnage avec un autre user-agent ?)
votre avatar
Les IA n'ont p-e pas assez d'expérience, mais je pense que Google doit quand même essayer de détecter la triche (un échantillonnage avec un autre user-agent ?)
Je ne suis pas sûr de comprendre : comment Google pourrait détecter qu'on utilise son user-agent via une connexion qu'ils ne maîtrisent pas ? Genre via un curl.
Par contre, le service en face pourrait avoir white list des plages spécifiques.
votre avatar
Effectivement, mon commentaire part un peu dans tous les sens.
- Quand j'usurpe le user-agent de Google pour contourner le paywall, le site peut le détecter, c'est documenté ici : developers.google.com Google
- Si le site ment à Google en lui donnant un contenu différent du contenu public, alors je me doute que Google a implémenté des sécurités du genre un échantillonnage de requêtes avec d'autres users-agent.
votre avatar
Pour l'instant le web résiste, mais Google pousse pour imposer son API "d'intégrité" (celle pour Chrome qui fait en gros comme Play Integrity, je ne me souviens plus de son nom), et alors curl sera "mort" en pratique, plus possible de mentir sur son user-agent. Si ils se décidaient a mettre leur régie pub derrière cette barrière, tous les sites qui bossent avec eux pour la pub seraient obligés de les suivre sous peine de mourrir économiquement.
votre avatar
Cloudflare le propose déjà : https://blog.cloudflare.com/ai-labyrinth/
votre avatar
Les moteurs de recherche peuvent jouer la quasi même défense: c’est pas notre faute, un humain voulait trouver l’info!
votre avatar
C'est justement la martie qui me fait le plus tiquer dans le contre-argumentaire de Perplexityee.
Car s'il on en croit Cloudflare les nouveaux sites mis en ligne étant encore tout "nouveau", théoriquement aucun utilisateur humain ne pouvait sciemment faire une recherche pour aboutir dessus.
Donc Perplexity qui nous dirait "si si ce sont des humains qui ont fait ces requètes initiales et donc l'agent derrière qui se rend sur le site".
Je pense que c'est du pipeau bien assumé.
Mais il faut croire sur parole la méthodo de Cloudflare.
Cocasse aussi que l'entreprise soit cliente de Cloudflare, en tout cas...
votre avatar
Personne n'a parlé d'Anubis et consorts ?

Cloudflare accuse Perplexity d’aspirer furtivement les contenus web

  • Campagne de détection

  • Techniques présumées de furtivité

  • Pour Perplexity, les arguments de Cloudflare sont commerciaux

  • « Un échec embarrassant »

Fermer