En 2024, 51 % du trafic web a été généré par des bots automatisés

Méga BaaS In

Illustration : Flock

Jean-Marc Manach

Le 23 avril 2025 à 15h02

Les robots utilisés par les grands modèles de langage (LLM) pour indexer le web ne sont que la partie émergée de l’iceberg. Une étude portant sur le trafic web des clients d’une entreprise de cybersécurité proposant des services de lutte contre les bots avance que 37 % émanerait en effet de « robots malveillants » (contre 19 % il y a 10 ans), contre 14 % pour les robots légitimes, et 49 % pour les internautes humains (contre plus de 60 % il y a encore 5 ans).

En 2024, 51 % du trafic web a été généré par des bots automatisés

Méga BaaS In

Illustration : Flock

Jean-Marc Manach

Le 23 avril 2025 à 15h02

Sécurité

6 min

Mise à jour, 19h48 : en réponse à des remarques effectuées en commentaires, l’article a été modifié pour préciser que l’étude porte sur le trafic web des clients d’une entreprise de cybersécurité proposant des services de lutte contre les bots (et non sur le « trafic Internet » en général), et le titre modifié en conséquence.

« Pour la première fois en dix ans, le trafic automatisé a dépassé l’activité humaine, représentant 51 % de l’ensemble du trafic web en 2024 ». Ces derniers représentaient en effet un peu plus de 60 % du trafic web jusqu’en 2020, contre 49 % seulement en 2024.

Les « gentils bots », tels que les crawlers qui indexent les pages web, sont quant à eux passés de 20 % environ à 14 %. Les « robots malveillants », a contrario, voient leur trafic augmenter depuis six ans, passant de 19 à 37 %.

Les chiffres émanent du 12e rapport « Bad Bot » (.pdf) d’Imperva, une entreprise états-unienne de cybersécurité rachetée par Thales en 2023 pour 3,6 milliards de dollars. Elle précise que son analyse « s’appuie sur des données collectées sur l’ensemble du réseau mondial d’Imperva en 2024, y compris le blocage de 13 000 milliards de requêtes de robots malveillants dans des milliers de domaines et d’industries ».

Le rapport définit ces robots malveillants comme des programmes automatisés conçus pour effectuer des activités nuisibles, telles que la récupération de données, le spam et le lancement d’attaques par déni de service distribué (DDoS).

Ils peuvent également extraire des données de sites web sans autorisation pour les réutiliser, obtenir un avantage concurrentiel, et « sont souvent utilisés pour le scalping, qui consiste à obtenir des articles à disponibilité limitée et à les revendre à un prix plus élevé », souligne le rapport.

IA

Les chatbots IA ne ramènent quasiment pas de trafic aux éditeurs de sites

IA

Jeudi 06 mars 2025 à 14h33 06/03/2025 14h33

16

Ils peuvent aussi, a contrario, être utilisés pour remplir des formulaires pour, par exemple, créer des comptes fictifs, tromper les CAPTCHA, s’attaquer à la double authentification et voler des identités (« Credential Stuffing / Cracking »).

Le nombre de vols d’identités numériques imputables à des « bad bots » aurait ainsi augmenté de 40 % depuis 2023, et 54 % depuis 2022. Une explosion « probablement due » au fait que les cybercriminels utilisent l’IA pour automatiser les tentatives d’authentification et les attaques par force brute, ce qui les rend en outre plus sophistiquées et plus difficiles à détecter.

Le rapport souligne que l’augmentation de fuites et de vols de données rend également ce type d’attaques plus faciles à exploiter. Or, le centre de ressources sur le vol d’identité (Identity Theft Resource Center), qui documente depuis 2005 les violations de données signalées publiquement aux États-Unis, a de son côté identifié une augmentation de 211 % de notifications par rapport à 2023.

Des plateformes de Bots-as-a-Service (BaaS)

Le rapport précise aussi que « les attaquants utilisent de plus en plus des techniques sophistiquées pour imiter le trafic humain et mener des activités malveillantes, ce qui rend ces attaques plus difficiles à détecter et à atténuer ».

Cette expansion serait largement due à l’adoption rapide de l’IA et des grands modèles de langage (LLM), « qui ont rendu le développement de robots plus accessible et réalisable même pour les moins qualifiés techniquement », mais également permis le lancement de plateformes de Bots-as-a-Service (BaaS).

Bytespider, un robot d’exploration du web exploité par ByteDance, le propriétaire chinois de TikTok, officiellement utilisé pour télécharger des données d’entraînement pour ses LLM, serait à lui seul responsable de 54 % de toutes les attaques basées sur l’IA, devant AppleBot (26 %), ClaudeBot (13 %) et ChatGPT User Bot (6 %).

IA

Les crawlers des IA deviennent un sérieux problème pour le web, même pour Wikimédia

IA

Jeudi 03 avril 2025 à 17h06 03/04/2025 17h06

50

Le rapport précise, cela dit, que cette prévalence de ByteSpider « peut être attribuée en grande partie au fait qu’il est largement reconnu comme un robot d’exploration légitime, ce qui en fait un candidat idéal pour l’usurpation d’identité » :

« Les cybercriminels déguisent souvent leurs robots malveillants en robots d’exploration pour échapper à la détection et contourner les mesures de sécurité qui placent les robots d’exploration connus sur liste blanche. »

L’équipe Threat Research d’Imperva a également constaté une augmentation de 55 % des attaques dirigées contre les API. 44 % du trafic de bots avancés prennent ces interfaces pour cibles, contre seulement 10 % ciblant les applications.

Les cybercriminels déploient en effet des bots spécifiquement conçus pour exploiter les vulnérabilités dans les flux des API, se livrant à des fraudes automatisées aux paiements, à des détournements de comptes ou encore à l’exfiltration de données.

31 % des attaques enregistrées l’an passé émanaient de « bad bots »

Au total, 31 % de toutes les attaques enregistrées l’an passé par Imperva émanaient de tels « bad bots » et de l’un des 21 types d’attaques automatisées identifiés par l’Open Web Application Security Project (OWASP).

*OWASP Automated Threats to Web Applications identification chart*

L’entreprise recommande dès lors de renforcer les défenses des sites web afin de de pouvoir distinguer les consommateurs légitimes des robots malveillants :

« La mise en œuvre d’une analyse avancée du trafic, de mécanismes de détection des robots en temps réel et de mesures d’authentification robustes peut contribuer à protéger votre plateforme, en garantissant un accès équitable aux clients réels. »

Imperva souligne à ce titre que de nombreux outils et scripts de robots reposent sur des user-agents de versions de navigateurs obsolètes. Alors qu’a contrario, les internautes humains sont quant à eux obligés de mettre à jour automatiquement leurs navigateurs vers des versions plus récentes.

L’entreprise, qui a également constaté un recours accru aux services de proxies, afin de masquer la provenance des robots malveillants, recommande la mise en œuvre de contrôles d’accès pour les fournisseurs d’IP connus pour être utilisés à cet effet, « tels que Host Europe GmbH, Dedibox SAS, Digital Ocean, OVH SAS et Choopa LLC ».

Commentaires (17)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

Raikiwi Premium

Le 23/04/2025 à 15h13

Super l'illustration !

Case_Of Premium

Le 23/04/2025 à 15h27

je valide le sous titre

Han O\'Neam Premium

Modifié le 23/04/2025 à 15h56

!Bad Robot

(tiens, le markdown pour l'image ne marche plus ?)

fregate Premium

Le 23/04/2025 à 15h59

Je trouve que le titre est trompeur.
peut être que 51% du trafic vers les sites web sont généré par des robots, mais clairement pas 51% du trafic internet tout court. Les 2/3 du trafic internet Français c'est de la vidéo sur netflix, youtube & Co... Ce type de trafic n'est pas généré par des robots.

Jean-Marc Manach Équipe

Le 23/04/2025 à 16h08

J'ai hésité, mais ai repris le wording d'Impreva, d'autant que le rapport évoque de nombreuses attaques visant les API... et donc pas que les seuls sites web.

Après, et comme indiqué, le rapport « s'appuie sur des données collectées sur l'ensemble du réseau mondial d'Imperva en 2024, y compris le blocage de 13 000 milliards de requêtes de robots malveillants dans des milliers de domaines et d'industries », et donc probablement pas le trafic des particuliers, mais faute de données sur la méthodologie, j'ai aussi hésité à préciser trafic Internet "corporate".

fred42 Premium

Le 23/04/2025 à 18h47

Je suis d'accord avec toi.

Il nous manque au minimum leur définition du trafic Internet. Je pense que ce n'est pas du trafic en tant que bande passante, en Go. La vidéo doit toujours être la majorité du trafic Internet.

En plus, leur PDF dit :

For the first time in a decade, automated traffic surpassed human activity, accounting for 51% of all web traffic in 2024.

Il ne s'agit donc pas de trafic Internet comme le dit le titre mais de trafic Web.
On lit cependant dans la page en lien :

In this 12th Annual Imperva Bad Bot Report, we explore the rapidly changing landscape of automated internet traffic,

Là, ils parlent de trafic internet mais ne donnent pas de %.

Quant à l'unité de mesure du trafic, j'ai l'impression que c'est plus des connexions à des sites Web ou autres services.

J'ai toujours du mal avec des sociétés spécialisées dans la vente de solutions pour contrer des attaques depuis Internet, elles présentent toujours le risque de façon à faire peur afin de mieux vendre leurs solutions.
Alors quand cette société dit :

We’ve published the 2025 Imperva Bad Bot Report as part of our commitment to helping organizations better understand the challenges associated with automated traffic and its risks.

je me marre parce qu'elle veut nous faire croire qu'elle publie leur rapport pour aider !
Heureusement qu'elle a écrit juste avant :

For over twelve years, Imperva has been dedicated to helping organizations manage and mitigate the threat of bad bots.

ce qui rappelle son cœur de business et que cette publication est tout sauf désintéressée.

Ce genre de rapport est toujours à prendre avec des pincettes, surtout quand il n'explique pas précisément comment il a obtenus ces résultats.
On peut juste lire :

Our analysis draws from data collected from across the Imperva global network in 2024, including the blocking of 13 trillion bad bot requests across thousands of domains and industries.

Je comprends donc qu'ils n'ont mesuré cette proportion que sur leur réseau qui sert à protéger leurs clients dont le trafic passe probablement par ce réseau. Ils intègrent aussi le trafic qu'ils ont bloqué pour compter le trafic des bad bots.

Leur statistique est donc du pipeau : il n'est mesuré que pour leurs clients qui sont probablement plus la cible d'attaque des ceux qui ne sont pas clients chez eux.

@Jean-MarcManach :

Les API, ce sont aussi des serveurs Web qui les fournissent, le trafic des API et des sites WEb, c'est pratiquement la même chose. L'absence de données sur la méthode rend très suspect ce rapport.
Au minimum, il faudrait signaler ce manque et au maximum, ignorer complètement leur publication que l'on ne peut pas considérer comme fiable. Il ne s'agit même pas du trafic Internet "corporate", mais juste celui vers leurs clients.

J'ai tout de suite eu le même réflexe que fregate sur trafic et le fait que ce chiffre était trompeur. J'ai donc cherché de l'information sur leur mesure dans leur PDF sans en trouver. J'en ai donc tiré les conclusions ci-dessus.

Jean-Marc Manach Équipe

Le 23/04/2025 à 20h14

Les infographies et « key findings » du .pdf parlent de « internet traffic », et j'avais donc initialement parler de « trafic Internet » du fait des attaques visant les API, mais j'ai donc mis à jour l'article et son titre pour préciser qu'il s'agit bien du trafic web des clients d'une entreprise de cybersécurité proposant des services de lutte contre les bots (et non du « trafic Internet » en général).

Je serais d'ailleurs et à ce titre preneur de toute info/doc portant sur le fait que les appels aux API relèveraient du « trafic web », mais aussi de toute étude universitaire ou indépendante (et donc non corporate) sur la croissance du trafic imputable à des bots (notamment en matière d'IA & entraînements des LLM).

fred42 Premium

Le 23/04/2025 à 20h34

En fait, je pense qu'on se moque de savoir si c'est du trafic Web ou Internet. Tout le monde mélange les 2 termes, comme eux qui utilisent les 2 dans leur PDF. Ça m'énerve, mais c'est comme ça.

Pour les API, cette page chez RedHat est assez complète. En la lisant, je vois, qu'il y a aussi des API distantes qui ne sont pas Web :

Le réseau de communication le plus fréquemment utilisé étant Internet, la plupart des API sont conçues sur la base des normes web. Toutes les API distantes ne sont pas des API web, mais on peut supposer que toutes les API web sont distantes.

J'ai donc été un peu rapide, mais probablement proche de ce qui se fait actuellement. Les 2 types d'API citées SOAP et REST sont bien des API de type Web accédées par protocole HTTP.

Pour le dernier point (les études universitaires ou indépendantes), je passe mon tour.

Wosgien Premium

Modifié le 23/04/2025 à 18h18

Il est vivant !!!!

(question: le badbot, il clique sur les pubs et il commande ensuite au moins? du coup, un bad bot, c'est pas une cible pour une campagne de pub? ou de phishing?)

Fbanzay

Le 29/04/2025 à 13h06

Les bad-bots vont générer du traffic sur les serveurs webs cibles et utiliser des ressources qui ne seront pas données à des clients finaux. C'est un manque à gagner voir un surcoût si la protection du site web est faite par une des sociétés de CDN qui facture au traffic en cache ou bien envoyé jusqu'au serveur d'origine.

On a commencé à bloquer ces catégories de bad Bots sur nos sites webs. Par contre, cela peut aussi créer des faux-positifs avec certains vieilles applications/API mais cela force à nettoyer correctement cela. Depuis son activation, cette protection anti-bot a bloqué un paquet de traffic qui polluait nos sites webs.

Le paramètre "Browser - User Agent" est aussi utilisé pour faire une empreinte de la connection et pour savoir quelle catégorie de BOT, se connecte sur un site web.
Les attaques externes essayent de frauder ce paramètre et déclare un browser "humain" alors que c'est un BOT. Dans ce cas, il est flagué comme Unknown BOT et potentiellement bloquée. Un navigateur humain aurait un User Agent valide et normalement récent.

Bref, c'est tout un jeu du chat et de la souris pour ne pas de faire pourrir ou voler le contenu de ses sites webs.

fred42 Premium

Le 29/04/2025 à 13h23

Tu aurais des chiffres en % de trafic ou de coût économisé avec ce genre de solution ?

Fbanzay

Le 29/04/2025 à 13h36

pour Mars dernier, c'est 3% de nos traffics -> mais du genre 5 Millions de requêtes bloquées. Beaucoup de web-scrapper mais aussi de scripts automatisés.
Ces fournisseurs de CDN fournissent aussi des solutions d'empreintes pour cibler les bons et les mauvais (chasseurs...) Bots. C'est long à mettre en place sans tout planter mais c'est une bonne protection et c'est surtout dynamique. Ils rajoutent des nouvelles methodes de Bots régulièrement.
Cela s'ajoute aux protections DDoS et protection d'application. On voit aussi une grosse augmentation de SQL injection.

SebGF Premium

Le 23/04/2025 à 19h23

Internet is for ~~porn~~ bots.

RuMaRoCO Premium

Le 24/04/2025 à 10h23

Petite reflexion avant de lire l'article.

51% du traffic web généré par des bot.

1/3 du traffic web (en 2018) consernait le sexe. ( 1er article trouvé
- https://www.dna.fr/societe/2018/06/23/selon-les-estimations-environ-un-tiers-du-trafic-web-mondial-serait-lie-a-la-pornographie)

Est-ce que ça veut dire que 1/6 des bots regarde du cul ?

SebGF Premium

Le 24/04/2025 à 12h08

Sans le savoir, Deus Ex Silicium sur YouTube fait du porno pour les bots

Constance Premium

Le 26/04/2025 à 21h18

"des bots automatisés" => Il y a des bots qui ne le sont pas ?

linconnu

Modifié le 27/04/2025 à 20h15

C'est aussi à cause des classements des moteurs de recherche et du système de rémunération des publicités qui est toujours basée sur des quantités : nombre d'impressions, de vues, de clicks, de followers, de commentaires, de likes etc...