En 2024, 51 % du trafic web a été généré par des bots automatisés
Méga BaaS In

Les robots utilisés par les grands modèles de langage (LLM) pour indexer le web ne sont que la partie émergée de l'iceberg. Une étude portant sur le trafic web des clients d'une entreprise de cybersécurité proposant des services de lutte contre les bots avance que 37 % émanerait en effet de « robots malveillants » (contre 19 % il y a 10 ans), contre 14 % pour les robots légitimes, et 49 % pour les internautes humains (contre plus de 60 % il y a encore 5 ans).
Le 23 avril à 15h02
6 min
Sécurité
Sécurité
Mise à jour, 19h48 : en réponse à des remarques effectuées en commentaires, l'article a été modifié pour préciser que l'étude porte sur le trafic web des clients d'une entreprise de cybersécurité proposant des services de lutte contre les bots (et non sur le « trafic Internet » en général), et le titre modifié en conséquence.
« Pour la première fois en dix ans, le trafic automatisé a dépassé l'activité humaine, représentant 51 % de l'ensemble du trafic web en 2024 ». Ces derniers représentaient en effet un peu plus de 60 % du trafic web jusqu'en 2020, contre 49 % seulement en 2024.
Les « gentils bots », tels que les crawlers qui indexent les pages web, sont quant à eux passés de 20 % environ à 14 %. Les « robots malveillants », a contrario, voient leur trafic augmenter depuis six ans, passant de 19 à 37 %.

Les chiffres émanent du 12e rapport « Bad Bot » (.pdf) d'Imperva, une entreprise états-unienne de cybersécurité rachetée par Thales en 2023 pour 3,6 milliards de dollars. Elle précise que son analyse « s'appuie sur des données collectées sur l'ensemble du réseau mondial d'Imperva en 2024, y compris le blocage de 13 000 milliards de requêtes de robots malveillants dans des milliers de domaines et d'industries ».
Le rapport définit ces robots malveillants comme des programmes automatisés conçus pour effectuer des activités nuisibles, telles que la récupération de données, le spam et le lancement d'attaques par déni de service distribué (DDoS).
Ils peuvent également extraire des données de sites web sans autorisation pour les réutiliser, obtenir un avantage concurrentiel, et « sont souvent utilisés pour le scalping, qui consiste à obtenir des articles à disponibilité limitée et à les revendre à un prix plus élevé », souligne le rapport.
Ils peuvent aussi, a contrario, être utilisés pour remplir des formulaires pour, par exemple, créer des comptes fictifs, tromper les CAPTCHA, s'attaquer à la double authentification et voler des identités (« Credential Stuffing / Cracking »).
Le nombre de vols d'identités numériques imputables à des « bad bots » aurait ainsi augmenté de 40 % depuis 2023, et 54 % depuis 2022. Une explosion « probablement due » au fait que les cybercriminels utilisent l'IA pour automatiser les tentatives d'authentification et les attaques par force brute, ce qui les rend en outre plus sophistiquées et plus difficiles à détecter.
Le rapport souligne que l'augmentation de fuites et de vols de données rend également ce type d'attaques plus faciles à exploiter. Or, le centre de ressources sur le vol d'identité (Identity Theft Resource Center), qui documente depuis 2005 les violations de données signalées publiquement aux États-Unis, a de son côté identifié une augmentation de 211 % de notifications par rapport à 2023.
Des plateformes de Bots-as-a-Service (BaaS)
Le rapport précise aussi que « les attaquants utilisent de plus en plus des techniques sophistiquées pour imiter le trafic humain et mener des activités malveillantes, ce qui rend ces attaques plus difficiles à détecter et à atténuer ».
Cette expansion serait largement due à l’adoption rapide de l’IA et des grands modèles de langage (LLM), « qui ont rendu le développement de robots plus accessible et réalisable même pour les moins qualifiés techniquement », mais également permis le lancement de plateformes de Bots-as-a-Service (BaaS).
Bytespider, un robot d'exploration du web exploité par ByteDance, le propriétaire chinois de TikTok, officiellement utilisé pour télécharger des données d'entraînement pour ses LLM, serait à lui seul responsable de 54 % de toutes les attaques basées sur l’IA, devant AppleBot (26 %), ClaudeBot (13 %) et ChatGPT User Bot (6 %).
Le rapport précise, cela dit, que cette prévalence de ByteSpider « peut être attribuée en grande partie au fait qu'il est largement reconnu comme un robot d'exploration légitime, ce qui en fait un candidat idéal pour l'usurpation d'identité » :
« Les cybercriminels déguisent souvent leurs robots malveillants en robots d'exploration pour échapper à la détection et contourner les mesures de sécurité qui placent les robots d'exploration connus sur liste blanche. »
L’équipe Threat Research d’Imperva a également constaté une augmentation de 55 % des attaques dirigées contre les API. 44 % du trafic de bots avancés prennent ces interfaces pour cibles, contre seulement 10 % ciblant les applications.
Les cybercriminels déploient en effet des bots spécifiquement conçus pour exploiter les vulnérabilités dans les flux des API, se livrant à des fraudes automatisées aux paiements, à des détournements de comptes ou encore à l’exfiltration de données.
31 % des attaques enregistrées l'an passé émanaient de « bad bots »
Au total, 31 % de toutes les attaques enregistrées l'an passé par Imperva émanaient de tels « bad bots » et de l'un des 21 types d'attaques automatisées identifiés par l'Open Web Application Security Project (OWASP).

L'entreprise recommande dès lors de renforcer les défenses des sites web afin de de pouvoir distinguer les consommateurs légitimes des robots malveillants :
« La mise en œuvre d'une analyse avancée du trafic, de mécanismes de détection des robots en temps réel et de mesures d'authentification robustes peut contribuer à protéger votre plateforme, en garantissant un accès équitable aux clients réels. »
Imperva souligne à ce titre que de nombreux outils et scripts de robots reposent sur des user-agents de versions de navigateurs obsolètes. Alors qu'a contrario, les internautes humains sont quant à eux obligés de mettre à jour automatiquement leurs navigateurs vers des versions plus récentes.
L'entreprise, qui a également constaté un recours accru aux services de proxies, afin de masquer la provenance des robots malveillants, recommande la mise en œuvre de contrôles d'accès pour les fournisseurs d'IP connus pour être utilisés à cet effet, « tels que Host Europe GmbH, Dedibox SAS, Digital Ocean, OVH SAS et Choopa LLC ».
En 2024, 51 % du trafic web a été généré par des bots automatisés
-
Des plateformes de Bots-as-a-Service (BaaS)
-
31 % des attaques enregistrées l'an passé émanaient de « bad bots »
Commentaires (17)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 23/04/2025 à 15h13
Le 23/04/2025 à 15h27
Modifié le 23/04/2025 à 15h56
(tiens, le markdown pour l'image ne marche plus ?)
Le 23/04/2025 à 15h59
peut être que 51% du trafic vers les sites web sont généré par des robots, mais clairement pas 51% du trafic internet tout court. Les 2/3 du trafic internet Français c'est de la vidéo sur netflix, youtube & Co... Ce type de trafic n'est pas généré par des robots.
Le 23/04/2025 à 16h08
Après, et comme indiqué, le rapport « s'appuie sur des données collectées sur l'ensemble du réseau mondial d'Imperva en 2024, y compris le blocage de 13 000 milliards de requêtes de robots malveillants dans des milliers de domaines et d'industries », et donc probablement pas le trafic des particuliers, mais faute de données sur la méthodologie, j'ai aussi hésité à préciser trafic Internet "corporate".
Le 23/04/2025 à 18h47
Il nous manque au minimum leur définition du trafic Internet. Je pense que ce n'est pas du trafic en tant que bande passante, en Go. La vidéo doit toujours être la majorité du trafic Internet.
En plus, leur PDF dit : Il ne s'agit donc pas de trafic Internet comme le dit le titre mais de trafic Web.
On lit cependant dans la page en lien : Là, ils parlent de trafic internet mais ne donnent pas de %.
Quant à l'unité de mesure du trafic, j'ai l'impression que c'est plus des connexions à des sites Web ou autres services.
J'ai toujours du mal avec des sociétés spécialisées dans la vente de solutions pour contrer des attaques depuis Internet, elles présentent toujours le risque de façon à faire peur afin de mieux vendre leurs solutions.
Alors quand cette société dit : je me marre parce qu'elle veut nous faire croire qu'elle publie leur rapport pour aider !
Heureusement qu'elle a écrit juste avant : ce qui rappelle son cœur de business et que cette publication est tout sauf désintéressée.
Ce genre de rapport est toujours à prendre avec des pincettes, surtout quand il n'explique pas précisément comment il a obtenus ces résultats.
On peut juste lire : Je comprends donc qu'ils n'ont mesuré cette proportion que sur leur réseau qui sert à protéger leurs clients dont le trafic passe probablement par ce réseau. Ils intègrent aussi le trafic qu'ils ont bloqué pour compter le trafic des bad bots.
Leur statistique est donc du pipeau : il n'est mesuré que pour leurs clients qui sont probablement plus la cible d'attaque des ceux qui ne sont pas clients chez eux.
@Jean-MarcManach :
Les API, ce sont aussi des serveurs Web qui les fournissent, le trafic des API et des sites WEb, c'est pratiquement la même chose. L'absence de données sur la méthode rend très suspect ce rapport.
Au minimum, il faudrait signaler ce manque et au maximum, ignorer complètement leur publication que l'on ne peut pas considérer comme fiable. Il ne s'agit même pas du trafic Internet "corporate", mais juste celui vers leurs clients.
J'ai tout de suite eu le même réflexe que fregate sur trafic et le fait que ce chiffre était trompeur. J'ai donc cherché de l'information sur leur mesure dans leur PDF sans en trouver. J'en ai donc tiré les conclusions ci-dessus.
Le 23/04/2025 à 20h14
Je serais d'ailleurs et à ce titre preneur de toute info/doc portant sur le fait que les appels aux API relèveraient du « trafic web », mais aussi de toute étude universitaire ou indépendante (et donc non corporate) sur la croissance du trafic imputable à des bots (notamment en matière d'IA & entraînements des LLM).
Le 23/04/2025 à 20h34
Pour les API, cette page chez RedHat est assez complète. En la lisant, je vois, qu'il y a aussi des API distantes qui ne sont pas Web : J'ai donc été un peu rapide, mais probablement proche de ce qui se fait actuellement. Les 2 types d'API citées SOAP et REST sont bien des API de type Web accédées par protocole HTTP.
Pour le dernier point (les études universitaires ou indépendantes), je passe mon tour.
Modifié le 23/04/2025 à 18h18
(question: le badbot, il clique sur les pubs et il commande ensuite au moins? du coup, un bad bot, c'est pas une cible pour une campagne de pub? ou de phishing?)
Le 29/04/2025 à 13h06
On a commencé à bloquer ces catégories de bad Bots sur nos sites webs. Par contre, cela peut aussi créer des faux-positifs avec certains vieilles applications/API mais cela force à nettoyer correctement cela. Depuis son activation, cette protection anti-bot a bloqué un paquet de traffic qui polluait nos sites webs.
Le paramètre "Browser - User Agent" est aussi utilisé pour faire une empreinte de la connection et pour savoir quelle catégorie de BOT, se connecte sur un site web.
Les attaques externes essayent de frauder ce paramètre et déclare un browser "humain" alors que c'est un BOT. Dans ce cas, il est flagué comme Unknown BOT et potentiellement bloquée. Un navigateur humain aurait un User Agent valide et normalement récent.
Bref, c'est tout un jeu du chat et de la souris pour ne pas de faire pourrir ou voler le contenu de ses sites webs.
Le 29/04/2025 à 13h23
Le 29/04/2025 à 13h36
Ces fournisseurs de CDN fournissent aussi des solutions d'empreintes pour cibler les bons et les mauvais (chasseurs...) Bots. C'est long à mettre en place sans tout planter mais c'est une bonne protection et c'est surtout dynamique. Ils rajoutent des nouvelles methodes de Bots régulièrement.
Cela s'ajoute aux protections DDoS et protection d'application. On voit aussi une grosse augmentation de SQL injection.
Le 23/04/2025 à 19h23
pornbots.Le 24/04/2025 à 10h23
51% du traffic web généré par des bot.
1/3 du traffic web (en 2018) consernait le sexe. ( 1er article trouvé
- https://www.dna.fr/societe/2018/06/23/selon-les-estimations-environ-un-tiers-du-trafic-web-mondial-serait-lie-a-la-pornographie)
Est-ce que ça veut dire que 1/6 des bots regarde du cul ?
Le 24/04/2025 à 12h08
Le 26/04/2025 à 21h18
Modifié le 27/04/2025 à 20h15