En 2024, 51 % du trafic web a été généré par des bots automatisés

Méga BaaS In

En 2024, 51 % du trafic web a été généré par des bots automatisés

Les robots utilisés par les grands modèles de langage (LLM) pour indexer le web ne sont que la partie émergée de l'iceberg. Une étude portant sur le trafic web des clients d'une entreprise de cybersécurité proposant des services de lutte contre les bots avance que 37 % émanerait en effet de « robots malveillants » (contre 19 % il y a 10 ans), contre 14 % pour les robots légitimes, et 49 % pour les internautes humains (contre plus de 60 % il y a encore 5 ans).

Le 23 avril 2025 à 15h02

Commentaires (17)

votre avatar
Super l'illustration ! :yaisse:
votre avatar
je valide le sous titre :dix:
votre avatar
!Bad Robot

(tiens, le markdown pour l'image ne marche plus ?)
votre avatar
Je trouve que le titre est trompeur.
peut être que 51% du trafic vers les sites web sont généré par des robots, mais clairement pas 51% du trafic internet tout court. Les 2/3 du trafic internet Français c'est de la vidéo sur netflix, youtube & Co... Ce type de trafic n'est pas généré par des robots.
votre avatar
J'ai hésité, mais ai repris le wording d'Impreva, d'autant que le rapport évoque de nombreuses attaques visant les API... et donc pas que les seuls sites web.

Après, et comme indiqué, le rapport « s'appuie sur des données collectées sur l'ensemble du réseau mondial d'Imperva en 2024, y compris le blocage de 13 000 milliards de requêtes de robots malveillants dans des milliers de domaines et d'industries », et donc probablement pas le trafic des particuliers, mais faute de données sur la méthodologie, j'ai aussi hésité à préciser trafic Internet "corporate".
votre avatar
Je suis d'accord avec toi.

Il nous manque au minimum leur définition du trafic Internet. Je pense que ce n'est pas du trafic en tant que bande passante, en Go. La vidéo doit toujours être la majorité du trafic Internet.

En plus, leur PDF dit :
For the first time in a decade, automated traffic surpassed human activity, accounting for 51% of all web traffic in 2024.
Il ne s'agit donc pas de trafic Internet comme le dit le titre mais de trafic Web.
On lit cependant dans la page en lien :
In this 12th Annual Imperva Bad Bot Report, we explore the rapidly changing landscape of automated internet traffic,
Là, ils parlent de trafic internet mais ne donnent pas de %.

Quant à l'unité de mesure du trafic, j'ai l'impression que c'est plus des connexions à des sites Web ou autres services.

J'ai toujours du mal avec des sociétés spécialisées dans la vente de solutions pour contrer des attaques depuis Internet, elles présentent toujours le risque de façon à faire peur afin de mieux vendre leurs solutions.
Alors quand cette société dit :
We’ve published the 2025 Imperva Bad Bot Report as part of our commitment to helping organizations better understand the challenges associated with automated traffic and its risks.
je me marre parce qu'elle veut nous faire croire qu'elle publie leur rapport pour aider !
Heureusement qu'elle a écrit juste avant :
For over twelve years, Imperva has been dedicated to helping organizations manage and mitigate the threat of bad bots.
ce qui rappelle son cœur de business et que cette publication est tout sauf désintéressée.

Ce genre de rapport est toujours à prendre avec des pincettes, surtout quand il n'explique pas précisément comment il a obtenus ces résultats.
On peut juste lire :
Our analysis draws from data collected from across the Imperva global network in 2024, including the blocking of 13 trillion bad bot requests across thousands of domains and industries.
Je comprends donc qu'ils n'ont mesuré cette proportion que sur leur réseau qui sert à protéger leurs clients dont le trafic passe probablement par ce réseau. Ils intègrent aussi le trafic qu'ils ont bloqué pour compter le trafic des bad bots.

Leur statistique est donc du pipeau : il n'est mesuré que pour leurs clients qui sont probablement plus la cible d'attaque des ceux qui ne sont pas clients chez eux.

@Jean-MarcManach :

Les API, ce sont aussi des serveurs Web qui les fournissent, le trafic des API et des sites WEb, c'est pratiquement la même chose. L'absence de données sur la méthode rend très suspect ce rapport.
Au minimum, il faudrait signaler ce manque et au maximum, ignorer complètement leur publication que l'on ne peut pas considérer comme fiable. Il ne s'agit même pas du trafic Internet "corporate", mais juste celui vers leurs clients.

J'ai tout de suite eu le même réflexe que fregate sur trafic et le fait que ce chiffre était trompeur. J'ai donc cherché de l'information sur leur mesure dans leur PDF sans en trouver. J'en ai donc tiré les conclusions ci-dessus.
votre avatar
Les infographies et « key findings » du .pdf parlent de « internet traffic », et j'avais donc initialement parler de « trafic Internet » du fait des attaques visant les API, mais j'ai donc mis à jour l'article et son titre pour préciser qu'il s'agit bien du trafic web des clients d'une entreprise de cybersécurité proposant des services de lutte contre les bots (et non du « trafic Internet » en général).

Je serais d'ailleurs et à ce titre preneur de toute info/doc portant sur le fait que les appels aux API relèveraient du « trafic web », mais aussi de toute étude universitaire ou indépendante (et donc non corporate) sur la croissance du trafic imputable à des bots (notamment en matière d'IA & entraînements des LLM).
votre avatar
En fait, je pense qu'on se moque de savoir si c'est du trafic Web ou Internet. Tout le monde mélange les 2 termes, comme eux qui utilisent les 2 dans leur PDF. Ça m'énerve, mais c'est comme ça.

Pour les API, cette page chez RedHat est assez complète. En la lisant, je vois, qu'il y a aussi des API distantes qui ne sont pas Web :
Le réseau de communication le plus fréquemment utilisé étant Internet, la plupart des API sont conçues sur la base des normes web. Toutes les API distantes ne sont pas des API web, mais on peut supposer que toutes les API web sont distantes.
J'ai donc été un peu rapide, mais probablement proche de ce qui se fait actuellement. Les 2 types d'API citées SOAP et REST sont bien des API de type Web accédées par protocole HTTP.

Pour le dernier point (les études universitaires ou indépendantes), je passe mon tour. :D
votre avatar
Il est vivant !!!!

(question: le badbot, il clique sur les pubs et il commande ensuite au moins? du coup, un bad bot, c'est pas une cible pour une campagne de pub? ou de phishing?)
votre avatar
Les bad-bots vont générer du traffic sur les serveurs webs cibles et utiliser des ressources qui ne seront pas données à des clients finaux. C'est un manque à gagner voir un surcoût si la protection du site web est faite par une des sociétés de CDN qui facture au traffic en cache ou bien envoyé jusqu'au serveur d'origine.

On a commencé à bloquer ces catégories de bad Bots sur nos sites webs. Par contre, cela peut aussi créer des faux-positifs avec certains vieilles applications/API mais cela force à nettoyer correctement cela. Depuis son activation, cette protection anti-bot a bloqué un paquet de traffic qui polluait nos sites webs.

Le paramètre "Browser - User Agent" est aussi utilisé pour faire une empreinte de la connection et pour savoir quelle catégorie de BOT, se connecte sur un site web.
Les attaques externes essayent de frauder ce paramètre et déclare un browser "humain" alors que c'est un BOT. Dans ce cas, il est flagué comme Unknown BOT et potentiellement bloquée. Un navigateur humain aurait un User Agent valide et normalement récent.

Bref, c'est tout un jeu du chat et de la souris pour ne pas de faire pourrir ou voler le contenu de ses sites webs.
votre avatar
Tu aurais des chiffres en % de trafic ou de coût économisé avec ce genre de solution ?
votre avatar
pour Mars dernier, c'est 3% de nos traffics -> mais du genre 5 Millions de requêtes bloquées. Beaucoup de web-scrapper mais aussi de scripts automatisés.
Ces fournisseurs de CDN fournissent aussi des solutions d'empreintes pour cibler les bons et les mauvais (chasseurs...) Bots. C'est long à mettre en place sans tout planter mais c'est une bonne protection et c'est surtout dynamique. Ils rajoutent des nouvelles methodes de Bots régulièrement.
Cela s'ajoute aux protections DDoS et protection d'application. On voit aussi une grosse augmentation de SQL injection.
votre avatar
Internet is for porn bots.
votre avatar
Petite reflexion avant de lire l'article.

51% du traffic web généré par des bot.

1/3 du traffic web (en 2018) consernait le sexe. ( 1er article trouvé
- https://www.dna.fr/societe/2018/06/23/selon-les-estimations-environ-un-tiers-du-trafic-web-mondial-serait-lie-a-la-pornographie)

Est-ce que ça veut dire que 1/6 des bots regarde du cul ? :dent:
votre avatar
Sans le savoir, Deus Ex Silicium sur YouTube fait du porno pour les bots :mdr:
votre avatar
"des bots automatisés" => Il y a des bots qui ne le sont pas ? :keskidit:
votre avatar
C'est aussi à cause des classements des moteurs de recherche et du système de rémunération des publicités qui est toujours basée sur des quantités : nombre d'impressions, de vues, de clicks, de followers, de commentaires, de likes etc...

En 2024, 51 % du trafic web a été généré par des bots automatisés

  • Des plateformes de Bots-as-a-Service (BaaS)

  • 31 % des attaques enregistrées l'an passé émanaient de « bad bots »

Fermer