16 milliards d’identifiants : plus qu’une simple fuite, un risque « d’exploitation massive »
Philippulus le prophète l'avait dit !

Des chercheurs en sécurité affirment avoir localisé sur Internet une vingtaine de nouvelles bases de données compilant des informations de type adresse email, identifiant et mot de passe, issus de tous les grands services en ligne populaires. L'ensemble représenterait quelque 16 milliards de données personnelles, recueillies principalement à l'aide de logiciels automatisés.
Le 20 juin à 14h47
6 min
Sécurité
Sécurité
Depuis deux jours, les amateurs de titraille sensationnaliste s'en donnent à cœur joie : on assisterait ainsi à la « plus grande fuite de l'histoire » en matière de données personnelles et tous nos comptes en ligne, quel que soit le service, risqueraient d'être compromis. Il faut dire que le chiffre avancé : 16 milliards d'identifiants dans la nature, a de quoi inquiéter ! Si impressionnant qu'il soit, il convient toutefois de profiter des quelques heures qui nous séparent encore de la fin du monde pour prendre un peu de recul.

Une compilation de 16 milliards de lignes
Le média spécialisé Cybernews a publié mercredi les résultats chiffrés d'un travail de surveillance mené depuis le début de l'année, qui a consisté à essayer de référencer les plus importantes bases de données contenant des informations personnelles circulant sur Internet. Sans préciser les outils mis en œuvre ou le périmètre exact de leur surveillance, les auteurs indiquent avoir découvert 30 jeux de données de très grande envergure, non identifiés ou rendus publics jusqu'ici, totalisant quelque 16 milliards de lignes, qui correspondraient à autant d'identifiants sur des services en ligne.
Plus que ce volume total (qui serait probablement révisé à la baisse après déduplication), c'est la taille unitaire des jeux de données qui semble tout particulièrement impressionner les chercheurs. La plus grande base répertoriée par leurs soins compilerait ainsi 3,5 milliards d'enregistrements ciblant particulièrement la population lusophone. Ces méga jeux de données seraient généralement rattachés soit à une population ou une zone géographique, soit à un service en ligne spécifique, à l'image d'un fichier de 60 millions d'enregistrements rattaché spécifiquement à la messagerie Telegram.
Pour les chercheurs, la taille unitaire de ces fichiers traduit un effort de compilation, c'est-à-dire d'agrégation de données éparses, de façon à constituer des bases de données offrant une surface d'attaque beaucoup plus importante. De quoi lancer des campagnes, de phishing par exemple, à très, très grande échelle.
Il faut également faire attention à ce qu’on retrouve dans ce genre de fichiers. Il peut évidemment y avoir des données sensibles, mais aussi d’autres moins intéressantes. C’était le cas de la récente fuite de Steam avec un fichier de 89 millions de lignes… comprenant des SMS pour la double authentification (valable 15 minutes) et des métadonnées.
La montée en puissance des infostealers
Les fichiers sont nouveaux, mais quelle est la fraîcheur des enregistrements qu'ils contiennent ? S'ils estiment que la donnée est « récente », les chercheurs ne la datent pas avec précision, et soulignent par ailleurs qu'une partie a déjà été référencée.
Leurs analyses montrent trois sources principales. D'abord, des données issues de campagnes de credential stuffing (un identifiant volé est testé sur d'autres services, en partant du principe que les internautes utilisent souvent le même couple nom d'utilisateur / mot de passe d'un site à l'autre). Ensuite, des enregistrements issus de précédentes fuites (dans une proportion non déterminée). Enfin, des lignes dont la structure récurrente permet de déduire qu'elles sont issues d'un logiciel de type infostealer (un malware conçu pour collecter les informations personnelles, parmi lesquelles les couples identifiant / mot de passe).
« Bien que la dénomination ne soit pas la meilleure façon de déduire la provenance des données, il semble que certaines informations concernent des services cloud, des données métier et même des fichiers verrouillés. Certains noms d'ensembles de données font probablement référence au type de logiciel malveillant ayant permis de collecter les données », remarque Cybernews.
La structure la plus fréquente serait de type URL / identifiant / mot de passe, avec un séparateur susceptible de varier selon les outils, sur le modèle des logs que produisent les infostealers les plus courants, à l'image de Raccoon Stealer et de ses nombreux clones.
Une industrialisation qui inquiète
En définitive, ces résultats illustrent surtout, pour Cybernews, comment les pirates industrialisent leurs processus, mais aussi la façon dont l'essor des infostealers contribue à augmenter l'offre en matière d'informations personnelles. Sur Telegram, les petits fichiers de données qui auparavant se vendaient s'échangent maintenant gratuitement, remarque ainsi Bleeping Computer, un autre média spécialisé. Et c'est donc dans ces méga fichiers que la valeur marchande se concentrerait désormais.
« Il ne s'agit pas d'une simple fuite, mais d'un plan d'exploitation massive. Avec plus de 16 milliards d'identifiants de connexion exposés, les cybercriminels disposent désormais d'un accès sans précédent aux identifiants personnels, qui peuvent être utilisés pour le piratage de comptes, l'usurpation d'identité et le phishing hautement ciblé », commente Cybernews.
Quelle conduite adopter ?
L'étude de Cybernews montre que le phénomène d'agrégation des données est bien vivace. Il n'est cependant pas nouveau. On se souvient par exemple de la découverte, début 2024, d'une méga base de données, qui réunissait quelque 3 800 dossiers unitaires au sein d'un colossal fichier contenant 26 milliards d'enregistrements. Son envergure était telle que cette combinaison de multiples fuites avait été surnommée MOAB, pour « mother of all breaches » (la mère de toutes les brèches).
Que convient-il de faire pour se prémunir des risques afférents ? La situation ne revêt aucun caractère d'urgence particulier, mais rappelle de façon pressante l'importance des bonnes pratiques en matière de sécurité : le recours à la double authentification, l'utilisation d'un gestionnaire de mots de passe, la déduplication systématique des mots de passe entre des services différents, la sécurisation de ses différentes machines, etc. La CNIL rappelle les bons réflexes à avoir.
16 milliards d’identifiants : plus qu’une simple fuite, un risque « d’exploitation massive »
-
Une compilation de 16 milliards de lignes
-
La montée en puissance des infostealers
-
Une industrialisation qui inquiète
-
Quelle conduite adopter ?
Commentaires (23)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 20/06/2025 à 15h13
Le 20/06/2025 à 15h42
Le 20/06/2025 à 17h21
Modifié le 20/06/2025 à 17h30
Le 21/06/2025 à 08h24
Modifié le 21/06/2025 à 08h51
Parce que, hélas, les services en ligne ne proposent pas assez d'options là-dedans.
Perso j'essaye toujours d'activer au moins deux méthodes pour dans le cas où le smartphone est en carafe (vécu avec ce tas de merde qu'était le Nokia G60 5G qui passait son temps à faire des reset usine). Par exemple TOTP avec plusieurs applications (comme ça un sur smartphone, un sur keepassxc), ou TOTP + Yubikey.
Y'a encore du chemin, quand je vois des gros services en ligne comme Paypal infoutus de supporter plus d'une yubikey...
Le 21/06/2025 à 12h58
Le 20/06/2025 à 16h00
Le 20/06/2025 à 16h26
Le 20/06/2025 à 16h58
je ne sais même pas pour moi même combien j'ai de comptes créés un peu partout depuis 25 ans, ce qui est sûr c'est que quand je vois la liste de ce qui est mémorisé dans Firefox, je me marre en secret devant tout ce qui est obsolète et bidon, mais je les laisse justement pour leur pourrir la vie.
Le 20/06/2025 à 17h34
Car il y a beaucoup de Jean Peuplut, habitant sur la lune, pour tout ceux qui voulait absolument avoir mes coordonnées avant que je puis aller sur leur site.
(1) Si jamais Next revend (ou leak) mon adresse, next@chez-moi.ici, ça se verra de suite.
Surtout si c'est pour me vendre l'isolation des combles pour 1€.
Le 20/06/2025 à 18h14
Bon nombre de service oblige à créer un compte avant même de savoir ce qu'il y a dedans.
J'espère que les gens créent de faux compte ça?
Le 20/06/2025 à 23h44
Il ne reste pas moins que 16 Millard, même si 3% amène a un résultat, ca reste 48 millions de comptes qui peuvent être exploités.
Quand je vois les automatismes qui attaquent les pare-feu toutes les 15 secondes avec des logins qui défilent et des IP qui changent à chaque fois, je me dis qu'avec de bons scripts, ca prendra du temps mais il y a des comptes qui vont y passer :) Enfin, c'est pas nouveau ! Il y avait déjà matière à faire avant cette nouvelle découverte.
Le 21/06/2025 à 14h45
En 1998 (ça date déjà), en école d’ing, je me rappelle très bien cet « épisode » : un de mes camarades de classe va voir l’admin IT du parc informatique (parc de stations Sun @ Unix), car il avait oublié son mot de passe pour le lui demander.
Réponse de l’admin :
« mais c’est impossible, tout est chiffré, tout ce que je peux faire, c’est de le réinitialiser blank»
Alors si toutes les bases sont chiffrées et il n’y a que des échanges de hash pour vérification (fonction qui n’est -quasiment- pas réversible), normalement, même si fuites de données, cela ne devrait avoir aucun impact, non ?
Et quand on entend que des mots de passe Google sont dans ces leaks en clair, j’ai du mal à comprendre comment.
Le 22/06/2025 à 13h58
Le 23/06/2025 à 09h58
Sinon comment le fichier des mots de passe Unix (Linux) est chiffré ? ça je ne sais pas.
Le 23/06/2025 à 12h14
Après le vol de hashes pour les comparer se fait aussi (d'où l'importance du salage).
Le 24/06/2025 à 22h17
Infostealer — Wikipédia
Infostealers : cette menace encore bien trop ignorée | LeMagIT
Le 25/06/2025 à 08h03
- que les utilisateurs ne sont pas tous au courant des bonnes pratiques, aujourd'hui encore pour faire un mot de passe sécurisé
- qu'un mot de passe de 8 caractères "fort" (majuscule + minuscule + chiffre + autres caractères), en connaissant son hash, c'est quelques secondes pour le cracker avec un PC d'aujourd'hui
- qu'un mot de passe à faible entropie (par ex: que des minuscules ou que des chiffres) se craque très bien en quelques secondes/minutes pour des longueurs allant jusqu'à 10.
Et là, je parle de mot de passe cracké par force brute lorsqu'ils sont hashés correctement (avec sel et un algo de hashage cryptographiquement sûr).
Si les mots de passe sont hashés sans sel par exemple, alors les attaques par table arc-en-ciel sont possibles (ce qui accélère grandement le processus !) et les attaques par brute-force sont d'autant plus efficace qu'il y a de mot de passe dans la base volée (puisqu'il n'y a plus de besoin de tester toutes les combinaisons pour chaque mot de passe, mais que chaque combinaison peut être testé sur l'ensemble des mots de passe en une fois).
Je suis justement en train de le faire pour un client. Je teste la robustesse des mots de passe de ses utilisateurs. Il y a quelques surprises...
Modifié le 26/06/2025 à 09h38
C'est là que l'on voit qu'avoir un PhD dans le domaine permet de parler avec toute autorité sur un sujet que l'on connaît et maîtrise !
Le 23/06/2025 à 09h41
Le 23/06/2025 à 11h06
Le 23/06/2025 à 10h41