Connexion
Abonnez-vous

16 milliards d’identifiants : plus qu’une simple fuite, un risque « d’exploitation massive »

Philippulus le prophète l'avait dit !

16 milliards d’identifiants : plus qu’une simple fuite, un risque « d’exploitation massive »

Des chercheurs en sécurité affirment avoir localisé sur Internet une vingtaine de nouvelles bases de données compilant des informations de type adresse email, identifiant et mot de passe, issus de tous les grands services en ligne populaires. L'ensemble représenterait quelque 16 milliards de données personnelles, recueillies principalement à l'aide de logiciels automatisés.

Le 20 juin à 14h47

Depuis deux jours, les amateurs de titraille sensationnaliste s'en donnent à cœur joie : on assisterait ainsi à la « plus grande fuite de l'histoire » en matière de données personnelles et tous nos comptes en ligne, quel que soit le service, risqueraient d'être compromis. Il faut dire que le chiffre avancé : 16 milliards d'identifiants dans la nature, a de quoi inquiéter ! Si impressionnant qu'il soit, il convient toutefois de profiter des quelques heures qui nous séparent encore de la fin du monde pour prendre un peu de recul.

En valeur absolue, le chiffre est tel qu'il encourage les "influenceurs" ou les médias à faire du FUD

Une compilation de 16 milliards de lignes

Le média spécialisé Cybernews a publié mercredi les résultats chiffrés d'un travail de surveillance mené depuis le début de l'année, qui a consisté à essayer de référencer les plus importantes bases de données contenant des informations personnelles circulant sur Internet. Sans préciser les outils mis en œuvre ou le périmètre exact de leur surveillance, les auteurs indiquent avoir découvert 30 jeux de données de très grande envergure, non identifiés ou rendus publics jusqu'ici, totalisant quelque 16 milliards de lignes, qui correspondraient à autant d'identifiants sur des services en ligne.

Plus que ce volume total (qui serait probablement révisé à la baisse après déduplication), c'est la taille unitaire des jeux de données qui semble tout particulièrement impressionner les chercheurs. La plus grande base répertoriée par leurs soins compilerait ainsi 3,5 milliards d'enregistrements ciblant particulièrement la population lusophone. Ces méga jeux de données seraient généralement rattachés soit à une population ou une zone géographique, soit à un service en ligne spécifique, à l'image d'un fichier de 60 millions d'enregistrements rattaché spécifiquement à la messagerie Telegram.

Pour les chercheurs, la taille unitaire de ces fichiers traduit un effort de compilation, c'est-à-dire d'agrégation de données éparses, de façon à constituer des bases de données offrant une surface d'attaque beaucoup plus importante. De quoi lancer des campagnes, de phishing par exemple, à très, très grande échelle.

Il faut également faire attention à ce qu’on retrouve dans ce genre de fichiers. Il peut évidemment y avoir des données sensibles, mais aussi d’autres moins intéressantes. C’était le cas de la récente fuite de Steam avec un fichier de 89 millions de lignes… comprenant des SMS pour la double authentification (valable 15 minutes) et des métadonnées.

La montée en puissance des infostealers

Les fichiers sont nouveaux, mais quelle est la fraîcheur des enregistrements qu'ils contiennent ? S'ils estiment que la donnée est « récente », les chercheurs ne la datent pas avec précision, et soulignent par ailleurs qu'une partie a déjà été référencée.

Leurs analyses montrent trois sources principales. D'abord, des données issues de campagnes de credential stuffing (un identifiant volé est testé sur d'autres services, en partant du principe que les internautes utilisent souvent le même couple nom d'utilisateur / mot de passe d'un site à l'autre). Ensuite, des enregistrements issus de précédentes fuites (dans une proportion non déterminée). Enfin, des lignes dont la structure récurrente permet de déduire qu'elles sont issues d'un logiciel de type infostealer (un malware conçu pour collecter les informations personnelles, parmi lesquelles les couples identifiant / mot de passe).

« Bien que la dénomination ne soit pas la meilleure façon de déduire la provenance des données, il semble que certaines informations concernent des services cloud, des données métier et même des fichiers verrouillés. Certains noms d'ensembles de données font probablement référence au type de logiciel malveillant ayant permis de collecter les données », remarque Cybernews.

La structure la plus fréquente serait de type URL / identifiant / mot de passe, avec un séparateur susceptible de varier selon les outils, sur le modèle des logs que produisent les infostealers les plus courants, à l'image de Raccoon Stealer et de ses nombreux clones.

Une industrialisation qui inquiète

En définitive, ces résultats illustrent surtout, pour Cybernews, comment les pirates industrialisent leurs processus, mais aussi la façon dont l'essor des infostealers contribue à augmenter l'offre en matière d'informations personnelles. Sur Telegram, les petits fichiers de données qui auparavant se vendaient s'échangent maintenant gratuitement, remarque ainsi Bleeping Computer, un autre média spécialisé. Et c'est donc dans ces méga fichiers que la valeur marchande se concentrerait désormais.

« Il ne s'agit pas d'une simple fuite, mais d'un plan d'exploitation massive. Avec plus de 16 milliards d'identifiants de connexion exposés, les cybercriminels disposent désormais d'un accès sans précédent aux identifiants personnels, qui peuvent être utilisés pour le piratage de comptes, l'usurpation d'identité et le phishing hautement ciblé », commente Cybernews.

Quelle conduite adopter ?

L'étude de Cybernews montre que le phénomène d'agrégation des données est bien vivace. Il n'est cependant pas nouveau. On se souvient par exemple de la découverte, début 2024, d'une méga base de données, qui réunissait quelque 3 800 dossiers unitaires au sein d'un colossal fichier contenant 26 milliards d'enregistrements. Son envergure était telle que cette combinaison de multiples fuites avait été surnommée MOAB, pour « mother of all breaches » (la mère de toutes les brèches).

Que convient-il de faire pour se prémunir des risques afférents ? La situation ne revêt aucun caractère d'urgence particulier, mais rappelle de façon pressante l'importance des bonnes pratiques en matière de sécurité : le recours à la double authentification, l'utilisation d'un gestionnaire de mots de passe, la déduplication systématique des mots de passe entre des services différents, la sécurisation de ses différentes machines, etc. La CNIL rappelle les bons réflexes à avoir.

Commentaires (23)

votre avatar
C'était ça qu'on nous prédisait par la "fin du mot de passe" ? Tout le monde a nos mots de passe donc plus de problème ?
votre avatar
Déjà si le MFA pouvait être activé partout, ça serait bien... (coucou laposte.net et &)
votre avatar
Et du vrai MFA surtout... Digiposte continue de me proposer uniquement la 2FA par SMS, impossible d'obtenir une 2FA TOTP par exemple.
votre avatar
J'ai pourtant le choix du 2FA via une application d’authentification sur https://moncompte.laposte.fr/, dont dépend Digiposte, et je m'en sers très bien.
votre avatar
Le MFA centralisé sur son smartphone est fabuleux... Une appli 2FA par site/fournisseur (donc on en aura des centaines...) ... En prime, il suffit de ne plus avoir le smartphone pour être totalement empêché de toute ransaction... Ce mécanisme nous promet un avenir radieux... :musique:
votre avatar
Il faudrait rajouter un M à MFA pour faire Multiple Multiple Factor Authentication.

Parce que, hélas, les services en ligne ne proposent pas assez d'options là-dedans.

Perso j'essaye toujours d'activer au moins deux méthodes pour dans le cas où le smartphone est en carafe (vécu avec ce tas de merde qu'était le Nokia G60 5G qui passait son temps à faire des reset usine). Par exemple TOTP avec plusieurs applications (comme ça un sur smartphone, un sur keepassxc), ou TOTP + Yubikey.

Y'a encore du chemin, quand je vois des gros services en ligne comme Paypal infoutus de supporter plus d'une yubikey...
votre avatar
J'avoue ne pas avoir creusé plus que ça, j'ai juste un message m'invitant à installer la double authentification par SMS à chaque connexion, je supposais que c'était la seule technique supportée
votre avatar
les amateurs de titraille sensationnaliste s'en donnent à cœur joie
Yep, classique chez SaxX
votre avatar
S'il y avait que lui...
votre avatar
Sur le fond, 16 milliards, c'est énorme, on ne sait pas si c'est le compte (approximatif) des enregistrements ou des champs, à priori je dirais qu'il faut leur en donner plus à croquer, bien que ce soit déjà inexploitable de façon fiable, il faut leur en donner à croquer toujours de plus en plus, des bidon usage unique bien entendu, le temps qu'ils fassent un peu de tri leur base de données n'aura plus aucune valeur marchande, si toutefois elle en a une aujourd'hui, de toute façon ça ne correspond à rien de concret tel que c'est présenté.
je ne sais même pas pour moi même combien j'ai de comptes créés un peu partout depuis 25 ans, ce qui est sûr c'est que quand je vois la liste de ce qui est mémorisé dans Firefox, je me marre en secret devant tout ce qui est obsolète et bidon, mais je les laisse justement pour leur pourrir la vie.
votre avatar
je ne sais même pas pour moi même combien j'ai de comptes créés un peu partout depuis 25 ans, ce qui est sûr c'est que quand je vois la liste de ce qui est mémorisé dans Firefox, je me marre en secret devant tout ce qui est obsolète et bidon, mais je les laisse justement pour leur pourrir la vie.
Et ce qui va être fun, c'est le phishing que je vais recevoir où la seule info véritable sera l'adresse mail, qui a existée un jour mais n'est plus branchée sur rien, ou qui est encore valide et dont la structure identifie le destinataire. (1)
Car il y a beaucoup de Jean Peuplut, habitant sur la lune, pour tout ceux qui voulait absolument avoir mes coordonnées avant que je puis aller sur leur site.

(1) Si jamais Next revend (ou leak) mon adresse, next@chez-moi.ici, ça se verra de suite.
Surtout si c'est pour me vendre l'isolation des combles pour 1€.
votre avatar
Et dedans combien de comptes pipeau?
Bon nombre de service oblige à créer un compte avant même de savoir ce qu'il y a dedans.
J'espère que les gens créent de faux compte ça?
votre avatar
C'est marrant quand on pense à nous et nos bonnes pratiques.
Il ne reste pas moins que 16 Millard, même si 3% amène a un résultat, ca reste 48 millions de comptes qui peuvent être exploités.
Quand je vois les automatismes qui attaquent les pare-feu toutes les 15 secondes avec des logins qui défilent et des IP qui changent à chaque fois, je me dis qu'avec de bons scripts, ca prendra du temps mais il y a des comptes qui vont y passer :) Enfin, c'est pas nouveau ! Il y avait déjà matière à faire avant cette nouvelle découverte.
votre avatar
Du mal à comprendre… enfin plus ou moins en lisant certains articles de Next ici qui ont décrit la politique de sécurité lamentable de certaines boites.

En 1998 (ça date déjà), en école d’ing, je me rappelle très bien cet « épisode » : un de mes camarades de classe va voir l’admin IT du parc informatique (parc de stations Sun @ Unix), car il avait oublié son mot de passe pour le lui demander.

Réponse de l’admin :
« mais c’est impossible, tout est chiffré, tout ce que je peux faire, c’est de le réinitialiser blank»
Alors si toutes les bases sont chiffrées et il n’y a que des échanges de hash pour vérification (fonction qui n’est -quasiment- pas réversible), normalement, même si fuites de données, cela ne devrait avoir aucun impact, non ?

Et quand on entend que des mots de passe Google sont dans ces leaks en clair, j’ai du mal à comprendre comment.
:keskidit:
votre avatar
infostealer ?
Enfin, des lignes dont la structure récurrente permet de déduire qu'elles sont issues d'un logiciel de type infostealer (un malware conçu pour collecter les informations personnelles, parmi lesquelles les couples identifiant / mot de passe).
votre avatar
Rien compris... Si à la création du mot de passe, ce mot de passe est ensuite chiffré dans la base de données des mots de passe, comment ils font ?

Sinon comment le fichier des mots de passe Unix (Linux) est chiffré ? ça je ne sais pas.
votre avatar
Sinon comment le fichier des mots de passe Unix (Linux) est chiffré ? ça je ne sais pas
Le mot de passe est hashed + salted dans le fichier. Le salt est stocké dedans aussi.

Après le vol de hashes pour les comparer se fait aussi (d'où l'importance du salage).
votre avatar
je suppose que l'infostealer le chope quand l'utilisateur le tape

Infostealer — Wikipédia

Infostealers : cette menace encore bien trop ignorée | LeMagIT
votre avatar
Si on considère que le site a les bonnes pratiques de gestion de mot de passe (ce qui est loin d'être le cas partout malheureusement), alors il faut savoir :
- que les utilisateurs ne sont pas tous au courant des bonnes pratiques, aujourd'hui encore pour faire un mot de passe sécurisé
- qu'un mot de passe de 8 caractères "fort" (majuscule + minuscule + chiffre + autres caractères), en connaissant son hash, c'est quelques secondes pour le cracker avec un PC d'aujourd'hui
- qu'un mot de passe à faible entropie (par ex: que des minuscules ou que des chiffres) se craque très bien en quelques secondes/minutes pour des longueurs allant jusqu'à 10.

Et là, je parle de mot de passe cracké par force brute lorsqu'ils sont hashés correctement (avec sel et un algo de hashage cryptographiquement sûr).

Si les mots de passe sont hashés sans sel par exemple, alors les attaques par table arc-en-ciel sont possibles (ce qui accélère grandement le processus !) et les attaques par brute-force sont d'autant plus efficace qu'il y a de mot de passe dans la base volée (puisqu'il n'y a plus de besoin de tester toutes les combinaisons pour chaque mot de passe, mais que chaque combinaison peut être testé sur l'ensemble des mots de passe en une fois).

Je suis justement en train de le faire pour un client. Je teste la robustesse des mots de passe de ses utilisateurs. Il y a quelques surprises...
votre avatar
Merci pour cette réponse claire, précise et documentée !

C'est là que l'on voit qu'avoir un PhD dans le domaine permet de parler avec toute autorité sur un sujet que l'on connaît et maîtrise !

:yes: :incline:
votre avatar
Et les journalistes qui rédigent un article putaclick pour caser "lusophone", on en parle ? :mrgreen:
votre avatar
je plaide coupable votre honneur :D
votre avatar
Ils ont compilés différentes bases de données pour obtenir une base de 16milliards ?

16 milliards d’identifiants : plus qu’une simple fuite, un risque « d’exploitation massive »

  • Une compilation de 16 milliards de lignes

  • La montée en puissance des infostealers

  • Une industrialisation qui inquiète

  • Quelle conduite adopter ?

Fermer