Common Crawl contient des milliers de clés et mots de passe API

Gardez vos secrets

Common Crawl contient des milliers de clés et mots de passe API

L'entreprise Truffle Security explique avoir trouvé près de 12 000 clés et mots de passe API dans l'une des bases de données les plus utilisées pour entrainer les IA génératives d'OpenAI, DeepSeek, Google, Meta, Anthropic, et Stability : Common Crawl. Non seulement Common Crawl expose des données sensibles, mais elle propose de mauvais exemples pour entrainer les IA sur l'utilisation des clés d'API.

Le 03 mars 2025 à 14h54

Commentaires (6)

votre avatar
Ah bravo !

L'entraînement des IA sur de mauvaises données est un problème de fond.
Un autre exemple avec Stack Overflow, quand j'entends que des IA ont été entraînées avec, alors que le contenu est souvent de piètre qualité (des réponses très bien notées alors que les bonnes réponse ne le sont parfois pas), cela laisse songeur sur ce que va proposer l'IA ensuite !
votre avatar
Tu veux dire que tu attends mieux d'une IA que d'un humain qui va sur 'Stack Overflow' ?
votre avatar
C'est ce qu'on nous vend et que beaucoup trop achètent !
votre avatar
Arrêtez de regarder mon keepass enfin !
votre avatar
En utilisant l'extension "Github Copilot", sur vscode, je me suis rendu compte plusieurs fois que les clés API notamment de google, qui était hardcodé et fourni par l'extension fonctionnait réellement.. :santa_flock:
votre avatar
Sur une appli Electron distribuée en AppImage, j'avais vu que le dev avait mis un token GitHub admin pour gérer le pull des mises à jour depuis son repository privé...

La sécu c'est vraiment surfait.

Ça m'étonne que ces clés ne soient pas révoquées.

Common Crawl contient des milliers de clés et mots de passe API

  • Les modèles de langage donnent de mauvais conseils

  • Près de 12 000 secrets API utilisables

Fermer