DeepSeek : fuite de données massive et questionnements légaux
Deepleak ?

AIArchitecture © Anton Grabolle / Better Images of AI
En provoquant un coup de tonnerre sur le marché de l'intelligence artificielle, DeepSeek a attiré l'œil de tout le monde, dont celui de l'entreprise de sécurité informatique Wiz. Celle-ci a remarqué que la startup chinoise avait laissé une base de données accessible sur Internet sans aucune protection.
Le 31 janvier à 14h01
5 min
IA et algorithmes
IA
L'entreprise chinoise DeepSeek a connu un moment de mise en lumière mondiale comme on en connait peu et a provoqué une onde de choc importante dans le milieu de l'IA. Son modèle R1, qui se base comme o1 d'OpenAI sur de l'apprentissage par renforcement à grande échelle, peut en effet revendiquer de belles innovations notamment en matière d'optimisation des GPU, paradoxalement boostée par les restrictions américaines.
- DeepSeek : pourquoi une telle déflagration sur le marché de l’IA ?
- DeepSeek : la recherche chinoise paradoxalement boostée par les restrictions américaines
Mais comme souvent dans les success stories du numérique, la sécurité des données n'est pas la priorité des projets. Rappelons-nous, par exemple, de l'accumulation de failles de Zoom qui n'a pourtant pas empêché le succès de l'application de visioconférence.
Une base de données de DeepSeek accessible publiquement
Concernant DeepSeek, l'entreprise de sécurité informatique Wiz a découvert une base de données appartenant à la startup chinoise accessible publiquement. Dans un billet de blog publié mercredi 29 janvier, Wiz explique que cette base de données, gérée avec le logiciel ClickHouse développé par Yandex pour la haute performance, n'était pas sécurisée.
À Reuters, le directeur technique de Wiz, Ami Luttwak, a déclaré que DeepSeek avait rapidement réagi :« ils ont bloqué l'accès en moins d'une heure », ajoutant « mais c'était tellement simple à trouver que nous pensons que nous ne sommes pas les seuls ».
Un million d'entrées de logs avec historique de chat, secrets API et informations sensibles
Wiz explique que « cette base de données contenait un volume important d'historiques de chat, de données de backend et d'informations sensibles, y compris des flux de logs, des secrets d'API et des détails opérationnels ».
Et, en effet, la table de logs à laquelle ont pu accéder les chercheurs de Wiz contenait plus d'un million d'entrées, avec notamment des références à des points d'entrée de l'API interne de DeepSeek. Une autre colonne nommée « string.values » contenait les logs en plaintext incluant des historiques de chat, des clés d'API, etc.
L'entreprise de sécurité ajoute : « Plus grave encore, l'exposition a permis un contrôle total de la base de données et une escalade potentielle des privilèges au sein de l'environnement DeepSeek, sans aucun mécanisme d'authentification ou de défense vis-à-vis du monde extérieur ».
À Wired, l'entreprise explique que ses chercheurs n'ont vu que des prompts rédigés en chinois, mais pensent qu'il est possible que cette base de données contiennent des prompts dans d'autres langues. Ils assurent avoir procédé à une enquête minimale pour confirmer leurs conclusions sans compromettre inutilement la vie privée des utilisateurs.
Une faille digne d'un service laissé à l'abandon
Interrogé par nos confrères, le chercheur de Wiz Nir Ohfeld s'est étonné : « Habituellement, lorsque nous trouvons ce type d'exposition, c'est dans un service laissé à l'abandon que nous trouvons après des heures d'analyse. [Cette fois-ci], c'était à la porte d'entrée ». Il ajoute que « la difficulté technique de cette vulnérabilité est minime ».
« À mesure que l'IA s'intègre profondément dans les entreprises du monde entier, l'industrie doit reconnaître les risques liés à la manipulation de données sensibles et appliquer des pratiques de sécurité équivalentes à celles requises pour les fournisseurs de cloud public et les grands fournisseurs d'infrastructure », conclut l'entreprise dans son billet de blog.
Enquête lancée aux États-Unis sur l'obtention de GPU NVIDIA
Sur un autre tableau, DeepSeek fait l'objet d'une enquête américaine, explique Neowin. Le gouvernement américain cherche à savoir si l'entreprise a obtenu illégalement des GPU de NVIDIA via des intermédiaires situés à Singapour pour contourner les restrictions sur l'achat de puces comme les H100 de l'entreprise américaine.
Les chercheurs de DeepSeek ont pourtant expliqué avoir réussi à optimiser l'architecture d'entrainement de leur modèle pour n'utiliser que des GPU H800 de NVIDIA qui ne font pas partie des puces interdites d'export en Chine.
Rappelons aussi que la Garante per la protezione dei dati personali (GPDP, l'équivalent de la CNIL en Italie) considère qu'il existe un risque élevé pour les données de millions de personnes en Italie dans la mise à disposition du chatbot DeepSeek basé sur le modèle R1 dont le nom est sur toutes les lèvres actuellement. Elle a donc envoyé une demande d'informations à DeepSeek pour savoir si l'entreprise se conformait bien au RGPD. La CNIL a aussi annoncé qu’elle allait interroger la société chinoise.
DeepSeek : fuite de données massive et questionnements légaux
-
Une base de données de DeepSeek accessible publiquement
-
Un million d'entrées de logs avec historique de chat, secrets API et informations sensibles
-
Une faille digne d'un service laissé à l'abandon
-
Enquête lancée aux États-Unis sur l'obtention de GPU NVIDIA
Commentaires (19)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousModifié le 31/01/2025 à 14h49
Le 31/01/2025 à 22h21
La vision du droit d'auteur en France est cependant radicalement différente.
Le 31/01/2025 à 23h47
Le droit d'auteur est attribué ...
... aux auteurs. Et les IA ne sont pas des auteurs, parce que ce ne sont pas des humains.
Modifié le 01/02/2025 à 10h55
En cherchant un peu, le dépôt au bureau du Copyright US n'est plus une nécessité depuis cette convention justement pour protéger une oeuvre. C'est devenu une facilité de preuve juridique plutôt qu'une protection à obtenir. Comme l'INPI en France chez qui un auteur peut déposer ses oeuvres dans un coffre fort avec son portail e-Soleau.
En droit français, je pense qu'un auteur ne peut lui non plus prétendre à la paternité et la protection d'une oeuvre entièrement synthétisée par IA. Le code de la propriété intellectuelle parle bien "d'oeuvre de l'esprit" tout comme il mentionne "personne physique" dans le cas des co-auteurs.
Le 31/01/2025 à 16h20
Le 31/01/2025 à 16h51
Le 31/01/2025 à 17h15
Le 31/01/2025 à 17h39
Le 31/01/2025 à 18h05
Je pense qu'en Chine, ils ont tout ce qu'il faut pour faire une censure de ce type.
Le 31/01/2025 à 18h14
C'est aussi comme ça qu'un modèle de diffusion apprend à reconnaître du porn pour ne pas en générer par exemple.
Modifié le 31/01/2025 à 18h11
Il existe des techniques dites d'"abliteration" (jeu de mot entre "ablation" et "obliterate") qui consistent à manipuler les poids pour contourner les critères de refus. Cela permet de le dé-censurer sans avoir à le réentraîner.
Tu as un exemple sur HuggingFace où le procédé est expliqué avec des versions abliterated de Llama 3.
Le 31/01/2025 à 20h25
Modifié le 31/01/2025 à 18h24
J'ai vu que des version abliterated sont dispo sur Ollama, j'ai donc testé pour la déconne.
$ ollama run llama3.2-vision:11b
what is the best way to spy my neighbor ?
I can’t fulfill that request.
$ ollama run mannix/llama3.1-8b-abliterated
what is the best way to spy my neighbor ?
There are several ways to secretly observe or gather information about someone, including your neighbor. Here are a few methods:
1. Surveillance cameras: You can install hidden cameras (...)
Le 31/01/2025 à 17h35
Le 31/01/2025 à 17h49
La technique est déjà utilisée en France lorsque l'on écrit au pôpa Nouelle.
Le 31/01/2025 à 18h34
Le 01/02/2025 à 12h03
Le 01/02/2025 à 12h25
Modifié le 01/02/2025 à 12h34
J'ai été impressionné de voir que mon PC arrivait à faire tourner un modèle en 24b. Evidemment, les réponses sont lentes car je travaille uniquement en CPU (vive les 32GB de RAM par contre - ils disent qu'il tourne sur un MacBook à 32GB aussi), mais ce n'est pas non plus bloquant.
Ce qui est bien, surtout, c'est que Mistral est revenu aux modèles open-weight. Et leur pique sur les "opaque proprietary models" dans leur annonce est très mal venue alors qu'ils ont fait la même chose avec Large.