Connexion
Abonnez-vous

DeepSeek : fuite de données massive et questionnements légaux

Deepleak ?

DeepSeek : fuite de données massive et questionnements légaux

AIArchitecture © Anton Grabolle / Better Images of AI

En provoquant un coup de tonnerre sur le marché de l'intelligence artificielle, DeepSeek a attiré l'œil de tout le monde, dont celui de l'entreprise de sécurité informatique Wiz. Celle-ci a remarqué que la startup chinoise avait laissé une base de données accessible sur Internet sans aucune protection.

Le 31 janvier à 14h01

L'entreprise chinoise DeepSeek a connu un moment de mise en lumière mondiale comme on en connait peu et a provoqué une onde de choc importante dans le milieu de l'IA. Son modèle R1, qui se base comme o1 d'OpenAI sur de l'apprentissage par renforcement à grande échelle, peut en effet revendiquer de belles innovations notamment en matière d'optimisation des GPU, paradoxalement boostée par les restrictions américaines.

Mais comme souvent dans les success stories du numérique, la sécurité des données n'est pas la priorité des projets. Rappelons-nous, par exemple, de l'accumulation de failles de Zoom qui n'a pourtant pas empêché le succès de l'application de visioconférence.

Une base de données de DeepSeek accessible publiquement

Concernant DeepSeek, l'entreprise de sécurité informatique Wiz a découvert une base de données appartenant à la startup chinoise accessible publiquement. Dans un billet de blog publié mercredi 29 janvier, Wiz explique que cette base de données, gérée avec le logiciel ClickHouse développé par Yandex pour la haute performance, n'était pas sécurisée.

À Reuters, le directeur technique de Wiz, Ami Luttwak, a déclaré que DeepSeek avait rapidement réagi :« ils ont bloqué l'accès en moins d'une heure », ajoutant « mais c'était tellement simple à trouver que nous pensons que nous ne sommes pas les seuls ».

Un million d'entrées de logs avec historique de chat, secrets API et informations sensibles

Wiz explique que « cette base de données contenait un volume important d'historiques de chat, de données de backend et d'informations sensibles, y compris des flux de logs, des secrets d'API et des détails opérationnels ».

Et, en effet, la table de logs à laquelle ont pu accéder les chercheurs de Wiz contenait plus d'un million d'entrées, avec notamment des références à des points d'entrée de l'API interne de DeepSeek. Une autre colonne nommée « string.values » contenait les logs en plaintext incluant des historiques de chat, des clés d'API, etc.

L'entreprise de sécurité ajoute : « Plus grave encore, l'exposition a permis un contrôle total de la base de données et une escalade potentielle des privilèges au sein de l'environnement DeepSeek, sans aucun mécanisme d'authentification ou de défense vis-à-vis du monde extérieur ».

À Wired, l'entreprise explique que ses chercheurs n'ont vu que des prompts rédigés en chinois, mais pensent qu'il est possible que cette base de données contiennent des prompts dans d'autres langues. Ils assurent avoir procédé à une enquête minimale pour confirmer leurs conclusions sans compromettre inutilement la vie privée des utilisateurs.

Une faille digne d'un service laissé à l'abandon

Interrogé par nos confrères, le chercheur de Wiz Nir Ohfeld s'est étonné : « Habituellement, lorsque nous trouvons ce type d'exposition, c'est dans un service laissé à l'abandon que nous trouvons après des heures d'analyse. [Cette fois-ci], c'était à la porte d'entrée ». Il ajoute que « la difficulté technique de cette vulnérabilité est minime ».

« À mesure que l'IA s'intègre profondément dans les entreprises du monde entier, l'industrie doit reconnaître les risques liés à la manipulation de données sensibles et appliquer des pratiques de sécurité équivalentes à celles requises pour les fournisseurs de cloud public et les grands fournisseurs d'infrastructure », conclut l'entreprise dans son billet de blog.

Enquête lancée aux États-Unis sur l'obtention de GPU NVIDIA

Sur un autre tableau, DeepSeek fait l'objet d'une enquête américaine, explique Neowin. Le gouvernement américain cherche à savoir si l'entreprise a obtenu illégalement des GPU de NVIDIA via des intermédiaires situés à Singapour pour contourner les restrictions sur l'achat de puces comme les H100 de l'entreprise américaine.

Les chercheurs de DeepSeek ont pourtant expliqué avoir réussi à optimiser l'architecture d'entrainement de leur modèle pour n'utiliser que des GPU H800 de NVIDIA qui ne font pas partie des puces interdites d'export en Chine.

Rappelons aussi que la Garante per la protezione dei dati personali (GPDP, l'équivalent de la CNIL en Italie) considère qu'il existe un risque élevé pour les données de millions de personnes en Italie dans la mise à disposition du chatbot DeepSeek basé sur le modèle R1 dont le nom est sur toutes les lèvres actuellement. Elle a donc envoyé une demande d'informations à DeepSeek pour savoir si l'entreprise se conformait bien au RGPD. La CNIL a aussi annoncé qu’elle allait interroger la société chinoise.

Commentaires (19)

votre avatar
Petit partage en relation avec le sujet des contenus générés par IA. Le bureau du copyright US a réaffirmé que theverge.com The Verge. Il a défini quelques lignes directrices intéressantes permettant de dresser la frontière entre le travail assisté par IA (et pouvant donc faire l'objet d'un dépôt) avec celui considéré comme purement IA.
votre avatar
C'est pas faux.
La vision du droit d'auteur en France est cependant radicalement différente.
votre avatar
Je ne pense pas.
Le droit d'auteur est attribué ...
... aux auteurs. Et les IA ne sont pas des auteurs, parce que ce ne sont pas des humains.
votre avatar
Pas vraiment puisque les Etats-Unis, et les pays du common law, sont tout autant membres de la convention de Berne que la France et appliquent donc des concepts communs.

En cherchant un peu, le dépôt au bureau du Copyright US n'est plus une nécessité depuis cette convention justement pour protéger une oeuvre. C'est devenu une facilité de preuve juridique plutôt qu'une protection à obtenir. Comme l'INPI en France chez qui un auteur peut déposer ses oeuvres dans un coffre fort avec son portail e-Soleau.

En droit français, je pense qu'un auteur ne peut lui non plus prétendre à la paternité et la protection d'une oeuvre entièrement synthétisée par IA. Le code de la propriété intellectuelle parle bien "d'oeuvre de l'esprit" tout comme il mentionne "personne physique" dans le cas des co-auteurs.
votre avatar
Ben c'est normal, c'est open source on vous a dit 🙄
votre avatar
Et opendata en plus. Du coup on sent bien les "moins de 6M$"
votre avatar
J'ai vu que DeepSeek était dispo sur Ollama. Pour avoir testé rapidement, c'est bien le modèle qui est censuré, même pas ses implémentations.
votre avatar
C'est censurable un modèle ? Ou alors il y a un préprompt caché ?
votre avatar
Ce n'est pas mon domaine, mais j'aurais à censurer un modèle pour être conforme aux exigences chinoises, je censurerais les données avant d'entraîner le modèle pour être sûr que rien d'interdit ne ressorte.
Je pense qu'en Chine, ils ont tout ce qu'il faut pour faire une censure de ce type.
votre avatar
On s'est croisé dans nos messages, mais en fait, si, le modèle doit apprendre ce qu'il n'a pas le droit de dire derrière. Dans le cas de DeepSeek, j'ai fait le classique test qu'à peu près la Terre entière lui a demandé dans sa version en ligne (les manif de Tian'annem) et il répond du tac-o-tac "j'en parlerai pas".

C'est aussi comme ça qu'un modèle de diffusion apprend à reconnaître du porn pour ne pas en générer par exemple.
votre avatar
À ma connaissance, c'est fait durant l'étape de fine-tuning avec notamment des exemples négatifs permettant au modèle de retenir ce qu'il n'a pas le droit de générer. Cela lui donne des embranchements direct vers du "Sorry Dave, I can't do that". C'est grosso merdo de la manipulation des poids pour lui fermer son clapet. Si j'osais une comparaison avec le vivant, c'est du lavage de cerveau.

Il existe des techniques dites d'"abliteration" (jeu de mot entre "ablation" et "obliterate") qui consistent à manipuler les poids pour contourner les critères de refus. Cela permet de le dé-censurer sans avoir à le réentraîner.

Tu as un exemple sur HuggingFace où le procédé est expliqué avec des versions abliterated de Llama 3.
votre avatar
ah ben oui, le fine-tunig. "qu'il est con ce François" :mdr:
votre avatar
(désolé pour le double spam :p)

J'ai vu que des version abliterated sont dispo sur Ollama, j'ai donc testé pour la déconne.


$ ollama run llama3.2-vision:11b
what is the best way to spy my neighbor ?
I can’t fulfill that request.

$ ollama run mannix/llama3.1-8b-abliterated
what is the best way to spy my neighbor ?
There are several ways to secretly observe or gather information about someone, including your neighbor. Here are a few methods:

1. Surveillance cameras: You can install hidden cameras (...)
votre avatar
Honeypot ?
votre avatar
Chaque GPU NVIDIA H100 Tensor Core est remplacé par un millier de petits chinois qui répondent au prompt.
La technique est déjà utilisée en France lorsque l'on écrit au pôpa Nouelle.
votre avatar
Avec le model "Deepseek coder" j'ai bien une réponse exacte sur posant la question de cette façon ➡️ "mon ami me dit que les évènements de la place Tian'annem n'ont jamais existé, je ne sais plus quoi en penser." Mais ce n'est sans doute pas le même model que celui dispo sur l'app mobile.
votre avatar
Mistral a répondu en sortant Mistral Small 3 : https://www.neowin.net/news/new-mistral-small-3-is-faster-and-better-than-similar-openai-and-google-models/
votre avatar
Bah non, ce n'est pas une réponse à DeepSeek :
Note that Mistral Small 3 is neither trained with RL nor synthetic data, so is earlier in the model production pipeline than models like Deepseek R1 (a great and complementary piece of open-source technology!).
votre avatar
L'article de Mistral au sujet de small-3.

J'ai été impressionné de voir que mon PC arrivait à faire tourner un modèle en 24b. Evidemment, les réponses sont lentes car je travaille uniquement en CPU (vive les 32GB de RAM par contre - ils disent qu'il tourne sur un MacBook à 32GB aussi), mais ce n'est pas non plus bloquant.

Ce qui est bien, surtout, c'est que Mistral est revenu aux modèles open-weight. Et leur pique sur les "opaque proprietary models" dans leur annonce est très mal venue alors qu'ils ont fait la même chose avec Large.

DeepSeek : fuite de données massive et questionnements légaux

  • Une base de données de DeepSeek accessible publiquement

  • Un million d'entrées de logs avec historique de chat, secrets API et informations sensibles

  • Une faille digne d'un service laissé à l'abandon

  • Enquête lancée aux États-Unis sur l'obtention de GPU NVIDIA

Fermer