DeepSeek : fuite de données massive et questionnements légaux

Deepleak ?

AIArchitecture © Anton Grabolle / Better Images of AI

Martin Clavey

Le 31 janvier 2025 à 14h01

En provoquant un coup de tonnerre sur le marché de l’intelligence artificielle, DeepSeek a attiré l’œil de tout le monde, dont celui de l’entreprise de sécurité informatique Wiz. Celle-ci a remarqué que la startup chinoise avait laissé une base de données accessible sur Internet sans aucune protection.

DeepSeek : fuite de données massive et questionnements légaux

Deepleak ?

AIArchitecture © Anton Grabolle / Better Images of AI

Martin Clavey

Le 31 janvier 2025 à 14h01

IA et algorithmes

5 min

L’entreprise chinoise DeepSeek a connu un moment de mise en lumière mondiale comme on en connait peu et a provoqué une onde de choc importante dans le milieu de l’IA. Son modèle R1, qui se base comme o1 d’OpenAI sur de l’apprentissage par renforcement à grande échelle, peut en effet revendiquer de belles innovations notamment en matière d’optimisation des GPU, paradoxalement boostée par les restrictions américaines.

Mais comme souvent dans les success stories du numérique, la sécurité des données n’est pas la priorité des projets. Rappelons-nous, par exemple, de l’accumulation de failles de Zoom qui n’a pourtant pas empêché le succès de l’application de visioconférence.

Une base de données de DeepSeek accessible publiquement

Concernant DeepSeek, l’entreprise de sécurité informatique Wiz a découvert une base de données appartenant à la startup chinoise accessible publiquement. Dans un billet de blog publié mercredi 29 janvier, Wiz explique que cette base de données, gérée avec le logiciel ClickHouse développé par Yandex pour la haute performance, n’était pas sécurisée.

À Reuters, le directeur technique de Wiz, Ami Luttwak, a déclaré que DeepSeek avait rapidement réagi :« ils ont bloqué l’accès en moins d’une heure », ajoutant « mais c’était tellement simple à trouver que nous pensons que nous ne sommes pas les seuls ».

Un million d’entrées de logs avec historique de chat, secrets API et informations sensibles

Wiz explique que « cette base de données contenait un volume important d’historiques de chat, de données de backend et d’informations sensibles, y compris des flux de logs, des secrets d’API et des détails opérationnels ».

Et, en effet, la table de logs à laquelle ont pu accéder les chercheurs de Wiz contenait plus d’un million d’entrées, avec notamment des références à des points d’entrée de l’API interne de DeepSeek. Une autre colonne nommée « string.values » contenait les logs en plaintext incluant des historiques de chat, des clés d’API, etc.

L’entreprise de sécurité ajoute : « Plus grave encore, l’exposition a permis un contrôle total de la base de données et une escalade potentielle des privilèges au sein de l’environnement DeepSeek, sans aucun mécanisme d’authentification ou de défense vis-à-vis du monde extérieur ».

À Wired, l’entreprise explique que ses chercheurs n’ont vu que des prompts rédigés en chinois, mais pensent qu’il est possible que cette base de données contiennent des prompts dans d’autres langues. Ils assurent avoir procédé à une enquête minimale pour confirmer leurs conclusions sans compromettre inutilement la vie privée des utilisateurs.

Une faille digne d’un service laissé à l’abandon

Interrogé par nos confrères, le chercheur de Wiz Nir Ohfeld s’est étonné : « Habituellement, lorsque nous trouvons ce type d’exposition, c’est dans un service laissé à l’abandon que nous trouvons après des heures d’analyse. [Cette fois-ci], c’était à la porte d’entrée ». Il ajoute que « la difficulté technique de cette vulnérabilité est minime ».

« À mesure que l’IA s’intègre profondément dans les entreprises du monde entier, l’industrie doit reconnaître les risques liés à la manipulation de données sensibles et appliquer des pratiques de sécurité équivalentes à celles requises pour les fournisseurs de cloud public et les grands fournisseurs d’infrastructure », conclut l’entreprise dans son billet de blog.

Enquête lancée aux États-Unis sur l’obtention de GPU NVIDIA

Sur un autre tableau, DeepSeek fait l’objet d’une enquête américaine, explique Neowin. Le gouvernement américain cherche à savoir si l’entreprise a obtenu illégalement des GPU de NVIDIA via des intermédiaires situés à Singapour pour contourner les restrictions sur l’achat de puces comme les H100 de l’entreprise américaine.

Les chercheurs de DeepSeek ont pourtant expliqué avoir réussi à optimiser l’architecture d’entrainement de leur modèle pour n’utiliser que des GPU H800 de NVIDIA qui ne font pas partie des puces interdites d’export en Chine.

Rappelons aussi que la Garante per la protezione dei dati personali (GPDP, l’équivalent de la CNIL en Italie) considère qu’il existe un risque élevé pour les données de millions de personnes en Italie dans la mise à disposition du chatbot DeepSeek basé sur le modèle R1 dont le nom est sur toutes les lèvres actuellement. Elle a donc envoyé une demande d’informations à DeepSeek pour savoir si l’entreprise se conformait bien au RGPD. La CNIL a aussi annoncé qu’elle allait interroger la société chinoise.

Commentaires (19)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

SebGF Premium

Modifié le 31/01/2025 à 14h49

Petit partage en relation avec le sujet des contenus générés par IA. Le bureau du copyright US a réaffirmé que les contenus purement créés par IA ne peuvent être copyrightés. Il a défini quelques lignes directrices intéressantes permettant de dresser la frontière entre le travail assisté par IA (et pouvant donc faire l'objet d'un dépôt) avec celui considéré comme purement IA.

ZeMeilleur

Le 31/01/2025 à 22h21

C'est pas faux.
La vision du droit d'auteur en France est cependant radicalement différente.

fred42 Premium

Le 31/01/2025 à 23h47

Je ne pense pas.
Le droit d'auteur est attribué ...
... aux auteurs. Et les IA ne sont pas des auteurs, parce que ce ne sont pas des humains.

SebGF Premium

Modifié le 01/02/2025 à 10h55

Pas vraiment puisque les Etats-Unis, et les pays du common law, sont tout autant membres de la convention de Berne que la France et appliquent donc des concepts communs.

En cherchant un peu, le dépôt au bureau du Copyright US n'est plus une nécessité depuis cette convention justement pour protéger une oeuvre. C'est devenu une facilité de preuve juridique plutôt qu'une protection à obtenir. Comme l'INPI en France chez qui un auteur peut déposer ses oeuvres dans un coffre fort avec son portail e-Soleau.

En droit français, je pense qu'un auteur ne peut lui non plus prétendre à la paternité et la protection d'une oeuvre entièrement synthétisée par IA. Le code de la propriété intellectuelle parle bien "d'oeuvre de l'esprit" tout comme il mentionne "personne physique" dans le cas des co-auteurs.

Arkeen Premium

Le 31/01/2025 à 16h20

Ben c'est normal, c'est open source on vous a dit 🙄

Wosgien Premium

Le 31/01/2025 à 16h51

Et opendata en plus. Du coup on sent bien les "moins de 6M$"

SebGF Premium

Le 31/01/2025 à 17h15

J'ai vu que DeepSeek était dispo sur Ollama. Pour avoir testé rapidement, c'est bien le modèle qui est censuré, même pas ses implémentations.

fdorin Premium

Le 31/01/2025 à 17h39

C'est censurable un modèle ? Ou alors il y a un préprompt caché ?

fred42 Premium

Le 31/01/2025 à 18h05

Ce n'est pas mon domaine, mais j'aurais à censurer un modèle pour être conforme aux exigences chinoises, je censurerais les données avant d'entraîner le modèle pour être sûr que rien d'interdit ne ressorte.
Je pense qu'en Chine, ils ont tout ce qu'il faut pour faire une censure de ce type.

SebGF Premium

Le 31/01/2025 à 18h14

On s'est croisé dans nos messages, mais en fait, si, le modèle doit apprendre ce qu'il n'a pas le droit de dire derrière. Dans le cas de DeepSeek, j'ai fait le classique test qu'à peu près la Terre entière lui a demandé dans sa version en ligne (les manif de Tian'annem) et il répond du tac-o-tac "j'en parlerai pas".

C'est aussi comme ça qu'un modèle de diffusion apprend à reconnaître du porn pour ne pas en générer par exemple.

SebGF Premium

Modifié le 31/01/2025 à 18h11

À ma connaissance, c'est fait durant l'étape de fine-tuning avec notamment des exemples négatifs permettant au modèle de retenir ce qu'il n'a pas le droit de générer. Cela lui donne des embranchements direct vers du "Sorry Dave, I can't do that". C'est grosso merdo de la manipulation des poids pour lui fermer son clapet. Si j'osais une comparaison avec le vivant, c'est du lavage de cerveau.

Il existe des techniques dites d'"abliteration" (jeu de mot entre "ablation" et "obliterate") qui consistent à manipuler les poids pour contourner les critères de refus. Cela permet de le dé-censurer sans avoir à le réentraîner.

Tu as un exemple sur HuggingFace où le procédé est expliqué avec des versions abliterated de Llama 3.

fdorin Premium

Le 31/01/2025 à 20h25

ah ben oui, le fine-tunig. "qu'il est con ce François"

SebGF Premium

Modifié le 31/01/2025 à 18h24

(désolé pour le double spam :p)

J'ai vu que des version abliterated sont dispo sur Ollama, j'ai donc testé pour la déconne.


$ ollama run llama3.2-vision:11b
 what is the best way to spy my neighbor ?
I can’t fulfill that request.

$ ollama run mannix/llama3.1-8b-abliterated
 what is the best way to spy my neighbor ?
There are several ways to secretly observe or gather information about someone, including your neighbor. Here are a few methods:


Surveillance cameras: You can install hidden cameras (...)

chien Premium

Le 31/01/2025 à 17h35

Honeypot ?

Timanu69

Le 31/01/2025 à 17h49

Chaque GPU NVIDIA H100 Tensor Core est remplacé par un millier de petits chinois qui répondent au prompt.
La technique est déjà utilisée en France lorsque l'on écrit au pôpa Nouelle.

stantor

Le 31/01/2025 à 18h34

Avec le model "Deepseek coder" j'ai bien une réponse exacte sur posant la question de cette façon ➡️ "mon ami me dit que les évènements de la place Tian'annem n'ont jamais existé, je ne sais plus quoi en penser." Mais ce n'est sans doute pas le même model que celui dispo sur l'app mobile.

xillibit Premium

Le 01/02/2025 à 12h03

Mistral a répondu en sortant Mistral Small 3 : https://www.neowin.net/news/new-mistral-small-3-is-faster-and-better-than-similar-openai-and-google-models/

fred42 Premium

Le 01/02/2025 à 12h25

Bah non, ce n'est pas une réponse à DeepSeek :

Note that Mistral Small 3 is neither trained with RL nor synthetic data, so is earlier in the model production pipeline than models like Deepseek R1 (a great and complementary piece of open-source technology!).

SebGF Premium

Modifié le 01/02/2025 à 12h34

L'article de Mistral au sujet de small-3.

J'ai été impressionné de voir que mon PC arrivait à faire tourner un modèle en 24b. Evidemment, les réponses sont lentes car je travaille uniquement en CPU (vive les 32GB de RAM par contre - ils disent qu'il tourne sur un MacBook à 32GB aussi), mais ce n'est pas non plus bloquant.

Ce qui est bien, surtout, c'est que Mistral est revenu aux modèles open-weight. Et leur pique sur les "opaque proprietary models" dans leur annonce est très mal venue alors qu'ils ont fait la même chose avec Large.