DeepSeek : pourquoi une telle déflagration sur le marché de l’IA ?

Tout ce qui brille n'est pas or

Illustration : Flock

Alexandre Laurent

Le 28 janvier 2025 à 12h40

Coup de tonnerre sur le marché de l’intelligence artificielle : la startup chinoise DeepSeek aurait développé, avec un investissement de départ dérisoire, un modèle dont les performances égalent, voire dépassent, celles des ténors américains du secteur. Cerise sur le gâteau : son modèle, DeepSeek-R1, est publié en open source. L’annonce a provoqué un véritable séisme à Wall Street, où toutes les valeurs liées à l’IA ont dévissé lundi. Elle soulève aussi tout un lot d’interrogations, de rumeurs et d’accusations, alors même que les États-Unis viennent d’annoncer un plan à 500 milliards de dollars en faveur de l’IA…

DeepSeek : pourquoi une telle déflagration sur le marché de l’IA ?

Tout ce qui brille n'est pas or

Illustration : Flock

Alexandre Laurent

Le 28 janvier 2025 à 12h40

IA et algorithmes

11 min

Les boursicoteurs connaissent l’adage : « les arbres ne montent pas jusqu’au ciel ». À Wall Street, la journée de lundi a pris la forme d’une séance d’élagage pour les valeurs américaines les plus emblématiques de la course à l’intelligence artificielle. NVIDIA, leader incontesté du secteur, a reculé de 16,9 % sur la journée, soit l’équivalent de 600 milliards de dollars de valorisation perdus en seulement quelques heures. Même topo chez Broadcom, avec 17,4 % effacés en une seule séance.

Une IA aussi douée que gpt-4o entraînée pour une somme dérisoire

Au départ de cette dégringolade historique, se trouve une startup chinoise, DeepSeek, fondée en 2023 et globalement inconnue jusqu’au week-end dernier.

La société sort du bois le 20 janvier dernier, avec une annonce formulée sur les réseaux sociaux : elle affirme avoir mis au point plusieurs modèles d’IA, nourris à l’apprentissage par renforcement et doués, pour certains, de capacités de raisonnement, avec des performances qui seraient supérieures à celles des derniers modèles en date d’OpenAI. Pour appuyer ses dires, elle partage un article de présentation technique (PDF), et publie DeepSeek-V3, son grand modèle de langage (LLM) sur GitHub, dont nous analyserons plus en détail le fonctionnement et les promesses dans un article dédié.

Des modèles open source, il y en a déjà beaucoup, chez les grands noms états-uniens de l’IA comme chez des acteurs plus modestes. Mais DeepSeek attire rapidement l’attention, d’abord, parce que la startup évoque des tarifs défiant toute concurrence : DeepSeek-R1, son modèle capable de raisonnement, est accessible à partir de 0,14 dollar par million de tokens en entrée, et 2,19 dollars par million de tokens en sortie.

Il reste 87% de l'article à découvrir.

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

La suite de cet article est réservée à nos abonnés

Soutenez un journalisme indépendant,
expert et sans pub.

Abonnez-vous sur next.ink/subs

Commentaires (28)

iMaman Premium

Le 28/01/2025 à 13h15

Beau travail de DeepSeek surtout si l'entraînement a réellement été fait avec peu de ressources.

Aqua Premium

Le 28/01/2025 à 13h43

Mon premier reflexe en lisant le titre était de penser aussi au paradoxe de Jevons. C'est bien risible de voir comment Nadella tente de le détourner. Merci à Alexandre d'avoir apporté du contrepoint à cette utilisation abusive.

C'est une mauvaise nouvelle pour la planète du coup. Si l'IA devient utilisable bien plus efficacement, alors en effet on peut craindre que la quantité totale de ressources utilisées (environnement détruit, énergie, ...) augmente.

(et une mauvaise nouvelle pour tout un chacun aussi pour plein d'autres raisons)

pamputt Premium

Le 28/01/2025 à 15h59

Je ne connaissais pas le paradoxe de Jevons, mais ça ressemble beaucoup à l'effet rebond), non ? Ah, en fait, oui, Wikipédia nous dit que le paradoxe est un cas extrême de l'effet rebond.

Berbe Premium

Le 28/01/2025 à 19h02

Le paradoxe de Jevons parle en premier lieu de gain d'efficience : hors-sujet.

Aqua Premium

Le 29/01/2025 à 10h26

L'article parle explicitement de gain en efficacité à la fois dans l'apprentissage et dans l'inférence. Je vois pas bien ce qui pourrait être hors-sujet là dedans. Moins tu utilises de ressource pour un résultat donné, plus tu utilises de ressources au global sur ce domaine.

carbier Premium

Le 28/01/2025 à 13h49

En fait OpenAI et consorts américains ont basé leur développement sur une absence d'optimisation de leur modèle car les ressources mises à disposition (financières et techniques) ne nécessitait pas cet effort.

Les développeurs sont de la nouvelle école: l'optimisation est une perte de temps, il vaut mieux lever des fonds pour augmenter les ressources disponibles.

Je ne sais pas si DeepSeek est complètement honnète concernant les ressources utilisées pour son développement, par contre si cela pouvait entrainer une remise en question des modèles afin d'optimiser au maximum et de minimiser les ressources techniques et énergétiques nécessaire cela serait une bonne chose.

Aqua Premium

Le 28/01/2025 à 16h08

Ca fait étrangement écho à ce poste anonyme d'un ingénieur google de 2023 :
https://semianalysis.com/2023/05/04/google-we-have-no-moat-and-neither/

En gros, "être open source ou mourrir, entrainer et itérer rapidement comme les petits modèles sinon on va dans le mur."

Et tout ça c'est sans les autres conséquences néfastes de ce bazar.

Ferrex Premium

Le 28/01/2025 à 16h38

J'ai vécu une chose similaire sur un projet d'ingénierie sur un système complexe. On avait le temps, des ressources, de l'argent puis PATATRA, courrier venant de très haut avec une date de mise en service figée dans le marbre.

Conséquence directe: certaines tâches réalisées manuellement ont soudainement dû être optimisées et automatisées afin de répondre à un besoin plus pressant. Et mine de rien, ça a été bénéfique.

Wosgien Premium

Le 29/01/2025 à 12h11

Je ne dirais pas cela. Simplement comme souvent ça va par vagues. Quand c'est universitaire/recherche, on peut passer du temps à optimiser, mais à un moment il faut obtenir le retour sur investissement, donc on déploie ce qu'on sait maintenir en l'état.
Qu'une vague d'opti arrive derrière, c'est normal.

Que deepseek (et la Chine) fasse un petit croche-pied aux américains c'est normal aussi.

De ce que j'ai noté de deepseek: en gros, moyennant l'achat d'une archi locale, on peut le faire tourner et il est bon. Pas excellent, pas le meilleur, mais bon et local.
Il répond donc à un besoin actuel: ne pas fournir ses données, ne pas se lier pieds et poings à un GAFAM pour l'intégralité de son activité.
Les produits US ont tendance à nous enfermer chez eux, et il y a encore pas mal de réticences (vu la douille que met Ms cette année, le plan de sortie sur 10 ans commence à poindre son nez)

xillibit Premium

Modifié le 29/01/2025 à 16h51

D'autres modèles peuvent être installés en local, avec l'outil ollama par exemple pour les geek, tu peux faire tourner llama ou mistral : https://ollama.com/search

Wosgien Premium

Le 29/01/2025 à 22h10

Bien sûr, on peut faire tourner des IA en local, mais difficilement dans un contexte d'entreprise.
Dernièrement, on discutait le sujet, et on nous propose des box à 50k€ mangeant 12kVA en pointe, mais le dimensionnement en nombre de traitement simultanés est flou.

De ce que j'ai vu/lu, deepseek permet de le faire à config moindre avec un résultat proche. Cela permet deux choses: soit de multiplier les requêtes, soit de baisser l'investissement.

Un des arguments de l'IA en tant que service, c'est que l'investissement pour faire tourner des instances est trop important.

Deepseek semble être une réponse à cet argument.

Après, j'attends plus de témoignages, et un peu moins "émotionnels"

xillibit Premium

Modifié le 29/01/2025 à 22h45

Tu as des modèles peu gourmands : Llama2 7B, Mistral 7B : https://pieces.app/blog/how-to-run-an-llm-locally-with-pieces. Il y a llama3.2 1b et 3b qui sont légers moins il y a des paramètres moins ils vont être gourmands

Wosgien Premium

Le 30/01/2025 à 08h44

Oui, je sais, j'utilise Croissant presque quotidiennement. Mais deepseek a de meilleurs résultats que les 7B qui restent rapidement dépassés. Ca permet de passer une marche.
Par ailleurs, j'ai vu des vidéos hier qui expliquent l'autre percée de deepseek: ils ont visiblement publié comment faire son deepseek "spécialisé", véritable expert "léger" et pas un big llama spécialisé qui traîne tout un tas de trucs en trop.
Bref, deepseek se place sur l'IA non générale prête à faire un expert pour les pro.

Sérieusement, ils remuent tous les arguments. Là où les big boss habituels te disent "payez et faites-en ce que vous voulez, on vous accompagne mollement mais vous serez pieds et poings liés chez nous, et aucune garantie de comment les résultats évolueront puisque c'est notr eIA", deepseek met des étoiles dans les yeux des décideurs: payez une fois, spécialisez là, c'est votre IA et elle sera figé dans l'état que vous souhaitez.

Enorme avancée en fait dans le produit.

Pour rappel, de l'aveu même de OpenAI, chatgpt3 a largement régressé dans ses réponses "code" sur son exploitation.

xillibit Premium

Modifié le 30/01/2025 à 09h07

Alibaba viennent de sortir Qwen2.5-Max qui surpassent tout le monde, les chinois sortent du bois : https://www.neowin.net/news/move-over-deepseek-alibabas-qwen25-max-surpasses-deepseek-v3-in-benchmarks/

Wosgien Premium

Le 30/01/2025 à 10h17

Je suis plus intéressé par les fonctionnalités que par la capacité d'une IA à passer une benchmark.
Vous n'avez jamais recruté une bête de concours incapable de travailler ? :)

tazvld Premium

Le 28/01/2025 à 17h31

Du peu que j'ai eu le temps de lire sur le sujet de DeepSeek, ça va dans le sens de Stacy Rasgon, le modèle en lui-même n'est pas extraordinaire, dans les grandes lignes il ressemble plus ou moins à ce que qui fait. Il est basé sur des avancées qui sont connues et sont en cours d'exploration. Et ceci fait écho à Yann LeCun qui dit que DeepSeek a profité de l'open research et des outils open source.

Wosgien Premium

Le 30/01/2025 à 16h02

Disons que là où OpenIA, Ms, Meta et Google vendent un "concept", DeepSeek essaie de créer un produit.

IfYouPlease Premium

Le 28/01/2025 à 19h39

Il se modele est open source à prendre dans quel sens ? Car si j'ai bien compris, quand on parle d'intelligence artificielle, open source a plusieurs définitions.

Wosgien Premium

Le 30/01/2025 à 16h00

Outil, méthode et modèle, MAIS pas les données d'apprentissage.

SebGF Premium

Le 29/01/2025 à 07h37

Nvidia a encore un peu remonté même si l'action a toujours 20€ d'écart avec sa précédente valorisation. C'est con, j'ai pas eu le temps d'en prendre quand elle était à 116.

L'autre valeur que je suis dans le domaine de l'IA n'a pas spécialement bougé, elle a ses oscillations habituelles.

xillibit Premium

Modifié le 29/01/2025 à 09h24

Facile ils volent des données d'entrainement à OpenAI d’après Microsoft et OpenAI, après ils peuvent dire que c'est moins cher : https://www.neowin.net/news/report-microsoft-openai-investigating-whether-deepseek-was-trained-on-stolen-us-data/

Thual Premium

Modifié le 29/01/2025 à 11h59

En même temps les données d'entraînement d'OpenAI sont aussi probablement volées et utilisées sous violation de copyright. Donc même si l'accusation envers DeepSeek est légitime, c'est très ironique de la part d'OpenAI de lancer cette accusation...

DantonQ-Robespierre Premium

Modifié le 29/01/2025 à 10h14

Z'auraient du l'appeler Deep Sick (profondément malade !), l'IA est pour moi le symbole éclatant de la financiarisation à outrance de notre économie, de notre société ; très vite, même les êtres humains seront jugés en fonction de leur valeur potentielle en dollars (et en datas... qui nourrissent les IA... qui rapportent des dollars !).

A quand une cotation officielle en bourse de chaque être vivant présent sur Terre ? Il n'y aurait plus ni salaire ni allocations, uniquement des dividendes, calculés en fonction de ton potentiel de data : plus t'es jeune, plus ce potentiel est élevé.

Conséquence : les vieux de +50 ans comme moi n'auront plus qu'à crever, pour être recyclés en Soleil Vert...

Wosgien Premium

Le 29/01/2025 à 12h16

Surtout, ce petit intermède permet de lever un peu le nez du guidon. La techno finance crée ses bulles via beaucoup de hype, de FUD et de campagnes de déni.
Au final pour le moment, on nous dit que l'IA c'est le futur, on nous vend du LLM hors de prix, mais quotidiennement, ce n'est toujours pas le LLM que j'utilise intensivement, mais les corrections photos de mon smartphone.
Surtout que l'IA, c'est une promesse d'à peu près pour un coût énorme. Je ne dénigre pas l'IA ou ses avantages, mais l'utiliser pour des cas triviaux est un gâchis énorme de ressources.
L'IA symbolise aussi un phénomène difficile à digérer pour les vieux informaticiens comme moi: on passe dans une conception qui assume un non-déterminisme.

Bref, "l'ordi s'est trompé" devient une réalité tangible - menant à créer l'ambiguité dans l'expression "numérique responsable"

DantonQ-Robespierre Premium

Modifié le 30/01/2025 à 11h35

Ça me fait penser à la réaction d'Einstein à l'annonce de cette nouvelle physique qui cultive le flou et les probabilités, au lieu de l'élégante exactitude universelle de la mécanique Newtonienne :

« La mécanique quantique force le respect. Mais une voix intérieure me dit que ce n'est pas encore la juste vérité. En tout cas, je suis convaincu que Dieu ne joue pas aux dés. »

Je fais le rapprochement avec l'IA parce que de mon point de vue tous les LLM sont fondamentalement flous, ils sont basés sur des probabilités, des potentiels, des statistiques... en d'autres termes, rien de solide, ni de sûr.

L'IA, contrairement à la physique quantique (qui a fait ses preuves) est tout sauf une certitude, quelque chose sur laquelle on peut compter, parce que ses réponses peuvent si vite dérailler... Les IA, même les plus avancées, peuvent très bien mentir et halluciner si elles ne sont pas encadrées par des êtres humains.

Une base de données d’entraînement, même gigantesque, n'est qu'un aperçu partial et partiel de la réalité. Et donc les IA sont entraînées sur une approximation, un ersatz, un tout petit sous-ensemble d'un plus grand ensemble à la complexité infinie qui s'appelle l'Univers, ou la Nature... Ce qu’Einstein, qui n'était pas croyant, appelle "Dieu".

La vraie question est : le grand public est-il vraiment préparé à cette marge de (grosses) erreurs potentielles ? N'y a-t-il pas toute une éducation à faire ?

lapin_de_troie Premium

Le 29/01/2025 à 15h32

C'est dans l'intérêt de la Chine de présenter juste après l'annonce de StarGate une technologie en mentant sur les conditions d'entraînement. D'abord, comme le dit l'article, pour masquer une réalité sur le respect des sanctions, mais aussi dans le but de torpiller ou de ralentir les investissements sur le projet StarGate en mettant le doute dans la tête des investisseurs.

xillibit Premium

Le 29/01/2025 à 22h47

Alibaba sort aussi du bois avec son Qwen2.5 Max qui selon eux surpasse tout le monde : https://lesnews.ca/intelligence-artificielle/chatgpt/alibaba-presente-un-nouvel-ai-plus-puissant-que-deepseek-chatgpt-et-llama/

Wosgien Premium

Le 30/01/2025 à 15h25

Oui, enfin visiblement les investisseur avaient déjà des doutes (dixit Elon Musk sur Softbank). Stargate était déjà un mensonge. Une promesse sans fondement.
Oui, la Chine (et nous) avons besoin de remettre les point sur les i: avoir le meilleur produit ne veut pas dire que c'est le bon.
On nous serine avec l'IA et ses débouchés, et on en voit assez peu pour le commun des mortels, mais on nous l'assène et on nous la fait payer à chacun (Ms O365).
Bref, de la part de MS et Google, je n'ai vu que de l'esbrouffe: ils vendent une IA, mais sont incapable de nous proposer une application (bravo à Ms pour sa fantastique présentation avec 3 "spécialistes": un qui plante, un qui râle sur les perfs et se vautre, et un qui montre comment générer un powerpoint pour convaincre sa femme d'aller à Tahiti).

Côte openai, on a constaté ce qu'ils ont avoué: les résultats évoluent tout seuls dans le temps sans explication.

Je regarde et lis les articles sur deepseek: c'est ça qu'on veut en pro: un système qu'on peut figer, qu'on peut dimensionner, et qu'on peut payer.

Les chinois ont remis l'IA à sa place: un produit complémentaire, intéressant et accessible. Grande leçon pour les US: le 1er critère de choix d'un produit, c'est le prix. Quoi qu'on fasse.

Quand à justifier une montée de prix en disant qu'on a dû investir des sommes de malades: j'utilise Croissant, IA entraînée par une université parisienne, je ne pense pas qu'ils y ont mis 100M€, et pourtant ça marche pas mal du tout.

C'est pas parce qu'ils ont promis un plan de 500M$ qu'il y aura 500M$ de dépensés: ça c'est de la pub pour faire croire que le produit est bon.