Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

JEPA tout compris, vous pouvez répéter ?

Sébastien Gavois

Le 26 mars à 14h29

Apprendre à partir du monde plutôt que du langage, c’est le but des « world models ». Yann LeCun et son équipe d’AMI Labs viennent de dévoiler leur premier modèle du genre, LeWorldModel. Comment ça marche ? Quelles différences avec les LLM (grands modèles de langage) ? Quelles sont les limitations et les espoirs ? Next vous explique tout.

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

JEPA tout compris, vous pouvez répéter ?

Sébastien Gavois

Le 26 mars à 14h29

Droit

13 min

Après avoir quitté Meta, Yann LeCun s’est associé à d’autres chercheurs de renom pour lancer AMI Labs (Advanced Machine Intelligence) au début de l’année. Début mars, la start-up levait 890 millions d’euros. Elle vient de présenter son premier modèle : LeWorldModel ou LeWM de son petit nom. C’est un modèle qui apprend et qui, à partir d’actions données, essaye d’anticiper le futur.

LeWorldModel, JEPA, régulariseur gaussien… Wait, what ?!

Présentation rapide : « LeWM est un « world model » basé sur JEPA qui évite l’effondrement des représentations grâce à un simple régulariseur gaussien (SIGReg), s’entraîne de bout en bout à partir des pixels avec seulement deux termes de perte, et atteint des performances de contrôle compétitives pour une fraction du coût de calcul ».

Vous n’avez pas tout compris ? Pas de panique, Next vous explique de façon simple l’approche d’AMI Labs pour apprendre le monde à partir d’images et de vidéos. Le concept n’est pas nouveau, mais la manière de faire est différente et demande moins de puissance de calcul, alors que c’est actuellement le nerf de la guerre des IA (génératives).

Droit

#Nextquick Une simple requête à ChatGPT, c’est déjà des centaines de milliards de calculs

Droit

Vendredi 16 janvier 2026 à 10h45 16/01/2026 10h45

21

Pour être plus performantes, ces IA ont de plus en plus de paramètres (ils se comptent en centaines de milliards), mais ce gain de taille se fait au prix de calculs et d’un besoin en quantité de mémoire (pour charger les paramètres) toujours plus importants. Pour rappel, une requête à ChatGPT avec un seul token, c’est déjà des centaines de milliards de calculs pour répondre.

Apprendre et raisonner « comme les animaux et les humains »

Il y a maintenant plus de quatre ans, alors qu’il était chez Meta, Yann LeCun parlait de « sa vision d’un système d’IA capable d’apprendre et de raisonner comme les animaux et les humains ».

Il reste 83% de l'article à découvrir.

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

La suite de cet article est réservée à nos abonnés

Soutenez un journalisme indépendant,
expert et sans pub.

Abonnez-vous sur next.ink/subs

Commentaires (8)

potn Premium

Le 26 mars à 14h49

N'étant pas expert dans le domaine, j'aurais bien aimé savoir ce que permet ce type de modèle.
Est-ce qu'il sera capable, à terme, de générer du texte, de la vidéo, du son ?

Scivolema Premium

Modifié le 26 mars à 17h15

Pour la génération de texte ou de vidéo, les modèles actuels sont déjà très performants. Ce que recherche l’équipe de Yann LeCun, avec l’architecture JEPA, c’est de concevoir des modèles capables de construire une représentation interne du monde, le fameux World Model.

L’objectif est d'obtenir des modèles qui comprennent leur environnement, et soient capable de planifier des actions en fonction de cette compréhension, tout en réduisant le coût d’apprentissage par rapport aux approches actuelles.

L’exemple évoqué dans l'article est celui de la conduite autonome : le modèle ne se contente pas de réagir à des images, mais apprend la cohérence du monde qui l’entoure (objets, dynamiques, contraintes physiques). Il peut alors anticiper les conséquences de ses actions et planifier des décisions comme tourner, accélérer ou freiner, en prédisant leurs effets avant de les exécuter, et même anticiper le hors-champ, le tout pour un coût d'entrainement moindre que les modèles actuels.

Et je suppose que Yann LeCun espère, avec ce type d’approche, faire émerger des propriétés nouvelles, un peu comme dans le cerveau humain. Par exemple, la lecture n’est pas une capacité “native” : elle réutilise et détourne des circuits initialement dédiés à la reconnaissance visuelle (comme celle des formes ou des plantes) et à la mémoire de l’environnement.

De la même manière, l’idée serait que ces world models développent, à partir de mécanismes fondamentaux de compréhension et de prédiction du monde, des capacités émergentes plus complexes, comme la planification, le raisonnement ou l’adaptation à des situations nouvelles (la fameuse intelligence humaine).

Bref, je suis curieux de voir jusqu’où cette approche peut aller.

Sébastien Gavois Équipe

Le 26 mars à 18h18

Grilled par @Scivolema mais l’idée n’est en effet pas de générer du contenu comme les LLM actuel (le but n’est pas d’avoir un chatbot), mais de prédire des conséquences de certaines « actions » et donc aussi de pouvoir trouver les actions pour arriver à un résultat. Les exemples cités en bas d’article sont des cas concrets pour LeWM : mettre une pièce dans le bon sens, trouver une sortie, arriver à un certainement placement… Sur cette page, avec les images animées, c’est parlant.
C’est pour le moment un petit modèle, à voir pour le passage à l’échelle…