Connexion Premium

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

JEPA tout compris, vous pouvez répéter ?

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

Apprendre à partir du monde plutôt que du langage, c’est le but des « world models ». Yann LeCun et son équipe d’AMI Labs viennent de dévoiler leur premier modèle du genre, LeWorldModel. Comment ça marche ? Quelles différences avec les LLM (grands modèles de langage) ? Quelles sont les limitations et les espoirs ? Next vous explique tout.

Après avoir quitté Meta, Yann LeCun s’est associé à d’autres chercheurs de renom pour lancer AMI Labs (Advanced Machine Intelligence) au début de l’année. Début mars, la start-up levait 890 millions d’euros. Elle vient de présenter son premier modèle : LeWorldModel ou LeWM de son petit nom. C’est un modèle qui apprend et qui, à partir d’actions données, essaye d’anticiper le futur.

LeWorldModel, JEPA, régulariseur gaussien… Wait, what ?!

Présentation rapide : « LeWM est un « world model » basé sur JEPA qui évite l’effondrement des représentations grâce à un simple régulariseur gaussien (SIGReg), s’entraîne de bout en bout à partir des pixels avec seulement deux termes de perte, et atteint des performances de contrôle compétitives pour une fraction du coût de calcul ».

Vous n’avez pas tout compris ? Pas de panique, Next vous explique de façon simple l’approche d’AMI Labs pour apprendre le monde à partir d’images et de vidéos. Le concept n’est pas nouveau, mais la manière de faire est différente et demande moins de puissance de calcul, alors que c’est actuellement le nerf de la guerre des IA (génératives).

Pour être plus performantes, ces IA ont de plus en plus de paramètres (ils se comptent en centaines de milliards), mais ce gain de taille se fait au prix de calculs et d’un besoin en quantité de mémoire (pour charger les paramètres) toujours plus importants. Pour rappel, une requête à ChatGPT avec un seul token, c’est déjà des centaines de milliards de calculs pour répondre.

Apprendre et raisonner « comme les animaux et les humains »

Il y a maintenant plus de quatre ans, alors qu’il était chez Meta, Yann LeCun parlait de « sa vision d’un système d’IA capable d’apprendre et de raisonner comme les animaux et les humains ».

Il reste 83% de l'article à découvrir.

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Commentaires (8)

votre avatar
N'étant pas expert dans le domaine, j'aurais bien aimé savoir ce que permet ce type de modèle.
Est-ce qu'il sera capable, à terme, de générer du texte, de la vidéo, du son ?
votre avatar
Pour la génération de texte ou de vidéo, les modèles actuels sont déjà très performants. Ce que recherche l’équipe de Yann LeCun, avec l’architecture JEPA, c’est de concevoir des modèles capables de construire une représentation interne du monde, le fameux World Model.

L’objectif est d'obtenir des modèles qui comprennent leur environnement, et soient capable de planifier des actions en fonction de cette compréhension, tout en réduisant le coût d’apprentissage par rapport aux approches actuelles.

L’exemple évoqué dans l'article est celui de la conduite autonome : le modèle ne se contente pas de réagir à des images, mais apprend la cohérence du monde qui l’entoure (objets, dynamiques, contraintes physiques). Il peut alors anticiper les conséquences de ses actions et planifier des décisions comme tourner, accélérer ou freiner, en prédisant leurs effets avant de les exécuter, et même anticiper le hors-champ, le tout pour un coût d'entrainement moindre que les modèles actuels.

Et je suppose que Yann LeCun espère, avec ce type d’approche, faire émerger des propriétés nouvelles, un peu comme dans le cerveau humain. Par exemple, la lecture n’est pas une capacité “native” : elle réutilise et détourne des circuits initialement dédiés à la reconnaissance visuelle (comme celle des formes ou des plantes) et à la mémoire de l’environnement.

De la même manière, l’idée serait que ces world models développent, à partir de mécanismes fondamentaux de compréhension et de prédiction du monde, des capacités émergentes plus complexes, comme la planification, le raisonnement ou l’adaptation à des situations nouvelles (la fameuse intelligence humaine).

Bref, je suis curieux de voir jusqu’où cette approche peut aller.
votre avatar
Grilled par @Scivolema mais l’idée n’est en effet pas de générer du contenu comme les LLM actuel (le but n’est pas d’avoir un chatbot), mais de prédire des conséquences de certaines « actions » et donc aussi de pouvoir trouver les actions pour arriver à un résultat. Les exemples cités en bas d’article sont des cas concrets pour LeWM : mettre une pièce dans le bon sens, trouver une sortie, arriver à un certainement placement… Sur cette page, avec les images animées, c’est parlant.
C’est pour le moment un petit modèle, à voir pour le passage à l’échelle…
votre avatar
lo po compris :fou:
votre avatar
Moi le nom du modèle, il m’a évoqué ça 😅:
m.youtube.com YouTube
votre avatar
JEPA la ref !
(bel article, mais que j'ai par moment lu comme moi, 14 ans, devant un article de Ciel et Espace, probablement pas encore assez armé)
votre avatar
Même feeling nostalgique, si ce n'est que c'était "Science & Vie" pour ma part (quand c'était encore un vrai journal scientifique avant son rachat)
votre avatar
Pour m’expliquer certaines parties de l’article (notamment le collapse)… j’ai dû demander à un LLM 😂