Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA
JEPA tout compris, vous pouvez répéter ?
Le 26 mars à 14h29
Apprendre à partir du monde plutôt que du langage, c’est le but des « world models ». Yann LeCun et son équipe d’AMI Labs viennent de dévoiler leur premier modèle du genre, LeWorldModel. Comment ça marche ? Quelles différences avec les LLM (grands modèles de langage) ? Quelles sont les limitations et les espoirs ? Next vous explique tout.
Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA
JEPA tout compris, vous pouvez répéter ?
Apprendre à partir du monde plutôt que du langage, c’est le but des « world models ». Yann LeCun et son équipe d’AMI Labs viennent de dévoiler leur premier modèle du genre, LeWorldModel. Comment ça marche ? Quelles différences avec les LLM (grands modèles de langage) ? Quelles sont les limitations et les espoirs ? Next vous explique tout.
Droit
Droit
13 min
Après avoir quitté Meta, Yann LeCun s’est associé à d’autres chercheurs de renom pour lancer AMI Labs (Advanced Machine Intelligence) au début de l’année. Début mars, la start-up levait 890 millions d’euros. Elle vient de présenter son premier modèle : LeWorldModel ou LeWM de son petit nom. C’est un modèle qui apprend et qui, à partir d’actions données, essaye d’anticiper le futur.
LeWorldModel, JEPA, régulariseur gaussien… Wait, what ?!
Présentation rapide : « LeWM est un « world model » basé sur JEPA qui évite l’effondrement des représentations grâce à un simple régulariseur gaussien (SIGReg), s’entraîne de bout en bout à partir des pixels avec seulement deux termes de perte, et atteint des performances de contrôle compétitives pour une fraction du coût de calcul ».
Vous n’avez pas tout compris ? Pas de panique, Next vous explique de façon simple l’approche d’AMI Labs pour apprendre le monde à partir d’images et de vidéos. Le concept n’est pas nouveau, mais la manière de faire est différente et demande moins de puissance de calcul, alors que c’est actuellement le nerf de la guerre des IA (génératives).
Pour être plus performantes, ces IA ont de plus en plus de paramètres (ils se comptent en centaines de milliards), mais ce gain de taille se fait au prix de calculs et d’un besoin en quantité de mémoire (pour charger les paramètres) toujours plus importants. Pour rappel, une requête à ChatGPT avec un seul token, c’est déjà des centaines de milliards de calculs pour répondre.
Apprendre et raisonner « comme les animaux et les humains »
Il y a maintenant plus de quatre ans, alors qu’il était chez Meta, Yann LeCun parlait de « sa vision d’un système d’IA capable d’apprendre et de raisonner comme les animaux et les humains ».
Il reste 83% de l'article à découvrir.
Déjà abonné ou lecteur ? Se connecter
Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.
Accédez en illimité aux articles
Profitez d'un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
expert et sans pub.
Commentaires (8)
Le 26 mars à 14h49
Est-ce qu'il sera capable, à terme, de générer du texte, de la vidéo, du son ?
Modifié le 26 mars à 17h15
L’objectif est d'obtenir des modèles qui comprennent leur environnement, et soient capable de planifier des actions en fonction de cette compréhension, tout en réduisant le coût d’apprentissage par rapport aux approches actuelles.
L’exemple évoqué dans l'article est celui de la conduite autonome : le modèle ne se contente pas de réagir à des images, mais apprend la cohérence du monde qui l’entoure (objets, dynamiques, contraintes physiques). Il peut alors anticiper les conséquences de ses actions et planifier des décisions comme tourner, accélérer ou freiner, en prédisant leurs effets avant de les exécuter, et même anticiper le hors-champ, le tout pour un coût d'entrainement moindre que les modèles actuels.
Et je suppose que Yann LeCun espère, avec ce type d’approche, faire émerger des propriétés nouvelles, un peu comme dans le cerveau humain. Par exemple, la lecture n’est pas une capacité “native” : elle réutilise et détourne des circuits initialement dédiés à la reconnaissance visuelle (comme celle des formes ou des plantes) et à la mémoire de l’environnement.
De la même manière, l’idée serait que ces world models développent, à partir de mécanismes fondamentaux de compréhension et de prédiction du monde, des capacités émergentes plus complexes, comme la planification, le raisonnement ou l’adaptation à des situations nouvelles (la fameuse intelligence humaine).
Bref, je suis curieux de voir jusqu’où cette approche peut aller.
Le 26 mars à 18h18
C’est pour le moment un petit modèle, à voir pour le passage à l’échelle…
Le 26 mars à 15h31
Le 27 mars à 06h09
Le 27 mars à 10h18
(bel article, mais que j'ai par moment lu comme moi, 14 ans, devant un article de Ciel et Espace, probablement pas encore assez armé)
Le 27 mars à 10h22
Le 27 mars à 10h18
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?