Connexion
Abonnez-vous

Meta dégaine ses Llama 4 multimodaux, dont un Behemot de 2 000 milliards de paramètres

It really kicks

Meta dégaine ses Llama 4 multimodaux, dont un Behemot de 2 000 milliards de paramètres

Dans la longue quête des modèles d’IA générative toujours plus puissants, c’est au tour de Meta de dégainer avec la quatrième version de son Llama. Il est décliné en trois versions, selon le cas d’usage, et tous sont multimodaux. Alors que Meta se lance pour la première fois dans les « mélanges d'experts », l'Europe continue d'être privée des nouveautés.

Le 07 avril à 16h52

Meta veut frapper fort avec son modèle Llama 4. Dans son annonce, publiée samedi (c’est la première fois que l’entreprise lance un modèle majeur durant le week-end), Meta explique qu’il a été entrainé sur « de grandes quantités de textes, d'images et de données vidéo non étiquetés » et qu’il dispose d’une « large compréhension visuelle ».

Llama 4 est décliné en trois versions : Scout, Maverick et Behemot. Précisons d’emblée que si les deux premiers sont disponibles, ils ont été distillés depuis Behemot qui, lui, est toujours en cours d’entrainement.

Des paramètres et des experts

Llama 4 Scout est le plus petit modèle, avec 16 experts. Ces derniers représentent des sous-sections spécifiques du modèle, conçues pour traiter des tâches particulières. Ils sont la conséquence de l’approche MoE (Mixture of Experts), utilisée pour la première fois chez Meta. Chaque expert représente un réseau neuronal pouvant être entrainé séparément, permettant un entrainement global du modèle nettement plus rapide, comme l’expliquait déjà Hugging Face fin 2023.

En fonction de la tâche, c’est le modèle qui « décide » ensuite à quel expert envoyer les jetons. Conséquence, si Llama 4 Scout a 109 milliards de paramètres, 17 milliards « seulement » sont actifs en même temps.

Même cas de figure pour Maverick, le modèle principal. Cette fois, le nombre de paramètres est de 400 milliards, mais le modèle dispose de 128 experts, toujours avec la même technique. Comme pour Scout, le nombre de paramètres actifs est de 17 milliards.

Selon Meta, ces deux modèles sont tout simplement les meilleurs modèles multimodaux de leur catégorie respective. Scout fournit ainsi une fenêtre contextuelle de 10 millions de jetons, peut fonctionner sur un seul GPU H100 de NVIDIA et fournit de meilleurs résultats que Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 « dans une large gamme de tests de référence », selon Meta.

Maverick, qui doit devenir le principal modèle poussé par Meta, est présenté comme surpassant GPT-4o et Gemini 2.0 Flash. Sur LMArena, le modèle se classe deuxième avec un score de 1417. Point intéressant, Meta évoque directement DeepSeek, car les résultats obtenus par Maverick sont décrits comme « comparables » au dernier modèle chinois. Selon Meta, Maverick peut fonctionner sur un seul système H100 DGX de NVIDIA.

L'énorme Behemot toujours en formation

Dans la nouvelle trilogie de Meta, Scout et Maverick sont les étudiants. L’enseignant se nomme Behemot, à partir duquel ils ont été distillés. Le modèle porte a priori bien son nom : on ne joue plus du tout dans la même cour.

Ce mastodonte, dont l’entrainement est toujours en cours, affiche la bagatelle de 2 000 milliards de paramètres. Bien sûr, tous ne fonctionnent pas en même temps, mais le modèle, doté de 16 experts, dispose quand même de 288 milliards de paramètres actifs. De fait, il est présenté comme le modèle « de pointe » pour tout ce qui touche aux mathématiques, au multilinguisme et aux images. Pour économiser les coûts, la distillation du modèle a été réalisée pendant la phase de pré-entrainement, précise Meta.

Évidemment, les performances d’un tel modèle sont annoncées comme supérieures à tout ce qui existe. Ou presque. Dans le tableau donné par Meta, on peut voir que les notes obtenues par son Behemot sont largement supérieures globalement que les modèles concurrents. Mais si Meta a fait combattre son modèle face à Claude Sonnet 3.7 et GPT-4.5 – qui sont effectivement les dernières versions des modèles – l’entreprise a choisi de se limiter à Gemini 2.0 Pro, alors que la 2.5 est disponible.

How to train a behemot

L’entrainement d’un tel modèle aurait « constitué un défi de taille ». Pendant celui de Maverick, Meta dit s’être aperçue de plusieurs problèmes, au point de changer toute sa chaine de traitements post-entrainement. Le réglage fin supervisé (SFT) et l’optimisation des préférences directes (DPO) ont ainsi été allégés. 50 % des données jugées « faciles » ont été supprimées, en se servant d’autres modèles Llama comme juges. L’étape intermédiaire d’apprentissage par renforcement (RL) est restée entière, bien qu’avec des prompts « plus difficiles ».

Concernant Behemot, Meta a appliqué une version extrême de cette recette, puisque 95 % des données « faciles » ont été élaguées pour la phase SFT. « Nous avons également constaté que l'exécution d'un SFT léger suivi d'un apprentissage par renforcement (RL) à grande échelle produisait des améliorations encore plus significatives dans les capacités de raisonnement et de codage du modèle », affirme Meta.

Même l’étape d’apprentissage par renforcement a nécessité des travaux. L’entreprise dit avoir dû passer par une refonte de son infrastructure : nouvelle conception de la parallélisation MoE pour des itérations plus rapides et un nouveau cadre asynchrone pour l’apprentissage par renforcement. Pour ce dernier, Meta dit avoir développé un système d’allocation flexible des modèles à des GPU distincts. Cette amélioration aurait « multiplié par 10 l’efficacité de l'entrainement », comparé à l’ancienne méthode qui consistait à « empiler tous les modèles en mémoire ».

Meta précise enfin que tous les entrainements de Llama 4 ont été réalisés en précision FP8. Dans le cas de Behemot, l’entreprise s’est servie de 32 000 GPU, avec un niveau de performances de 390 TFLOPS par GPU. La réserve de données, même après le fameux élagage, représentait 30 000 milliards de jetons, plus du double de ce qui avait été utilisé pour Llama 3.

Des réponses « utiles »

Les trois nouveaux modèles annoncés sont « classiques » : ils n’opèrent aucun raisonnement. Les comparaisons sont donc d’autant plus intéressantes, surtout dans le cas de Behemot sur des domaines comme les mathématiques et le développement logiciel. Reste à savoir bien sûr le type de coût qu’un modèle aussi volumineux peut engendrer. Surtout quand la concurrence, notamment DeepSeek-V3-0324, commence à mettre un accent plus prononcé sur l’efficacité.

Meta, en tout cas, indique avoir tout mis en œuvre pour que ses modèles fournissent des réponses utiles et « factuelles ». Toutes les variantes de Llama 4 auraient été réglées pour refuser moins souvent de répondre à des questions plus « litigieuses ». Une précision intéressante, et qui rejoint Anthropic dans sa communication : c’était l’un des changements mis en avant au lancement de Claude Sonnet 3.7 fin février. Deux semaines plus tôt, OpenAI annonçait des changements en ce sens dans la manière d’entrainer ses modèles. On pourrait y voir une influence de xAI et de son Grok, qui se veut effronté dans ses réponses.

« Vous pouvez compter sur [Llama 4] pour fournir des réponses utiles et factuelles sans porter de jugement. Nous continuons à rendre Llama plus réactif afin qu'il réponde à plus de questions, qu'il puisse répondre à une variété de points de vue différents [...] et qu'il ne favorise pas certains points de vue par rapport à d'autres », a ainsi déclaré Meta à TechCrunch.

Quid de la disponibilité ?

Techniquement, les nouveaux modèles Llama 4 Scout et Maverick sont disponibles depuis le site dédié et Hugging Face. Plus précisément, ce sont les modèles Llama-4-Scout-17B-16E, Llama-4-Scout-17B-16E-Instruct, et Llama 4-Maverick-17B-128E-Instruct-FP8. Ces modèles alimentent même déjà Meta AI pour WhatsApp, Messenger et Instagram pour tout ce qui touche aux conversations (du moins, sur les conversations non chiffrées de bout en bout). Les nouveaux modèles sont également disponibles dans Azure AI Foundry de Microsoft.

Mais en Europe, la situation est plus complexe. La licence associée aux modèles Llama 4 n’exclut pas les utilisateurs finaux. Ces derniers devraient donc avoir les mêmes capacités sur Meta AI que dans les autres pays où l’assistant est présent. En revanche, les personnes physiques et morales (donc les entreprises) européennes n’ont pas le droit d’accéder aux modèles.

« En ce qui concerne les modèles multimodaux inclus dans Llama 4, les droits accordés en vertu de la section 1(a) de l'accord de licence communautaire Llama 4 ne vous sont pas accordés si vous êtes une personne physique domiciliée dans l'Union européenne ou une société dont le siège social se trouve dans l'Union européenne. Cette restriction ne s'applique pas aux utilisateurs finaux d'un produit ou d'un service qui intègre de tels modèles multimodaux », indique Meta.

On retrouve une fois de plus les tensions entre Meta et l’Europe, l’entreprise ayant largement critiqué cette dernière pour ses « incertitudes réglementaires ». Elle a fustigé plus d’une fois le DMA (notamment à cause de ses abonnements supprimant la publicité), mais s’en est également prise à l’AI Act, main dans la main avec Spotify. Mais en attendant que la situation se détende, malgré un contexte géopolitique toujours plus complexe, ni les entreprises ni les chercheurs européens ne peuvent officiellement mettre la main dessus.

Ajoutons enfin que, dans le reste du monde, les applications et services tirant parti de Llama 4 devront afficher une mention « Built with Llama ».

Commentaires (12)

votre avatar
C'est plus le Llama's ass que ça kick là, c'est une paire de centrales nucléaires.

"Regarder, pour la modique somme de 10k€ d'électricité et 100k€ de matos, on peut générer une vidéos de chatons plutôt que vous les filmiez vous-même!"
votre avatar
Un peu la même rengaine qu'au début des années 2000 ou un e-mail équivalait a x kms parcouru en voitures. Qu'on fasse ou non une requête sur un LLM,l'infra est là et consomme quoi qu'il arrive.
votre avatar
Mmm non.
(petit moment Brandolini )

La désastre écologique des LLMs est bien mieux documentés que les pseudo parcours de mails et les polémiques stupides d'il y a 20 ans.

Un H100 qui tourne à vide c'est un investisseur qui toussote (et donc un plus pour la planète. indice: il faudrait le faire toussoter beaucoup). C'est comme l'argument incensé "même si tu prends pas l'avion il vole quand même". Ben non. je paye pas donc je participe pas à rendre ce monstre rentable pour la compagnie aérienne. Un siège vide c'est un gain pour la planète.
votre avatar
Un siège vide c'est un gain pour la planète.
Le paludisme est une manne pour la planète.
Je suis en train de fabriquer le Covid20 qui ne touchera pas que les vieux et les gros.
Avec 80% d'humains en moins (et 20% d'IA en plus), la planète s'en portera mieux.
votre avatar
C'est vrai que ça méritait d'être précisé : on parle bien sûr de ce qu'il faudrait faire pour sauver la planète (et notre peau avec, donc) sans recourir à des mesures entrainant des morts par //insert your favorite multiplier here//
votre avatar
Malheureusement, avec les progrès de la médecine, on a de moins en moins de morts :(
(et en plus des retraites à payer. Moi Président, chacun devra passer au crématorium à 65 ans.)
Film Soleil Vert (Soylent Green) sorti en 1973 :D
votre avatar
Mon prof d'éco-droit à l'époque disait que les vieux, faut les tuer à la naissance.
votre avatar
Ce n'est pas notre planete qui est en danger, c'est l'humanité. Pour la detruire notre planète il va falloir mettre les bouchées doubles (au moins!).
Sur le sujet en question je trouve que ca commence a etre le concours de kikalaplugrosse. Par contre la tentance a faire des modeles plus légers et plus efficaces oui. Par contre l approche plus "fragmentée" des modèles pourrait etre plus efficace et économe
votre avatar
"La planète est déjà en feu autant la bruler définitivement". Fallait oser 😂
votre avatar
@VincentHermann : d'après plusieurs fils de discussion (notamment https://www.reddit.com/r/LocalLLaMA/comments/1jsl37d/im_incredibly_disappointed_with_llama4/ pour n'en citer qu'un), les utilisateurs sont visiblement assez (pour ne pas dire très ?) déçus par ce Llama4...
votre avatar
Je suis dessus, ya des accusations de tricherie aussi
votre avatar
Plus ça va, et moins je comprend les news sur les nouveaux modèles IA.

Entre leur noms / versions / nombre de paramètres / nombres d'expert MoE / multimodaux / jetons / SFT / DPO / RL / précision FP8....
Pas la peine de m'expliquer hein :) Je lâche l'affaire.

Serais (peut être) à la retraite dans 17 ans et je me dis que je suis dans le caca avec tout ce bordel.
Je me mettrai en micro entreprise, bricoleur multi service pour les particuliers qui savent pas planter un clou.

N'hésitez pas à me solliciter si vous êtes dans le sud ouest. :fumer:

Meta dégaine ses Llama 4 multimodaux, dont un Behemot de 2 000 milliards de paramètres

  • Des paramètres et des experts

  • L'énorme Behemot toujours en formation

  • How to train a behemot

  • Des réponses « utiles »

  • Quid de la disponibilité ?

Fermer