Meta accusée d’avoir triché sur les performances de ses modèles Llama 4
Sous son meilleur jour

Photo de Dima Solomin sur Unsplash
L'entreprise a été épinglée hier pour des résultats de Llama 4 peu en phase avec ce qu'elle proclamait avoir obtenu dans plusieurs benchmarks. Une déception générale semble se manifester sur l'utilisation des modèles en conditions réelle, tandis que des soupçons de triche apparaissent. Meta nie avoir voulu tromper la communauté.
Le 08 avril à 09h42
4 min
Droit
Droit
Meta a lancé samedi sa nouvelle famille de modèles de fondation Llama 4. Trois variantes ont été présentées, selon les cas d’usage envisagés : Scout, Maverick et surtout Behemot. Ce dernier, avec ses 2 000 milliards de paramètres, 288 milliards de paramètres actifs et 16 experts, est un colosse dont les résultats seraient pratiquement au niveau de Gemini 2.5 Pro, alors que ce dernier « raisonne » et pas Llama 4.
Pourtant, si plusieurs personnes ont commencé à s’interroger dès le dimanche, une polémique est apparue progressivement hier. Au centre de l’attention, le modèle intermédiaire Maverick, dont le score sur LMArena (1 417) ne semble pas se refléter dans les tests réalisés par un nombre croissant de chercheurs et autres experts.
Meta épinglée par LMArena
Dans son communiqué, Meta indiquait discrètement avoir utilisé une version expérimentale du modèle pour réaliser ses tests. La version mise à disposition samedi n’est cependant pas celle utilisée sur LMArena. Au point que l’équipe du site s’est fendu d’un message sur X hier après-midi pour pester contre Meta :
« L'interprétation de notre politique par Meta ne correspond pas à ce que nous attendons des fournisseurs de modèles. Meta aurait dû préciser que "Llama-4-Maverick-03-26-Experimental" était un modèle personnalisé visant à optimiser les préférences humaines. En conséquence, nous mettons à jour nos politiques de classement pour renforcer notre engagement en faveur d'évaluations équitables et reproductibles, afin d'éviter que ce genre de confusion ne se reproduise à l'avenir ».
Hier, une rumeur a également pris de l’ampleur : Meta aurait triché. Relevant qu’une publication un samedi était étrange (nous l’avions effectivement signalé), plusieurs personnes affirment que Meta aurait spécifiquement entrainé ses modèles pour les benchmarks, signale The Verge. Le cas serait semblable à celui des constructeurs de smartphones accusés d’optimisations pour les benchmarks pour mieux mettre en avant les performances de leurs produits. Performances que l’on ne retrouvait pas en utilisation réelle.
Meta nie tout en bloc
Au point qu’Ahmad Al-Dahle, ingénieur en chef sur l’intelligence artificielle chez Meta, a fini par prendre la parole hier soir pour démentir. « Comme nous avons lancé les modèles dès qu'ils ont été prêts, nous nous attendons à ce qu'il faille plusieurs jours pour que toutes les implémentations publiques se mettent en place. Nous continuerons à travailler à la correction des bogues et à l'intégration des partenaires », a-t-il déclaré pour expliquer la variabilité des résultats. Explication qui a valu au responsable quelques moqueries.
Concernant les accusations de tricherie, il réfute en bloc : « Nous avons également entendu dire que nous nous étions entraînés sur des ensembles de tests - ce n'est tout simplement pas vrai et nous ne ferions jamais cela. Nous pensons que les modèles Llama 4 représentent une avancée significative et nous sommes impatients de travailler avec la communauté pour libérer leur potentiel ».
Les commentaires en réponse font souvent état de performances médiocres, tout particulièrement dans Meta AI, censé utiliser Llama 4 dans WhatsApp, Threads et Facebook. Quelques jours avant la publication des nouveaux modèles, The Information indiquait que leur genèse avait été particulièrement complexe. Le lancement aurait été repoussé à plusieurs reprises à cause de performances inférieures aux attentes de l’entreprise.
Meta accusée d’avoir triché sur les performances de ses modèles Llama 4
-
Meta épinglée par LMArena
-
Meta nie tout en bloc
Commentaires (6)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 08/04/2025 à 09h49
Le 08/04/2025 à 11h02
Le 08/04/2025 à 13h46
Machin-gate et tripote-leak ont le droit à une vie privée d'inutilité publique cela dit.
Le 08/04/2025 à 10h22
Le 08/04/2025 à 11h52
(c'est arrivé, et non, ce n'est pas à une société dans le monde x86 à laquelle je pense)
Le 08/04/2025 à 13h07
Les speedtests truqués avec une optimisation pour s'assurer du meilleur résultat.
Les tests de compatibilité Web des navigateurs, avant que Blink ne devienne le nouveau IE, qui ne reflétaient pas toujours la réalité.
Et de toute façon je ne comprend jamais rien aux douze mille indicateurs des benchs IA, donc je préfère le test en pratique.