Connexion
Abonnez-vous

Meta accusée d’avoir triché sur les performances de ses modèles Llama 4

Sous son meilleur jour

Meta accusée d’avoir triché sur les performances de ses modèles Llama 4

Photo de Dima Solomin sur Unsplash

L'entreprise a été épinglée hier pour des résultats de Llama 4 peu en phase avec ce qu'elle proclamait avoir obtenu dans plusieurs benchmarks. Une déception générale semble se manifester sur l'utilisation des modèles en conditions réelle, tandis que des soupçons de triche apparaissent. Meta nie avoir voulu tromper la communauté.

Le 08 avril à 09h42

Meta a lancé samedi sa nouvelle famille de modèles de fondation Llama 4. Trois variantes ont été présentées, selon les cas d’usage envisagés : Scout, Maverick et surtout Behemot. Ce dernier, avec ses 2 000 milliards de paramètres, 288 milliards de paramètres actifs et 16 experts, est un colosse dont les résultats seraient pratiquement au niveau de Gemini 2.5 Pro, alors que ce dernier « raisonne » et pas Llama 4.

Pourtant, si plusieurs personnes ont commencé à s’interroger dès le dimanche, une polémique est apparue progressivement hier. Au centre de l’attention, le modèle intermédiaire Maverick, dont le score sur LMArena (1 417) ne semble pas se refléter dans les tests réalisés par un nombre croissant de chercheurs et autres experts.

Meta épinglée par LMArena

Dans son communiqué, Meta indiquait discrètement avoir utilisé une version expérimentale du modèle pour réaliser ses tests. La version mise à disposition samedi n’est cependant pas celle utilisée sur LMArena. Au point que l’équipe du site s’est fendu d’un message sur X hier après-midi pour pester contre Meta :

« L'interprétation de notre politique par Meta ne correspond pas à ce que nous attendons des fournisseurs de modèles. Meta aurait dû préciser que "Llama-4-Maverick-03-26-Experimental" était un modèle personnalisé visant à optimiser les préférences humaines. En conséquence, nous mettons à jour nos politiques de classement pour renforcer notre engagement en faveur d'évaluations équitables et reproductibles, afin d'éviter que ce genre de confusion ne se reproduise à l'avenir ».

Hier, une rumeur a également pris de l’ampleur : Meta aurait triché. Relevant qu’une publication un samedi était étrange (nous l’avions effectivement signalé), plusieurs personnes affirment que Meta aurait spécifiquement entrainé ses modèles pour les benchmarks, signale The Verge. Le cas serait semblable à celui des constructeurs de smartphones accusés d’optimisations pour les benchmarks pour mieux mettre en avant les performances de leurs produits. Performances que l’on ne retrouvait pas en utilisation réelle.

Meta nie tout en bloc

Au point qu’Ahmad Al-Dahle, ingénieur en chef sur l’intelligence artificielle chez Meta, a fini par prendre la parole hier soir pour démentir. « Comme nous avons lancé les modèles dès qu'ils ont été prêts, nous nous attendons à ce qu'il faille plusieurs jours pour que toutes les implémentations publiques se mettent en place. Nous continuerons à travailler à la correction des bogues et à l'intégration des partenaires », a-t-il déclaré pour expliquer la variabilité des résultats. Explication qui a valu au responsable quelques moqueries.

Concernant les accusations de tricherie, il réfute en bloc : « Nous avons également entendu dire que nous nous étions entraînés sur des ensembles de tests - ce n'est tout simplement pas vrai et nous ne ferions jamais cela. Nous pensons que les modèles Llama 4 représentent une avancée significative et nous sommes impatients de travailler avec la communauté pour libérer leur potentiel ».

Les commentaires en réponse font souvent état de performances médiocres, tout particulièrement dans Meta AI, censé utiliser Llama 4 dans WhatsApp, Threads et Facebook. Quelques jours avant la publication des nouveaux modèles, The Information indiquait que leur genèse avait été particulièrement complexe. Le lancement aurait été repoussé à plusieurs reprises à cause de performances inférieures aux attentes de l’entreprise.

Commentaires (6)

votre avatar
Un DieselGate poir l'IA????
votre avatar
Donc un AIgate plutôt (quoique, si on part du principe que Meta nous enfume avec ses annonces, ça tient la route).
votre avatar
LLArena n'est pas d'utilité publique et n'a rien déposé allant en ce sens à l'AFNOR.

Machin-gate et tripote-leak ont le droit à une vie privée d'inutilité publique cela dit.
votre avatar
Meta tricher et/ou mentir ? Impossible, voyons… :D
votre avatar
Et l'article pourrait ajouter «Le cas serait semblable à un fournisseur de CPU qui bricolerait son compilateur pour reconnaître le code d'un benchmark aux résultats connus et optimiser en conséquence»
(c'est arrivé, et non, ce n'est pas à une société dans le monde x86 à laquelle je pense)
votre avatar
En général, peu importe le domaine, je ne fais pas confiance aux benchmark.

Les speedtests truqués avec une optimisation pour s'assurer du meilleur résultat.
Les tests de compatibilité Web des navigateurs, avant que Blink ne devienne le nouveau IE, qui ne reflétaient pas toujours la réalité.

Et de toute façon je ne comprend jamais rien aux douze mille indicateurs des benchs IA, donc je préfère le test en pratique.

Meta accusée d’avoir triché sur les performances de ses modèles Llama 4

  • Meta épinglée par LMArena

  • Meta nie tout en bloc

Fermer