Meta accusée d’avoir triché sur les performances de ses modèles Llama 4

Sous son meilleur jour

Photo de Dima Solomin sur Unsplash

Vincent Hermann

Le 08 avril 2025 à 09h42

L’entreprise a été épinglée hier pour des résultats de Llama 4 peu en phase avec ce qu’elle proclamait avoir obtenu dans plusieurs benchmarks. Une déception générale semble se manifester sur l’utilisation des modèles en conditions réelle, tandis que des soupçons de triche apparaissent. Meta nie avoir voulu tromper la communauté.

Meta accusée d’avoir triché sur les performances de ses modèles Llama 4

Sous son meilleur jour

Photo de Dima Solomin sur Unsplash

Vincent Hermann

Le 08 avril 2025 à 09h42

Droit

4 min

Meta a lancé samedi sa nouvelle famille de modèles de fondation Llama 4. Trois variantes ont été présentées, selon les cas d’usage envisagés : Scout, Maverick et surtout Behemot. Ce dernier, avec ses 2 000 milliards de paramètres, 288 milliards de paramètres actifs et 16 experts, est un colosse dont les résultats seraient pratiquement au niveau de Gemini 2.5 Pro, alors que ce dernier « raisonne » et pas Llama 4.

Pourtant, si plusieurs personnes ont commencé à s’interroger dès le dimanche, une polémique est apparue progressivement hier. Au centre de l’attention, le modèle intermédiaire Maverick, dont le score sur LMArena (1 417) ne semble pas se refléter dans les tests réalisés par un nombre croissant de chercheurs et autres experts.

Meta épinglée par LMArena

Dans son communiqué, Meta indiquait discrètement avoir utilisé une version expérimentale du modèle pour réaliser ses tests. La version mise à disposition samedi n’est cependant pas celle utilisée sur LMArena. Au point que l’équipe du site s’est fendu d’un message sur X hier après-midi pour pester contre Meta :

« L’interprétation de notre politique par Meta ne correspond pas à ce que nous attendons des fournisseurs de modèles. Meta aurait dû préciser que « Llama-4-Maverick-03-26-Experimental » était un modèle personnalisé visant à optimiser les préférences humaines. En conséquence, nous mettons à jour nos politiques de classement pour renforcer notre engagement en faveur d’évaluations équitables et reproductibles, afin d’éviter que ce genre de confusion ne se reproduise à l’avenir ».

Hier, une rumeur a également pris de l’ampleur : Meta aurait triché. Relevant qu’une publication un samedi était étrange (nous l’avions effectivement signalé), plusieurs personnes affirment que Meta aurait spécifiquement entrainé ses modèles pour les benchmarks, signale The Verge. Le cas serait semblable à celui des constructeurs de smartphones accusés d’optimisations pour les benchmarks pour mieux mettre en avant les performances de leurs produits. Performances que l’on ne retrouvait pas en utilisation réelle.

IA

Raisonnement des IA génératives : les benchmarks nous désinforment

IA

Vendredi 25 octobre 2024 à 10h54 25/10/2024 10h54

33

Meta nie tout en bloc

Au point qu’Ahmad Al-Dahle, ingénieur en chef sur l’intelligence artificielle chez Meta, a fini par prendre la parole hier soir pour démentir. « Comme nous avons lancé les modèles dès qu’ils ont été prêts, nous nous attendons à ce qu’il faille plusieurs jours pour que toutes les implémentations publiques se mettent en place. Nous continuerons à travailler à la correction des bogues et à l’intégration des partenaires », a-t-il déclaré pour expliquer la variabilité des résultats. Explication qui a valu au responsable quelques moqueries.

Concernant les accusations de tricherie, il réfute en bloc : « Nous avons également entendu dire que nous nous étions entraînés sur des ensembles de tests – ce n’est tout simplement pas vrai et nous ne ferions jamais cela. Nous pensons que les modèles Llama 4 représentent une avancée significative et nous sommes impatients de travailler avec la communauté pour libérer leur potentiel ».

Les commentaires en réponse font souvent état de performances médiocres, tout particulièrement dans Meta AI, censé utiliser Llama 4 dans WhatsApp, Threads et Facebook. Quelques jours avant la publication des nouveaux modèles, The Information indiquait que leur genèse avait été particulièrement complexe. Le lancement aurait été repoussé à plusieurs reprises à cause de performances inférieures aux attentes de l’entreprise.

Commentaires (6)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

TexMex Premium

Le 08/04/2025 à 09h49

Un DieselGate poir l'IA????

deathscythe0666 Premium

Le 08/04/2025 à 11h02

Donc un AIgate plutôt (quoique, si on part du principe que Meta nous enfume avec ses annonces, ça tient la route).

Idiogène

Le 08/04/2025 à 13h46

LLArena n'est pas d'utilité publique et n'a rien déposé allant en ce sens à l'AFNOR.

Machin-gate et tripote-leak ont le droit à une vie privée d'inutilité publique cela dit.

Valeryan_24 Premium

Le 08/04/2025 à 10h22

Meta tricher et/ou mentir ? Impossible, voyons…

levhieu Premium

Le 08/04/2025 à 11h52

Et l'article pourrait ajouter «Le cas serait semblable à un fournisseur de CPU qui bricolerait son compilateur pour reconnaître le code d'un benchmark aux résultats connus et optimiser en conséquence»
(c'est arrivé, et non, ce n'est pas à une société dans le monde x86 à laquelle je pense)

SebGF Premium

Le 08/04/2025 à 13h07

En général, peu importe le domaine, je ne fais pas confiance aux benchmark.

Les speedtests truqués avec une optimisation pour s'assurer du meilleur résultat.
Les tests de compatibilité Web des navigateurs, avant que Blink ne devienne le nouveau IE, qui ne reflétaient pas toujours la réalité.

Et de toute façon je ne comprend jamais rien aux douze mille indicateurs des benchs IA, donc je préfère le test en pratique.