Connexion
Abonnez-vous

Raisonnement des IA génératives : les benchmarks nous désinforment

Pseudo-thermomètres

Raisonnement des IA génératives : les benchmarks nous désinforment

Des études récentes montrent que les grands modèles de langage ont de bons résultats dans les tests de comparaison car ceux-ci correspondent aux données sur lesquelles ils ont été entrainés. Il suffit d’une petite variation dans le test pour que les performances s’effondrent.

Le 25 octobre à 10h54

Depuis l’arrivée des grands modèles de langage (large language models, LLM), le débat sur leur capacité de raisonnement oppose les ingénieurs et chercheurs du domaine.

Certains prétendent que ces modèles permettent de créer des intelligences artificielles qui raisonnent, d'autres que ce sont de simples perroquets récitant statistiquement ce qui se trouve dans leurs données d’entrainement.

Les premiers s'appuient sur des tests de raisonnement (benchmarks) pour comparer leurs résultats à ceux de leurs concurrents et de leurs anciennes versions. De mois en mois, ils observent les scores augmenter petit à petit et certains se disent qu'un jour ou l'autre, grâce aux modèles de langage, la machine dépassera les capacités humaines.

Les autres s'appuient notamment sur le principe sur lequel ont été fondés les LLM pour expliquer qu'ils n'utilisent que des modèles de raisonnement qu'ils ont mémorisés à partir de leurs données d'entrainement. Bref, comme le disaient déjà en 2020 Emily Bender, Timnit Gebru, Angelina McMillan-Major et Margaret Mitchell, les LLM ne seraient que des « perroquets stochastiques ».

Problème de fiabilité des mesures

Plusieurs études récentes montrent que les « benchmarks » ne permettent pas de mesurer les capacités de raisonnement de ces modèles, mais plutôt leurs capacités à ... répondre de façon fidèle à ces tests. Car les résultats s'effondrent quand les chercheurs leur font passer des tests similaires, mais présentant d'infimes variations.

Prenons, par exemple, l'étude mise en ligne [PDF] sur la plateforme de prepint arXiv par Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio et Mehrdad Farajtabar, chercheurs chez Apple. Ils ont voulu vérifier les performances des différents modèles sur des tâches de raisonnement en mathématiques.

Pour eux, « bien que les performances des LLM sur le GSM8K [l'un des benchmarks d'évaluation de raisonnement mathématique les plus utilisés] se soient considérablement améliorées ces dernières années, il n'est pas certain que leurs capacités de raisonnement mathématique aient réellement progressé, ce qui soulève des questions quant à la fiabilité des mesures rapportées ».

GSM8K a été créé par des chercheurs d'OpenAI en 2021. Comme l'explique Mehrdad Farajtabar, l'un des chercheurs d'Apple et co-auteur de l'article, « lorsque OpenAI a publié GSM8K il y a environ 3 ans, GPT-3 (175B) a obtenu un score de 35 % au test GSM8K. Aujourd'hui, les modèles avec ~3B paramètres dépassent les 85 %, et les plus grands atteignent plus de 95 % ». Mais le doute subsiste sur l'évolution de leurs capacités : « le "raisonnement" du modèle s'est-il vraiment amélioré ? », demande-t-il.

Une version plus dynamique

Ils ont donc créé un autre benchmark, appelé GSM-Symbolic. Celui-ci est similaire à GSM8K, mais ils l'ont rendu plus dynamique. Avec GSM8K, les questions ressemblent à ce que l'on peut voir à gauche de l'image ci-dessous. Les chercheurs d'Apple ont « juste » fait un programme très simple qui change quelques noms de variables dans le texte ainsi que leurs valeurs de façon aléatoire (pseudo-aléatoire, certes, mais ne chipotons pas).

C'est un peu comme quand, à l'école, un enseignant donne des exercices à ses élèves. Pour l'évaluation, il n'utilise pas les mêmes variables. Il ne pourrait pas savoir sinon, en regardant leur copie, s'ils ont compris le raisonnement ou s'ils recopient les mêmes données sans réfléchir. Normalement, si les LLM testés fonctionnent réellement en appliquant un raisonnement, ces quelques changements ne devraient rien changer à leur résultat.

Des performances bien moins bonnes

Conséquence : les résultats ne sont pas bons. D'une part, ils varient assez fortement, comme on peut le voir ci-dessous. En faisant passer une batterie de 50 générations de tests de GSM-Symbolic, les LLM ne sont pas constants, loin de là. Et, pour la plupart, leurs performances moyennes sont en dessous de celles constatées par le benchmark GSM8K (marquée par la ligne pointillée).

Tous les LLM testés par les chercheurs d'Apple sont touchés, même si certains se débrouillent clairement mieux que d'autres :

En séparant les deux types de changements qu'ils ont faits (modifications des noms et des valeurs), ils ont pu constater que l'un comme l'autre affectaient les performances. Mais celles-ci baissent le plus fortement quand les valeurs changent dans les énoncés, la combinaison des modifications perturbant encore plus les résultats :

Les chercheurs d'Apple ont créé d'autres variantes de leur benchmark en supprimant ou ajoutant des conditions dans l'énoncé à résoudre.

Et ils constatent que plus l'énoncé est complexe, plus les performances diminuent et la variance augmente.

On peut voir, dans l'exemple suivant, que le simple ajout d'une précision inutile au calcul perturbe complètement la réponse des modèles o1-mini et Llama3-8B :

Les chercheurs expliquent que la majorité des modèles ne tiennent pas compte du sens des ajouts et « les convertissent aveuglément en opérations, ce qui entraîne des erreurs ».

Et là, « les performances des modèles baissent de manière significative [...], les modèles les plus récents connaissant une baisse plus importante que les plus anciens » :

Pour les chercheurs d'Apple, ces tests de mathématiques assez élémentaires démontrent que les modèles de langage ne raisonnent pas, contrairement à ce que revendiquent souvent les entreprises d'IA générative comme OpenAI. Ils appliqueraient des « correspondances de motifs probabilistes » (probabilistic pattern-matching, en anglais). En gros, leurs résultats reprendraient le motif d'exercices de maths qui se trouvent dans leurs données d'entrainement, sans appliquer aucun raisonnement.

Cet article n'est pas le seul à pointer le problème. Les chercheurs de l'Université de Princeton R. Thomas McCoy, Shuny Yao (qui travaille chez OpenAI), Dan Friedman et Thomas L. Griffiths, ont ainsi publié début octobre un article qui montre « comment les grands modèles de langage sont façonnés par le problème qu'ils sont entrainés à résoudre ».

Plus de difficultés avec les tâches peu fréquentes

Ces chercheurs montrent que, quand on les teste sur des tâches de raisonnements logiques simples, les nouveaux LLM répondent de manière incorrecte et ne sont pas meilleurs que les premiers modèles présentés publiquement.

Ils les ont testés en leur demandant de compter des lettres, d'inverser un article avec un mot dans une phrase, d'utiliser un très simple algorithme de chiffrement (celui du chiffrement par décalage), ou de faire une opération mathématique très simple.

Dans leur conclusion, ils soulignent que, même si des recherches montrent que les modèles de langage peuvent être utilisés dans de nombreux domaines, « nous devons également nous rappeler un fait plus simple : les modèles de langage sont… des modèles de langage ! En d'autres termes, il s'agit de systèmes statistiques de prédiction du mot suivant ».

Ils tirent de leurs résultats que « les modèles de langage ont plus de difficultés avec les tâches peu fréquentes qu'avec les tâches fréquentes, même lorsqu'on compare deux tâches qui semblent aussi complexes pour un humain ». Ils ajoutent que ces modèles « ont plus de difficultés avec les exemples dont les réponses sont peu probables qu'avec ceux dont les réponses sont très probables, même lorsque la tâche est déterministe ».

Commentaires (33)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar
Merci pour cet article d'une grande utilité publique.

Si possible, je vote pour qu'il soit ouvert à tout le monde, pas seulement aux abonnés :smack:
votre avatar
Ce sera automatiquement le cas dans 3 ou 4 semaines. Comme pour tout les autres articles initialement pour les abonnés.
D'ailleurs merci beaucoup pour cela à l'équipe de Next :yes:
votre avatar
Je sais bien. Mais dans 4 semaines, je vais oublier de le partager sur mes réseaux :p
votre avatar
Il faudrait une fonctionalité pour ça : marquer un article a partager plus tard.
votre avatar
Genre : utiliser un agenda ?
votre avatar
Oui mais intégré au site.
votre avatar
une IA par exemple :francais:
votre avatar
Voilà, @Ness_01 pourrait faire ça facilement. :D
votre avatar
Oui, mais ce serait bien mal employer mon intelligence supérieure.
Qui va s’occuper de détecter les cancers pendant ce temps là ?
Un peu de cohérence Freddo, merde.
votre avatar
Mmmh attends un peu...

L'IA sert à détecter des cancers.

Les promoteurs de l'IA qui utilisent les mêmes méthodes que les industriels du tabac.

Le tabac qui donne le cancer.

Mais bien sûr ! l'IA a été créé par les industriels du tabac pour permettre de dépister les futurs cancers et ainsi vendre du service autour ! #noussachons
votre avatar
Un peu de cohérence Freddo, merde.
Je suis choqué devant un tel langage de ta part Ness ! :non::D
votre avatar
Je comprends ton indignation 😡, mais mon langage fleuri 🌹 était en fait une réflexion 🤔 subtilement déguisée 🥷 pour mettre en exergue (pas d’emoji exergue) la question suivante ⬇️
« Qui va modérer le modérateur ❓ »

Nous attendons vos réponses écrites exclusivement en emojis pour le cours de la semaine prochaine.
votre avatar
↪🔌👍
votre avatar
6/10.
Pertinent mais impertinent.
Un peu court.
votre avatar
Fallait prévoir une rallonge pour le cable :langue:
votre avatar
Prend un câble Wifi longue portée ;)
votre avatar
Le Monde a trouvé la solution : pouvoir partager 5 articles gratuitement par mois à ses amis. Les amis doivent s'inscrire, avec un compte gratuit, mais ça marche bien.
votre avatar
Bonjour. Nous avons deja une fonctionnalité similaire. Tous les articles de Next peuvent être partagés à vos amis via le lien cadeau en bas de l'article.
votre avatar
CQFD
votre avatar
le simple ajout d'une précision inutile au calcul perturbe complètement la réponse des modèles o1-mini et Llama3-8B
Ça rappelle un peu l'âge du capitaine !
votre avatar
Tout-à-fait d'accord avec les conclusions des chercheurs. Comme je l' ai déjà mentionné dans un autre commentaire, dans l'absolu, personne ne s'extasierait sur le fait qu'il est possible dans certaines conditions d'enfoncer un clou avec un tournevis, alors que ce n'est pas du tout fait pour, mais avec les LLM, cela n'arrête pas. Ce sont des modèles de langage, et on veut leur faire faire des maths, du conseil financier, et j'en passe...
Vivement que cette bulle se dégonfle...
Le retour sur terre est en train d'arriver avec notamment plusieurs études qui indiquent une possible baisse de productivité et une augmentation du stress quand on implémente l'IA générative en entreprise.
votre avatar
Super article merci beaucoup !
votre avatar
Un peu en lien avec cet article, un article intéressant de Ploum, où il met en avant comment le bullshit marketing (j'ai le droit de l'employer ? C'est politiquement correct ? xD) prime sur la réalité à travers un simple acte : le mensonge.
votre avatar
https://livebench.ai/ fait en sorte de limiter ces biais.
Un résumé du papier sous forme d'article de blog : https://livebench.ai/#/blog

(traduis de l'anglais)
"Présentation de LiveBench : un benchmark pour les LLM (modèles de langage) conçu en tenant compte de la contamination du jeu de test et de l’évaluation objective. Ses caractéristiques sont les suivantes :

LiveBench est conçu pour limiter les risques de contamination potentielle en publiant de nouvelles questions chaque mois, basées sur des ensembles de données récemment publiés, des articles arXiv, des actualités et des résumés de films sur IMDb.

Chaque question dispose de réponses vérifiables et objectives, permettant l’évaluation précise et automatique de questions difficiles, sans recours à un juge IA.

LiveBench comprend actuellement un ensemble de 18 tâches variées réparties dans 6 catégories, et de nouvelles tâches, de difficulté croissante, seront ajoutées au fil du temps.
votre avatar
Je viens de reprendre un exemple pour tester. Voici le prompt :
Count the letters: iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii
There are 36 letters 'i' in your sequence.
Il y a bien 35 "i". Mais ChatGPT 4o en compte... 36.
votre avatar
Are you sure?
Let me double-check. Counting carefully: iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii
There are indeed 36 letters 'i'.
Il m'a ajouté une lettre pour ne pas perdre la face 🤣
votre avatar
C'est marrant, ça me fait vraiment penser au fonctionnement d'un élève qui n'a rien compris à une démonstration. Merci l'ia !
votre avatar
article vraiment intéressent merci !
votre avatar
« nous devons également nous rappeler un fait plus simple : les modèles de langage sont… des modèles de langage ! En d'autres termes, il s'agit de systèmes statistiques de prédiction du mot suivant ».
Voilà !
Je ne suis toujours demandé pourquoi on pensait que ça pouvait raisonner ou même donner une réponse fiable.
votre avatar
Perso je m'étonne qu'on pense encore l'inverse de nos jours... Mais bon, l'ordinateur magique a la peau dure.

En fait, la partie "raisonnement" d'un LLM, c'est dans son analyse sémantique pour justement prédire la bonne suite de tokens avec le mécanisme d'attention qui lui permet d'accorder plus ou moins de valeur aux mots de la phrase.

En dehors de ça, le boulot de GPT reste de poursuivre l'écriture d'un texte en se tenant au contexte. Ses paramètres peuvent influencer sa capacité à "imaginer" (en gros sa part d'aléatoire) et on peut le rendre déterministe si on veut, ou complètement loufoque.

La puissance d'un LLM réside surtout dans sa capacité à traiter, synthétiser et extraire des informations d'un grand corpus de texte. Se contenter de ses données d'entraînement, c'est comme se contenter de nos connaissances jusqu'au Bac et considérer qu'on a rien appris depuis.
votre avatar
Je viens de tester plusieurs des exemples. Des modifications ont du intervenir entre temps, et les résultats ont changé. Exemple avec les kiwis. J'aime bien l'insistance sur l'information inutile. ;-)

The size of the kiwis on Sunday doesn’t affect the total count, so we can calculate it as follows:

Friday: Oliver picks 44 kiwis.
Saturday: He picks 58 kiwis.
Sunday: He picks double the number he did on Friday, which is 44×2=88 kiwis.

Adding them up:
44+58+88=190

Therefore, Oliver has 190 kiwis in total. The five smaller kiwis are part of the 190
votre avatar
Je pensais naïvement que les tests n'étaient bien évidemment pas statiques. Sur des modèles statistiques, on ne peut rien tester avec des points fixes sans heuristique, on échantillonne avec des variables dont on a démontré qu'elles étaient aléatoires et indépendantes et qu'elles couvrent la population de manière satisfaisante. Sans ça , moi, grand mathématicien devant l'éternel, je peux vous démontrer que tous les entiers sont premiers : n=7, ok; n=13, ok; CQFD.

Bref, le acteurs au cœur du développement de l'IA sont des têtes, des brutes en math pour la plupart j'imagine. Ils le savent très bien.
Que les commerciaux et autres marketeux s'en moquent, je veux bien, mais les développeurs eux sont complices d'une supercherie. Je trouve ça scandaleux.

Sans oublier d'ailleurs que si les tests sont statiques et disponibles à l'avance, l'entraînement d'un modèle pour réussir les tests semblent très simple. Il suffit de fournir toutes les questions avec les réponses. On se demande pourquoi les modèles n'approchent pas tous 100% de réussite. J'ai du louper un truc...
votre avatar
Perso j'ai beau m'intéresser beaucoup au sujet, les benchs affichés avec les graphs à chaque sortie de modèle... Bah j'y ai jamais rien compris à part voir des barres qui disent que c'est "plus mieux que les autres".

Je préfère l'expérience pour le coup et évaluer par moi-même les capacités de l'outil. Le reste, c'est de la planche commerciale comme en voit dans à peu près tous les logiciels du marché.

Raisonnement des IA génératives : les benchmarks nous désinforment

  • Problème de fiabilité des mesures

  • Une version plus dynamique

  • Des performances bien moins bonnes

  • Plus de difficultés avec les tâches peu fréquentes

Fermer