Raisonnement des IA génératives : les benchmarks nous désinforment

Pseudo-thermomètres

Illustration : Flock

Martin Clavey

Le 25 octobre 2024 à 10h54

Des études récentes montrent que les grands modèles de langage ont de bons résultats dans les tests de comparaison car ceux-ci correspondent aux données sur lesquelles ils ont été entrainés. Il suffit d’une petite variation dans le test pour que les performances s’effondrent.

Raisonnement des IA génératives : les benchmarks nous désinforment

Pseudo-thermomètres

Illustration : Flock

Martin Clavey

Le 25 octobre 2024 à 10h54

IA et algorithmes

7 min

Depuis l’arrivée des grands modèles de langage (large language models, LLM), le débat sur leur capacité de raisonnement oppose les ingénieurs et chercheurs du domaine.

Certains prétendent que ces modèles permettent de créer des intelligences artificielles qui raisonnent, d’autres que ce sont de simples perroquets récitant statistiquement ce qui se trouve dans leurs données d’entrainement.

Les premiers s’appuient sur des tests de raisonnement (benchmarks) pour comparer leurs résultats à ceux de leurs concurrents et de leurs anciennes versions. De mois en mois, ils observent les scores augmenter petit à petit et certains se disent qu’un jour ou l’autre, grâce aux modèles de langage, la machine dépassera les capacités humaines.

Les autres s’appuient notamment sur le principe sur lequel ont été fondés les LLM pour expliquer qu’ils n’utilisent que des modèles de raisonnement qu’ils ont mémorisés à partir de leurs données d’entrainement. Bref, comme le disaient déjà en 2020 Emily Bender, Timnit Gebru, Angelina McMillan-Major et Margaret Mitchell, les LLM ne seraient que des « perroquets stochastiques ».

Sciences

Dangers des grands modèles de langage : des chercheuses avaient prévenu

Sciences

Mardi 28 février 2023 à 16h45 28/02/2023 16h45

45

Problème de fiabilité des mesures

Plusieurs études récentes montrent que les « benchmarks » ne permettent pas de mesurer les capacités de raisonnement de ces modèles, mais plutôt leurs capacités à … répondre de façon fidèle à ces tests. Car les résultats s’effondrent quand les chercheurs leur font passer des tests similaires, mais présentant d’infimes variations.

Prenons, par exemple, l’étude mise en ligne [PDF] sur la plateforme de prepint arXiv par Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio et Mehrdad Farajtabar, chercheurs chez Apple. Ils ont voulu vérifier les performances des différents modèles sur des tâches de raisonnement en mathématiques.

Pour eux, « bien que les performances des LLM sur le GSM8K [l’un des benchmarks d’évaluation de raisonnement mathématique les plus utilisés] se soient considérablement améliorées ces dernières années, il n’est pas certain que leurs capacités de raisonnement mathématique aient réellement progressé, ce qui soulève des questions quant à la fiabilité des mesures rapportées ».

GSM8K a été créé par des chercheurs d’OpenAI en 2021. Comme l’explique Mehrdad Farajtabar, l’un des chercheurs d’Apple et co-auteur de l’article, « lorsque OpenAI a publié GSM8K il y a environ 3 ans, GPT-3 (175B) a obtenu un score de 35 % au test GSM8K. Aujourd’hui, les modèles avec ~3B paramètres dépassent les 85 %, et les plus grands atteignent plus de 95 % ». Mais le doute subsiste sur l’évolution de leurs capacités : « le « raisonnement » du modèle s’est-il vraiment amélioré ? », demande-t-il.

Une version plus dynamique

Ils ont donc créé un autre benchmark, appelé GSM-Symbolic. Celui-ci est similaire à GSM8K, mais ils l’ont rendu plus dynamique. Avec GSM8K, les questions ressemblent à ce que l’on peut voir à gauche de l’image ci-dessous. Les chercheurs d’Apple ont « juste » fait un programme très simple qui change quelques noms de variables dans le texte ainsi que leurs valeurs de façon aléatoire (pseudo-aléatoire, certes, mais ne chipotons pas).

C’est un peu comme quand, à l’école, un enseignant donne des exercices à ses élèves. Pour l’évaluation, il n’utilise pas les mêmes variables. Il ne pourrait pas savoir sinon, en regardant leur copie, s’ils ont compris le raisonnement ou s’ils recopient les mêmes données sans réfléchir. Normalement, si les LLM testés fonctionnent réellement en appliquant un raisonnement, ces quelques changements ne devraient rien changer à leur résultat.

Des performances bien moins bonnes

Conséquence : les résultats ne sont pas bons. D’une part, ils varient assez fortement, comme on peut le voir ci-dessous. En faisant passer une batterie de 50 générations de tests de GSM-Symbolic, les LLM ne sont pas constants, loin de là. Et, pour la plupart, leurs performances moyennes sont en dessous de celles constatées par le benchmark GSM8K (marquée par la ligne pointillée).

Tous les LLM testés par les chercheurs d’Apple sont touchés, même si certains se débrouillent clairement mieux que d’autres :

En séparant les deux types de changements qu’ils ont faits (modifications des noms et des valeurs), ils ont pu constater que l’un comme l’autre affectaient les performances. Mais celles-ci baissent le plus fortement quand les valeurs changent dans les énoncés, la combinaison des modifications perturbant encore plus les résultats :

Les chercheurs d’Apple ont créé d’autres variantes de leur benchmark en supprimant ou ajoutant des conditions dans l’énoncé à résoudre.

Et ils constatent que plus l’énoncé est complexe, plus les performances diminuent et la variance augmente.

On peut voir, dans l’exemple suivant, que le simple ajout d’une précision inutile au calcul perturbe complètement la réponse des modèles o1-mini et Llama3-8B :

Les chercheurs expliquent que la majorité des modèles ne tiennent pas compte du sens des ajouts et « les convertissent aveuglément en opérations, ce qui entraîne des erreurs ».

Et là, « les performances des modèles baissent de manière significative […], les modèles les plus récents connaissant une baisse plus importante que les plus anciens » :

Pour les chercheurs d’Apple, ces tests de mathématiques assez élémentaires démontrent que les modèles de langage ne raisonnent pas, contrairement à ce que revendiquent souvent les entreprises d’IA générative comme OpenAI. Ils appliqueraient des « correspondances de motifs probabilistes » (probabilistic pattern-matching, en anglais). En gros, leurs résultats reprendraient le motif d’exercices de maths qui se trouvent dans leurs données d’entrainement, sans appliquer aucun raisonnement.

Cet article n’est pas le seul à pointer le problème. Les chercheurs de l’Université de Princeton R. Thomas McCoy, Shuny Yao (qui travaille chez OpenAI), Dan Friedman et Thomas L. Griffiths, ont ainsi publié début octobre un article qui montre « comment les grands modèles de langage sont façonnés par le problème qu’ils sont entrainés à résoudre ».

Plus de difficultés avec les tâches peu fréquentes

Ces chercheurs montrent que, quand on les teste sur des tâches de raisonnements logiques simples, les nouveaux LLM répondent de manière incorrecte et ne sont pas meilleurs que les premiers modèles présentés publiquement.

Ils les ont testés en leur demandant de compter des lettres, d’inverser un article avec un mot dans une phrase, d’utiliser un très simple algorithme de chiffrement (celui du chiffrement par décalage), ou de faire une opération mathématique très simple.

Dans leur conclusion, ils soulignent que, même si des recherches montrent que les modèles de langage peuvent être utilisés dans de nombreux domaines, « nous devons également nous rappeler un fait plus simple : les modèles de langage sont… des modèles de langage ! En d’autres termes, il s’agit de systèmes statistiques de prédiction du mot suivant ».

Ils tirent de leurs résultats que « les modèles de langage ont plus de difficultés avec les tâches peu fréquentes qu’avec les tâches fréquentes, même lorsqu’on compare deux tâches qui semblent aussi complexes pour un humain ». Ils ajoutent que ces modèles « ont plus de difficultés avec les exemples dont les réponses sont peu probables qu’avec ceux dont les réponses sont très probables, même lorsque la tâche est déterministe ».

Commentaires (33)

fdorin Premium

Le 25/10/2024 à 11h01

Merci pour cet article d'une grande utilité publique.

Si possible, je vote pour qu'il soit ouvert à tout le monde, pas seulement aux abonnés

Breizhad Premium

Le 25/10/2024 à 11h59

Ce sera automatiquement le cas dans 3 ou 4 semaines. Comme pour tout les autres articles initialement pour les abonnés.
D'ailleurs merci beaucoup pour cela à l'équipe de Next

fdorin Premium

Le 25/10/2024 à 12h02

Je sais bien. Mais dans 4 semaines, je vais oublier de le partager sur mes réseaux :p

Uther Premium

Modifié le 25/10/2024 à 15h03

Il faudrait une fonctionalité pour ça : marquer un article a partager plus tard.

yorglaa Premium

Le 26/10/2024 à 10h26

Genre : utiliser un agenda ?

Uther Premium

Le 27/10/2024 à 09h05

Oui mais intégré au site.

ReunigKozh Premium

Le 27/10/2024 à 10h52

une IA par exemple

fred42 Premium

Le 27/10/2024 à 13h25

Voilà, @Ness_01 pourrait faire ça facilement.

Ness_01 Équipe

Le 27/10/2024 à 14h07

Oui, mais ce serait bien mal employer mon intelligence supérieure.
Qui va s’occuper de détecter les cancers pendant ce temps là ?
Un peu de cohérence Freddo, merde.

SebGF Premium

Le 27/10/2024 à 21h29

Mmmh attends un peu...

L'IA sert à détecter des cancers.

Les promoteurs de l'IA qui utilisent les mêmes méthodes que les industriels du tabac.

Le tabac qui donne le cancer.

Mais bien sûr ! l'IA a été créé par les industriels du tabac pour permettre de dépister les futurs cancers et ainsi vendre du service autour ! #noussachons

fdorin Premium

Le 27/10/2024 à 21h49

Un peu de cohérence Freddo, merde.

Je suis choqué devant un tel langage de ta part Ness !

Ness_01 Équipe

Le 28/10/2024 à 07h40

Je comprends ton indignation 😡, mais mon langage fleuri 🌹 était en fait une réflexion 🤔 subtilement déguisée 🥷 pour mettre en exergue (pas d’emoji exergue) la question suivante ⬇️
« Qui va modérer le modérateur ❓ »

Nous attendons vos réponses écrites exclusivement en emojis pour le cours de la semaine prochaine.

SebGF Premium

Le 28/10/2024 à 08h33

↪🔌👍

Ness_01 Équipe

Le 28/10/2024 à 08h48

6/10.
Pertinent mais impertinent.
Un peu court.

SebGF Premium

Le 28/10/2024 à 09h05

Fallait prévoir une rallonge pour le cable

fdorin Premium

Le 28/10/2024 à 09h11

Prend un câble Wifi longue portée ;)

zoufboss Premium

Le 28/10/2024 à 11h39

Le Monde a trouvé la solution : pouvoir partager 5 articles gratuitement par mois à ses amis. Les amis doivent s'inscrire, avec un compte gratuit, mais ça marche bien.

Martin Clavey Équipe

Le 28/10/2024 à 12h43

Bonjour. Nous avons deja une fonctionnalité similaire. Tous les articles de Next peuvent être partagés à vos amis via le lien cadeau en bas de l'article.

iMaman Premium

Le 25/10/2024 à 11h12

CQFD

serpolet Premium

Le 25/10/2024 à 11h39

le simple ajout d'une précision inutile au calcul perturbe complètement la réponse des modèles o1-mini et Llama3-8B

Ça rappelle un peu l'âge du capitaine !

ovancantfort Premium

Le 25/10/2024 à 12h22

Tout-à-fait d'accord avec les conclusions des chercheurs. Comme je l' ai déjà mentionné dans un autre commentaire, dans l'absolu, personne ne s'extasierait sur le fait qu'il est possible dans certaines conditions d'enfoncer un clou avec un tournevis, alors que ce n'est pas du tout fait pour, mais avec les LLM, cela n'arrête pas. Ce sont des modèles de langage, et on veut leur faire faire des maths, du conseil financier, et j'en passe...
Vivement que cette bulle se dégonfle...
Le retour sur terre est en train d'arriver avec notamment plusieurs études qui indiquent une possible baisse de productivité et une augmentation du stress quand on implémente l'IA générative en entreprise.

rxPyOm Premium

Le 25/10/2024 à 12h38

Super article merci beaucoup !

fdorin Premium

Le 25/10/2024 à 12h46

Un peu en lien avec cet article, un article intéressant de Ploum, où il met en avant comment le bullshit marketing (j'ai le droit de l'employer ? C'est politiquement correct ? xD) prime sur la réalité à travers un simple acte : le mensonge.

1.1.1.1

Modifié le 25/10/2024 à 13h03

https://livebench.ai/ fait en sorte de limiter ces biais.
Un résumé du papier sous forme d'article de blog : https://livebench.ai/#/blog

(traduis de l'anglais)
"Présentation de LiveBench : un benchmark pour les LLM (modèles de langage) conçu en tenant compte de la contamination du jeu de test et de l’évaluation objective. Ses caractéristiques sont les suivantes :

LiveBench est conçu pour limiter les risques de contamination potentielle en publiant de nouvelles questions chaque mois, basées sur des ensembles de données récemment publiés, des articles arXiv, des actualités et des résumés de films sur IMDb.

Chaque question dispose de réponses vérifiables et objectives, permettant l’évaluation précise et automatique de questions difficiles, sans recours à un juge IA.

LiveBench comprend actuellement un ensemble de 18 tâches variées réparties dans 6 catégories, et de nouvelles tâches, de difficulté croissante, seront ajoutées au fil du temps.

Furanku Premium

Modifié le 25/10/2024 à 13h49

Je viens de reprendre un exemple pour tester. Voici le prompt :

Count the letters: iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii

There are 36 letters 'i' in your sequence.

Il y a bien 35 "i". Mais ChatGPT 4o en compte... 36.

Furanku Premium

Modifié le 25/10/2024 à 13h51

Are you sure?

Let me double-check. Counting carefully: iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii

There are indeed 36 letters 'i'.

Il m'a ajouté une lettre pour ne pas perdre la face 🤣

iridium77 Premium

Le 25/10/2024 à 17h36

C'est marrant, ça me fait vraiment penser au fonctionnement d'un élève qui n'a rien compris à une démonstration. Merci l'ia !

seriyong

Le 25/10/2024 à 18h30

article vraiment intéressent merci !

fred42 Premium

Le 25/10/2024 à 18h53

« nous devons également nous rappeler un fait plus simple : les modèles de langage sont… des modèles de langage ! En d'autres termes, il s'agit de systèmes statistiques de prédiction du mot suivant ».

Voilà !
Je ne suis toujours demandé pourquoi on pensait que ça pouvait raisonner ou même donner une réponse fiable.

SebGF Premium

Le 26/10/2024 à 17h48

Perso je m'étonne qu'on pense encore l'inverse de nos jours... Mais bon, l'ordinateur magique a la peau dure.

En fait, la partie "raisonnement" d'un LLM, c'est dans son analyse sémantique pour justement prédire la bonne suite de tokens avec le mécanisme d'attention qui lui permet d'accorder plus ou moins de valeur aux mots de la phrase.

En dehors de ça, le boulot de GPT reste de poursuivre l'écriture d'un texte en se tenant au contexte. Ses paramètres peuvent influencer sa capacité à "imaginer" (en gros sa part d'aléatoire) et on peut le rendre déterministe si on veut, ou complètement loufoque.

La puissance d'un LLM réside surtout dans sa capacité à traiter, synthétiser et extraire des informations d'un grand corpus de texte. Se contenter de ses données d'entraînement, c'est comme se contenter de nos connaissances jusqu'au Bac et considérer qu'on a rien appris depuis.

logdrop Premium

Modifié le 25/10/2024 à 20h57

Je viens de tester plusieurs des exemples. Des modifications ont du intervenir entre temps, et les résultats ont changé. Exemple avec les kiwis. J'aime bien l'insistance sur l'information inutile. ;-)

The size of the kiwis on Sunday doesn’t affect the total count, so we can calculate it as follows:

Friday: Oliver picks 44 kiwis.
Saturday: He picks 58 kiwis.
Sunday: He picks double the number he did on Friday, which is 44×2=88 kiwis.

Adding them up:
44+58+88=190

Therefore, Oliver has 190 kiwis in total. The five smaller kiwis are part of the 190

ImpactID Premium

Le 26/10/2024 à 00h31

Je pensais naïvement que les tests n'étaient bien évidemment pas statiques. Sur des modèles statistiques, on ne peut rien tester avec des points fixes sans heuristique, on échantillonne avec des variables dont on a démontré qu'elles étaient aléatoires et indépendantes et qu'elles couvrent la population de manière satisfaisante. Sans ça , moi, grand mathématicien devant l'éternel, je peux vous démontrer que tous les entiers sont premiers : n=7, ok; n=13, ok; CQFD.

Bref, le acteurs au cœur du développement de l'IA sont des têtes, des brutes en math pour la plupart j'imagine. Ils le savent très bien.
Que les commerciaux et autres marketeux s'en moquent, je veux bien, mais les développeurs eux sont complices d'une supercherie. Je trouve ça scandaleux.

Sans oublier d'ailleurs que si les tests sont statiques et disponibles à l'avance, l'entraînement d'un modèle pour réussir les tests semblent très simple. Il suffit de fournir toutes les questions avec les réponses. On se demande pourquoi les modèles n'approchent pas tous 100% de réussite. J'ai du louper un truc...

SebGF Premium

Le 26/10/2024 à 11h35

Perso j'ai beau m'intéresser beaucoup au sujet, les benchs affichés avec les graphs à chaque sortie de modèle... Bah j'y ai jamais rien compris à part voir des barres qui disent que c'est "plus mieux que les autres".

Je préfère l'expérience pour le coup et évaluer par moi-même les capacités de l'outil. Le reste, c'est de la planche commerciale comme en voit dans à peu près tous les logiciels du marché.