Connexion
Abonnez-vous

Raisonnement des IA génératives : les benchmarks nous désinforment

Pseudo-thermomètres

Raisonnement des IA génératives : les benchmarks nous désinforment

Des études récentes montrent que les grands modèles de langage ont de bons résultats dans les tests de comparaison car ceux-ci correspondent aux données sur lesquelles ils ont été entrainés. Il suffit d’une petite variation dans le test pour que les performances s’effondrent.

Le 25 octobre à 10h54

Depuis l’arrivée des grands modèles de langage (large language models, LLM), le débat sur leur capacité de raisonnement oppose les ingénieurs et chercheurs du domaine.

Certains prétendent que ces modèles permettent de créer des intelligences artificielles qui raisonnent, d'autres que ce sont de simples perroquets récitant statistiquement ce qui se trouve dans leurs données d’entrainement.

Les premiers s'appuient sur des tests de raisonnement (benchmarks) pour comparer leurs résultats à ceux de leurs concurrents et de leurs anciennes versions. De mois en mois, ils observent les scores augmenter petit à petit et certains se disent qu'un jour ou l'autre, grâce aux modèles de langage, la machine dépassera les capacités humaines.

Les autres s'appuient notamment sur le principe sur lequel ont été fondés les LLM pour expliquer qu'ils n'utilisent que des modèles de raisonnement qu'ils ont mémorisés à partir de leurs données d'entrainement. Bref, comme le disaient déjà en 2020 Emily Bender, Timnit Gebru, Angelina McMillan-Major et Margaret Mitchell, les LLM ne seraient que des « perroquets stochastiques ».

Problème de fiabilité des mesures

Plusieurs études récentes montrent que les « benchmarks » ne permettent pas de mesurer les capacités de raisonnement de ces modèles, mais plutôt leurs capacités à ... répondre de façon fidèle à ces tests. Car les résultats s'effondrent quand les chercheurs leur font passer des tests similaires, mais présentant d'infimes variations.

Il reste 79% de l'article à découvrir. Abonnez-vous pour ne rien manquer.

Déjà abonné ? Se connecter

Abonnez-vous

Le 25 octobre à 10h54

Commentaires (9)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
Merci pour cet article d'une grande utilité publique.

Si possible, je vote pour qu'il soit ouvert à tout le monde, pas seulement aux abonnés :smack:
Ce sera automatiquement le cas dans 3 ou 4 semaines. Comme pour tout les autres articles initialement pour les abonnés.
D'ailleurs merci beaucoup pour cela à l'équipe de Next :yes:
Je sais bien. Mais dans 4 semaines, je vais oublier de le partager sur mes réseaux :p
CQFD
le simple ajout d'une précision inutile au calcul perturbe complètement la réponse des modèles o1-mini et Llama3-8B


Ça rappelle un peu l'âge du capitaine !
Tout-à-fait d'accord avec les conclusions des chercheurs. Comme je l' ai déjà mentionné dans un autre commentaire, dans l'absolu, personne ne s'extasierait sur le fait qu'il est possible dans certaines conditions d'enfoncer un clou avec un tournevis, alors que ce n'est pas du tout fait pour, mais avec les LLM, cela n'arrête pas. Ce sont des modèles de langage, et on veut leur faire faire des maths, du conseil financier, et j'en passe...
Vivement que cette bulle se dégonfle...
Le retour sur terre est en train d'arriver avec notamment plusieurs études qui indiquent une possible baisse de productivité et une augmentation du stress quand on implémente l'IA générative en entreprise.
Super article merci beaucoup !
Un peu en lien avec cet article, un article intéressant de Ploum, où il met en avant comment le bullshit marketing (j'ai le droit de l'employer ? C'est politiquement correct ? xD) prime sur la réalité à travers un simple acte : le mensonge.
https://livebench.ai/ fait en sorte de limiter ces biais.
Un résumé du papier sous forme d'article de blog : https://livebench.ai/#/blog

(traduis de l'anglais)
"Présentation de LiveBench : un benchmark pour les LLM (modèles de langage) conçu en tenant compte de la contamination du jeu de test et de l’évaluation objective. Ses caractéristiques sont les suivantes :

LiveBench est conçu pour limiter les risques de contamination potentielle en publiant de nouvelles questions chaque mois, basées sur des ensembles de données récemment publiés, des articles arXiv, des actualités et des résumés de films sur IMDb.

Chaque question dispose de réponses vérifiables et objectives, permettant l’évaluation précise et automatique de questions difficiles, sans recours à un juge IA.

LiveBench comprend actuellement un ensemble de 18 tâches variées réparties dans 6 catégories, et de nouvelles tâches, de difficulté croissante, seront ajoutées au fil du temps.

Raisonnement des IA génératives : les benchmarks nous désinforment

  • Problème de fiabilité des mesures

  • Une version plus dynamique

  • Des performances bien moins bonnes

  • Plus de difficultés avec les tâches peu fréquentes

Fermer