Raisonnement des IA génératives : les benchmarks nous désinforment
Pseudo-thermomètres
Des études récentes montrent que les grands modèles de langage ont de bons résultats dans les tests de comparaison car ceux-ci correspondent aux données sur lesquelles ils ont été entrainés. Il suffit d’une petite variation dans le test pour que les performances s’effondrent.
Le 25 octobre à 10h54
7 min
IA et algorithmes
IA
Depuis l’arrivée des grands modèles de langage (large language models, LLM), le débat sur leur capacité de raisonnement oppose les ingénieurs et chercheurs du domaine.
Certains prétendent que ces modèles permettent de créer des intelligences artificielles qui raisonnent, d'autres que ce sont de simples perroquets récitant statistiquement ce qui se trouve dans leurs données d’entrainement.
Les premiers s'appuient sur des tests de raisonnement (benchmarks) pour comparer leurs résultats à ceux de leurs concurrents et de leurs anciennes versions. De mois en mois, ils observent les scores augmenter petit à petit et certains se disent qu'un jour ou l'autre, grâce aux modèles de langage, la machine dépassera les capacités humaines.
Les autres s'appuient notamment sur le principe sur lequel ont été fondés les LLM pour expliquer qu'ils n'utilisent que des modèles de raisonnement qu'ils ont mémorisés à partir de leurs données d'entrainement. Bref, comme le disaient déjà en 2020 Emily Bender, Timnit Gebru, Angelina McMillan-Major et Margaret Mitchell, les LLM ne seraient que des « perroquets stochastiques ».
Problème de fiabilité des mesures
Plusieurs études récentes montrent que les « benchmarks » ne permettent pas de mesurer les capacités de raisonnement de ces modèles, mais plutôt leurs capacités à ... répondre de façon fidèle à ces tests. Car les résultats s'effondrent quand les chercheurs leur font passer des tests similaires, mais présentant d'infimes variations.
Il reste 79% de l'article à découvrir. Abonnez-vous pour ne rien manquer.
Déjà abonné ? Se connecter
Le 25 octobre à 10h54
Raisonnement des IA génératives : les benchmarks nous désinforment
-
Problème de fiabilité des mesures
-
Une version plus dynamique
-
Des performances bien moins bonnes
-
Plus de difficultés avec les tâches peu fréquentes
Commentaires (9)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousAujourd'hui à 11h01
#1
Si possible, je vote pour qu'il soit ouvert à tout le monde, pas seulement aux abonnés
Aujourd'hui à 11h59
#1.1
D'ailleurs merci beaucoup pour cela à l'équipe de Next
Aujourd'hui à 12h02
#1.1.1
Aujourd'hui à 11h12
#2
Aujourd'hui à 11h39
#3
Ça rappelle un peu l'âge du capitaine !
Aujourd'hui à 12h22
#4
Vivement que cette bulle se dégonfle...
Le retour sur terre est en train d'arriver avec notamment plusieurs études qui indiquent une possible baisse de productivité et une augmentation du stress quand on implémente l'IA générative en entreprise.
Aujourd'hui à 12h38
#5
Aujourd'hui à 12h46
#6
Modifié le 25/10/2024 à 13h03
#7
Un résumé du papier sous forme d'article de blog : https://livebench.ai/#/blog
(traduis de l'anglais)
"Présentation de LiveBench : un benchmark pour les LLM (modèles de langage) conçu en tenant compte de la contamination du jeu de test et de l’évaluation objective. Ses caractéristiques sont les suivantes :
LiveBench est conçu pour limiter les risques de contamination potentielle en publiant de nouvelles questions chaque mois, basées sur des ensembles de données récemment publiés, des articles arXiv, des actualités et des résumés de films sur IMDb.
Chaque question dispose de réponses vérifiables et objectives, permettant l’évaluation précise et automatique de questions difficiles, sans recours à un juge IA.
LiveBench comprend actuellement un ensemble de 18 tâches variées réparties dans 6 catégories, et de nouvelles tâches, de difficulté croissante, seront ajoutées au fil du temps.