Raisonnement des IA génératives : les benchmarks nous désinforment
Pseudo-thermomètres
Des études récentes montrent que les grands modèles de langage ont de bons résultats dans les tests de comparaison car ceux-ci correspondent aux données sur lesquelles ils ont été entrainés. Il suffit d’une petite variation dans le test pour que les performances s’effondrent.
Le 25 octobre 2024 à 10h54
7 min
IA et algorithmes
IA
Depuis l’arrivée des grands modèles de langage (large language models, LLM), le débat sur leur capacité de raisonnement oppose les ingénieurs et chercheurs du domaine.
Certains prétendent que ces modèles permettent de créer des intelligences artificielles qui raisonnent, d'autres que ce sont de simples perroquets récitant statistiquement ce qui se trouve dans leurs données d’entrainement.
Les premiers s'appuient sur des tests de raisonnement (benchmarks) pour comparer leurs résultats à ceux de leurs concurrents et de leurs anciennes versions. De mois en mois, ils observent les scores augmenter petit à petit et certains se disent qu'un jour ou l'autre, grâce aux modèles de langage, la machine dépassera les capacités humaines.
Les autres s'appuient notamment sur le principe sur lequel ont été fondés les LLM pour expliquer qu'ils n'utilisent que des modèles de raisonnement qu'ils ont mémorisés à partir de leurs données d'entrainement. Bref, comme le disaient déjà en 2020 Emily Bender, Timnit Gebru, Angelina McMillan-Major et Margaret Mitchell, les LLM ne seraient que des « perroquets stochastiques ».
Problème de fiabilité des mesures
Plusieurs études récentes montrent que les « benchmarks » ne permettent pas de mesurer les capacités de raisonnement de ces modèles, mais plutôt leurs capacités à ... répondre de façon fidèle à ces tests. Car les résultats s'effondrent quand les chercheurs leur font passer des tests similaires, mais présentant d'infimes variations.
Il reste 79% de l'article à découvrir.
Déjà abonné ? Se connecter
Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.
Accédez en illimité aux articles
Profitez d'un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Raisonnement des IA génératives : les benchmarks nous désinforment
-
Problème de fiabilité des mesures
-
Une version plus dynamique
-
Des performances bien moins bonnes
-
Plus de difficultés avec les tâches peu fréquentes
Commentaires (33)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 25/10/2024 à 11h01
Si possible, je vote pour qu'il soit ouvert à tout le monde, pas seulement aux abonnés
Le 25/10/2024 à 11h59
D'ailleurs merci beaucoup pour cela à l'équipe de Next
Le 25/10/2024 à 12h02
Modifié le 25/10/2024 à 15h03
Le 26/10/2024 à 10h26
Le 27/10/2024 à 09h05
Le 27/10/2024 à 10h52
Le 27/10/2024 à 13h25
Le 27/10/2024 à 14h07
Qui va s’occuper de détecter les cancers pendant ce temps là ?
Un peu de cohérence Freddo, merde.
Le 27/10/2024 à 21h29
L'IA sert à détecter des cancers.
Les promoteurs de l'IA qui utilisent les mêmes méthodes que les industriels du tabac.
Le tabac qui donne le cancer.
Mais bien sûr ! l'IA a été créé par les industriels du tabac pour permettre de dépister les futurs cancers et ainsi vendre du service autour ! #noussachons
Le 27/10/2024 à 21h49
Le 28/10/2024 à 07h40
« Qui va modérer le modérateur ❓ »
Nous attendons vos réponses écrites exclusivement en emojis pour le cours de la semaine prochaine.
Le 28/10/2024 à 08h33
Le 28/10/2024 à 08h48
Pertinent mais impertinent.
Un peu court.
Le 28/10/2024 à 09h05
Le 28/10/2024 à 09h11
Le 28/10/2024 à 11h39
Le 28/10/2024 à 12h43
Le 25/10/2024 à 11h12
Le 25/10/2024 à 11h39
Le 25/10/2024 à 12h22
Vivement que cette bulle se dégonfle...
Le retour sur terre est en train d'arriver avec notamment plusieurs études qui indiquent une possible baisse de productivité et une augmentation du stress quand on implémente l'IA générative en entreprise.
Le 25/10/2024 à 12h38
Le 25/10/2024 à 12h46
Modifié le 25/10/2024 à 13h03
Un résumé du papier sous forme d'article de blog : https://livebench.ai/#/blog
(traduis de l'anglais)
"Présentation de LiveBench : un benchmark pour les LLM (modèles de langage) conçu en tenant compte de la contamination du jeu de test et de l’évaluation objective. Ses caractéristiques sont les suivantes :
LiveBench est conçu pour limiter les risques de contamination potentielle en publiant de nouvelles questions chaque mois, basées sur des ensembles de données récemment publiés, des articles arXiv, des actualités et des résumés de films sur IMDb.
Chaque question dispose de réponses vérifiables et objectives, permettant l’évaluation précise et automatique de questions difficiles, sans recours à un juge IA.
LiveBench comprend actuellement un ensemble de 18 tâches variées réparties dans 6 catégories, et de nouvelles tâches, de difficulté croissante, seront ajoutées au fil du temps.
Modifié le 25/10/2024 à 13h49
Modifié le 25/10/2024 à 13h51
Le 25/10/2024 à 17h36
Le 25/10/2024 à 18h30
Le 25/10/2024 à 18h53
Je ne suis toujours demandé pourquoi on pensait que ça pouvait raisonner ou même donner une réponse fiable.
Le 26/10/2024 à 17h48
En fait, la partie "raisonnement" d'un LLM, c'est dans son analyse sémantique pour justement prédire la bonne suite de tokens avec le mécanisme d'attention qui lui permet d'accorder plus ou moins de valeur aux mots de la phrase.
En dehors de ça, le boulot de GPT reste de poursuivre l'écriture d'un texte en se tenant au contexte. Ses paramètres peuvent influencer sa capacité à "imaginer" (en gros sa part d'aléatoire) et on peut le rendre déterministe si on veut, ou complètement loufoque.
La puissance d'un LLM réside surtout dans sa capacité à traiter, synthétiser et extraire des informations d'un grand corpus de texte. Se contenter de ses données d'entraînement, c'est comme se contenter de nos connaissances jusqu'au Bac et considérer qu'on a rien appris depuis.
Modifié le 25/10/2024 à 20h57
The size of the kiwis on Sunday doesn’t affect the total count, so we can calculate it as follows:
Friday: Oliver picks 44 kiwis.
Saturday: He picks 58 kiwis.
Sunday: He picks double the number he did on Friday, which is 44×2=88 kiwis.
Adding them up:
44+58+88=190
Therefore, Oliver has 190 kiwis in total. The five smaller kiwis are part of the 190
Le 26/10/2024 à 00h31
Bref, le acteurs au cœur du développement de l'IA sont des têtes, des brutes en math pour la plupart j'imagine. Ils le savent très bien.
Que les commerciaux et autres marketeux s'en moquent, je veux bien, mais les développeurs eux sont complices d'une supercherie. Je trouve ça scandaleux.
Sans oublier d'ailleurs que si les tests sont statiques et disponibles à l'avance, l'entraînement d'un modèle pour réussir les tests semblent très simple. Il suffit de fournir toutes les questions avec les réponses. On se demande pourquoi les modèles n'approchent pas tous 100% de réussite. J'ai du louper un truc...
Le 26/10/2024 à 11h35
Je préfère l'expérience pour le coup et évaluer par moi-même les capacités de l'outil. Le reste, c'est de la planche commerciale comme en voit dans à peu près tous les logiciels du marché.
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?