Connexion
Abonnez-vous

Les modèles dits « de raisonnement » s’effondrent quand il faut raisonner sérieusement

🎶 C'est juste une illusion, comme une bulle de savon 🎶

Les modèles dits « de raisonnement » s’effondrent quand il faut raisonner sérieusement

DeepSeek-R1, les modèles o1 et o3 d'OpenAI, Claude 3.7 Sonnet Thinking ou encore Gemini Thinking. Ces nouveaux modèles censés avoir les capacités de « raisonner » en donnent simplement « l'illusion », selon des chercheurs d'Apple qui leur ont fait passer des tests simples comme celui des tours de Hanoï.

Le 10 juin à 08h32

Dans un article mis en ligne sur le site d'Apple, des chercheurs de l'entreprise exposent les limites des modèles dits « de raisonnement » tels que DeepSeek-R1, o1 ou Claude 3.7 Sonnet Thinking. Leur article (non relu par des pairs et mis en ligne [PDF] en dehors des pratiques de la recherche) affirme que ces modèles donnent l'« illusion de penser » alors qu'ils ont des « limites fondamentales ». Leur justesse s'effondre même, selon ces chercheurs, au-delà d'une certaine complexité.

Meilleurs que des docteurs, vraiment ?

En septembre dernier, OpenAI affirmait doctement que son modèle o1, « dépassait le niveau d'un docteur [human PhD-level accuracy] » sur un benchmark de physique, de biologie et de chimie (Le GPQA, créé en 2023 par des chercheurs de l'Université de New York, d'Anthropic et de la startup Cohere). L'entreprise tempérait un peu son ardeur plus loin en précisant que « ces résultats ne signifient pas que o1 est plus compétent qu'un docteur à tous égards, mais seulement que le modèle est plus performant pour résoudre certains problèmes qu'un docteur serait censé résoudre ».

Depuis, comme le remarquait Ars Technica déjà en mars, l'industrie de l'IA a un nouveau terme à la mode : « PhD-level AI ». Des IA du niveau d'un docteur ? Mais en quoi ? Le benchmark d'OpenAI se basait, en fait, sur la comparaison des réponses à un questionnaire à choix multiples et non sur celle de résolutions de problèmes. Un docteur n'est pas formé pour sortir de son cerveau des réponses à des questions très compliquées mais pour en formuler, établir des projets de recherche, mettre en place des protocoles et trouver de nouvelles réponses.

Des casse-têtes pour mieux évaluer

Comme le soulevait déjà en octobre dernier la même équipe de chercheurs d'Apple, les benchmarks des IA génératives nous désinforment souvent. Ici, ils proposent d'autres façons d'évaluer les modèles de raisonnement. Les chercheurs d'Apple proposent notamment plusieurs casse-têtes à tester : le passage de la rivière, les tours de Hanoï, les soldats de Conway ou encore celui du « blocks world ».

« Ces environnements permettent de manier avec précision la complexité des problèmes tout en maintenant des processus logiques cohérents, ce qui permet une analyse plus rigoureuse des schémas de raisonnement et des limites », justifient-ils.

Les tours de Hanoï, par exemple, sont un casse-tête connu tant du côté des psychologues et des neuropsychologues pour tester certaines fonctions exécutives, que du côté des développeurs comme exercice de programmation lorsqu'on est étudiant.

Des disques de diamètres différents sont posés en pyramide les uns au-dessus des autres sur une tige (voir ci-dessous). Il faut reconstituer cette pyramide sur une tige d'arrivée en déplaçant un disque à la fois et sans poser un disque sur un disque plus petit. En le faisant avec le moins de coups possibles, évidemment. On comprend assez rapidement que, plus il y a de disques, plus c'est complexe (si vous voulez essayer, on peut y jouer par ici). La complexité des autres casse-têtes augmente aussi avec l'augmentation d'un paramètre.

Au-delà d'une certaine complexité, c'est l'effondrement

Les cinq modèles « de raisonnement » testés (o3-mini dans 2 configurations différentes, DeepSeek-R1, DeepSeek-R1-Qwen-32B et Claude-3.7-Sonnet thinking) réagissent de la même façon : « la justesse diminue progressivement au fur et à mesure que la complexité du problème augmente jusqu'à l'effondrement complet (justesse nulle) au-delà d'un seuil de complexité spécifique au modèle ».

Ces modèles dits « de raisonnement » utilisent ce que les chercheurs appellent des « thinking tokens » (qu'on peut traduire par « jetons de réflexions ») inventés il y a un an par des informaticiens de l'Université de Prague.

En observant la seconde ligne de graphiques ci-dessus, on peut voir que « les modèles de raisonnement augmentent initialement leurs jetons de réflexion proportionnellement à la complexité du problème » mais qu' « à l'approche d'un seuil critique – qui correspond étroitement à leur point d'effondrement de leur justesse – les modèles commencent de manière contre-intuitive à réduire leur effort de raisonnement en dépit de l'augmentation de la difficulté du problème ». Bref, ce mécanisme ne fonctionne plus à partir d'une certaine complexité.

Les modèles de langage classiques meilleurs pour des problèmes simples

Les chercheurs d'Apple ont voulu comparer les performances de ces modèles « de raisonnement » aux modèles de langage classiques en fonction du nombre de jetons utilisés. Ils se sont aperçus que, « les modèles de langage classiques sont meilleurs pour des problèmes simples, les modèles de raisonnement présentent des avantages en cas de complexité moyenne, tandis que les deux approches échouent en cas de complexité élevée, quelle que soit l'allocation de calcul ».

L'article montre aussi que les modèles « de raisonnement » gaspillent de la puissance de calcul pour les problèmes simples : alors qu'ils ont trouvé la bonne solution dès le début, ils continuent à calculer d'autres possibilités qui sont erronées. Ils appellent ça, de l'« overthinking » (surréflexion).

« Ces observations remettent en question les hypothèses dominantes sur les capacités des modèles de raisonnement et suggèrent que les approches actuelles peuvent se heurter à des obstacles fondamentaux à un raisonnement généralisable  », concluent-ils.

Commentaires (70)

votre avatar
🎶 C'est juste une illusion, comme une bulle de savon 🎶
Une bulle spéculative :mdr:
votre avatar
oh ben ça alors, qui aurait pu le prévoir ?

Franchement, qui aurait pu prévoir que des modèles statistiques ne pouvaient pas raisonner, mais seulement "donner l'illusion" de raisonner ?
votre avatar
En est-il différemment pour les humains ?

Je ne sais pas si on a contredit la théorie que le raisonnement humain est l'application d'un modèle statistique construit par apprentissage (enfance, école, ...)
votre avatar
Bien entendu que c'est différent.
Tu confonds apprentissage de régles, de théorème et/ou d'axiomes avec le raisonnement logique qui permet de les construire.
votre avatar
J'ai pas compris...
votre avatar
C'est exactement ce que j'enseigne à mes étudiants
votre avatar
Bien entendu que c'est différent.
Je ne savais pas que c'était une question qui était bien entendue résolue.
Si vous avez des liens vers des études, je suis preneur.
votre avatar
Si vous avez des liens vers des études, je suis preneur.
Allons, tu as une affirmation non sourcée énoncée d'une façon sûre et presque autoritaire sur une actu traitant d'IA générative.

Que te faut-il te plus ?
votre avatar
Des études sur quoi ? :mad2:

Que le raisonnement mathématique n'est pas un raisonnement statistique ?

D'après ce que j'ai compris sur ce que TU as affirmé: nous, les humains, ne pouvons raisonner qu'à partir de théorèmes et/ou d'axiomes appris pendant notre scolarité. Heureusement que les PhD et la recherche fondamentale en générale ne s'arrête pas à cela pour démontrer quoi que ce soit.

Actuellement l'IA est incapable de construire un vrai raisonnement mathématique. Cela viendra peut être, mais pour l'instant ce n'est pas le cas.
Donc quand je vois les commerciaux "vendre" leur IA comme au même niveau qu'un PhD car ils ont fait des comparaisons sur un QCM :mdr2:
votre avatar
Je reprends ta réponse:
Tu confonds apprentissage de régles, de théorème et/ou d'axiomes avec le raisonnement logique qui permet de les construire.
=> c'est le raisonnement logique qui permet de construire le modèle des connaissances.
Et pas l'inverse.

Donc accroitre son modèle de connaissance (apprendre des choses) ne permettra pas de "mieux" raisonner.
Ca permettra de raisonner sur davantage de sujets, mais pas "mieux".
Pour raisonner "mieux", il faut un autre mécanisme que l'apprentissage (par ex le développement physiologique du cerveau)

C'est une théorie qui en vaut un autre. Mais c'est pas prouvé.
votre avatar
Il n'y a pas de raisonner "mieux" ou 'pas mieux". Un raisonnement logique vise à démontrer la véracité ou la fausseté d'une ou plusieurs assertions.
La problématique est bien souvent de trouver le chemin qui mène à la bonne démonstration.

Je ne comprends décidément pas de quoi tu parles. J'ai l'impression que tu es parti dans de la SF.
votre avatar
Il n'y a pas de raisonner "mieux" ou 'pas mieux". Un raisonnement logique vise à démontrer la véracité ou la fausseté d'une ou plusieurs assertions.
J'entends bien que tu as une définition "méthodique" du raisonnement (à la Descartes).

En terme informatique on dirait que:
- Le raisonnement est une méthode (algo, règles)
- et la connaissance est un ensemble de données (faits)

Ce qui signifie qu'on doit hardcoder le raisonnement, alors que la connaissance est acquise (par l'observation) ou déduite (par le raisonnement). Bref du Prolog. :phiphi:

Selon cette vision, la connaissance ne peut pas modifier le raisonnement (qui est hardcodé).
La seule manière pour une IA d'évoluer serait qu'elle code une nouvelle IA from scratch.
votre avatar
Pourquoi, la méthode ne peut pas évoluer en fonction des observations ?
votre avatar
Pourquoi, la méthode ne peut pas évoluer en fonction des observations ?
Parce, dans cette théorie, le raisonnement à un objectif immuable. Pour citer la réponse de Carbier: "Un raisonnement logique vise à démontrer la véracité ou la fausseté d'une ou plusieurs assertions."

Dire que le raisonnement peut "évoluer", c'est dire qu'il peut être altéré. Il pourrait alors dévier de son objectif primordial, ce qui contrevient à la théorie. En gros, on pourrait convaincre une IA de faire autre chose que ce pour quoi elle est prévue (*).

C'est "l'autre" théorie que j'exprimais dans mon 1er commentaire: le raisonnement est la mise en oeuvre de l'apprentissage. Donc on apprend à raisonner (bien ou mal), ce qui enrichi la connaissance (avec des déductions exactes/fausses) => une boucle de rétroaction systémique.

(*) A ne pas confondre avec "L'IA fait ce pour quoi elle est prévue, mais ce n'est pas ce qu'on espérait", façon Isaac Asimov.
votre avatar
Les modèles actuels sont loin du niveau humain pour de nombreuses taches, je pense qu'on est d'accord là dessus.

Mais le raisonnement humain n'est pas non plus sans limites. Pour les humains aussi, il y a un niveau de complexité au delà duquel nos performances "s'effondrent".

Si on pose volontairement comme critère qu'un modèle doit être Dieu pour pouvoir dire qu'il raisonne (capable de résoudre des problèmes de complexité illimitée), par construction on s’empêche de reconnaitre la valeur potentielle de modèles imparfaits.
votre avatar
Si on pose volontairement comme critère qu'un modèle doit être Dieu pour pouvoir dire qu'il raisonne (capable de résoudre des problèmes de complexité illimitée), par construction on s’empêche de reconnaitre la valeur potentielle de modèles imparfaits.
soupir de soulagement

Ça fait plaisir de lire ce genre de propos.
votre avatar
Je me répète une dernière fois: le problème est ce qu'on met derrière le mot raisonnement.
Un raisonnement logique n'est PAS un arbre de décisions basée sur des probabilités.

Ce n'est pas parcequ'une grande majorité des humains croient qu'ils "raisonnent" alors qu'effectivement ils ne font qu'avancer des hypothèses qui sont les plus "probables" que c'est le cas.
votre avatar
Les haters vont pouvoir s'en donner à coeur joie. 🙂
J'ai quand même l'impression que beaucoup ici se complaisent dans les critiques surtout par crainte de perdre leur job (ou une partie), qu'à fonder les choses sur les cas d'usage réel. 😅
votre avatar
Perdre leur job ? C’est pas plutôt se retrouver à devoir surveiller, contrôler et corriger ce que crachent leurs nouveaux outils ? Forcément le job en question devient vachement moins sexy.
votre avatar
Là dessus, on est d'accord.
votre avatar
J'ai l'impression que c'est finalement juste une variante de l'externalisation du développement en Inde...
votre avatar
Tout à fait, ce qui revient à faire transitionner le travail d'expertise d'un objectif intéressant à du débogage de choses crachées par d'autres (et en l’occurrence, même pas par d'autres mais pas des choses pilotées par d'autres : double indirection).
Les emplois proposés vont changer. Commencer déjà à taper sur ceux qui le craignent à raison et qui vont en souffrir en premier lieu est déjà injuste, alors même que c'est encore de l'anticipation…
votre avatar
Quand des sages montrent la lune l'ayatollah de l'IA regarde 28 doigts.
votre avatar
Un souci dans la gestion des émotions ?
votre avatar
Un soucis avec des personnes aveuglés par leur absolutisme Anakin.
votre avatar
Mais bien sûr. Et qui de mieux qu'un radical cloisonné dans son dogme pour penser que le monde est tout noir ou tout blanc, et que son interlocuteur, d'un avis différent, se complaît forcément dans un dogme lui aussi ? 🙂
Mais continue de t'enfermer dans l'image d'une personne dont tu ne sais rien, sinon qu'en tant qu'Humain, tu devrais savoir que tout en lui peut être nuance. 🙂
votre avatar
Dans tout cas VOS interventions ici (on n'a pas gardé les moutons ensemble) le montrent bien votre penchant pour l'idolâtion de l'IA sous tout ses sauces.
votre avatar
J'ai fait un retour factuel. l'IA n'est pas parfaite mais elle m'a beaucoup aidé, en parler, c'est l'aduler ? Non.
Ici le dogmatique, c'est vous, comme je ne vais pas dans votre sens, je suis forcément un connard qui n'a rien compris et qui se plante sur toute la ligne et qui vous emm*erde.

Ce que je constate surtout ici désormais, c'est qu'on ne peut rien dire de positif sur une IA sans être pris à parti !

Vous allez me dire que vous ne voyez pas le radicalisme, là ?
votre avatar
Le plus ironique dans cet échange, c’est que vous vous posez en victime d’un radicalisme… que vous êtes le premier à avoir projeté.

Votre toute première intervention était un jugement global, moqueur, et méprisant, assorti de smileys condescendants. Je n’ai rien attaqué : j’ai simplement répondu par une formule ironique à une sortie gratuite.

Vous parlez de nuance tout en posant des étiquettes, vous invoquez l’humanité tout en déformant systématiquement ce que j’écris.

Et non, je ne vous ai jamais traité de connard. C’est vous qui introduisez ce vocabulaire, seul, pour ensuite me le coller dessus. C’est maladroit.

Vous prétendez faire un “retour factuel”, mais chaque phrase que vous écrivez transpire le reproche et l’attaque détournée. Rien de ce que vous dites ne vise à comprendre, seulement à disqualifier.

Le débat n’est pas ce que vous supportez mal. C’est le désaccord.
votre avatar
Fadaises, votre postulat de départ est erroné. Je n'ai pas dit "tout le monde/gobal", j'ai dis "les haters" (qui se reconnaîtront tout seuls comme des grands), et "beaucoup" n'a jamais signifié "tout le monde". Ou alors, nous ne parlons pas le même français.
Nous avons une langue d'une richesse et d'une finesse exceptionnelle, dont je vous invite à tenir compte des nuances avant de réagir comme vous l'avez fait.
C'est trop facile de se dédouaner de vos réactions comme vous le faites.
votre avatar
Ce n’est pas une question de lexique, mais de ton. Le fond n’efface pas la forme. Votre message, même en ciblant des “haters”, baignait dans le mépris généralisé, assorti de smileys condescendants. Vous pouvez bien jouer sur le quantificateur “beaucoup”, l’intention de disqualification globale reste évidente.

Par ailleurs, c’est précisément parce que nous parlons la même langue que je relève vos procédés. Dire “les haters vont se régaler” ou “beaucoup ici” pour ensuite se réfugier derrière la sémantique, ce n’est pas faire preuve de finesse, c’est une tentative de réécriture de votre propre agressivité initiale.

Vous commencez par piquer, ensuite vous posez les règles du jeu. Et si ça répond, vous jouez la carte du malentendu lexical. C’est un mécanisme rhétorique classique, mais éculé.

À défaut de nuance, vous avez une belle maîtrise de l’esquive.
votre avatar
Je vous laisse la rhétorique à tiroirs, les leçons de ton et les procès d’intention.

Mon message pointait un climat et faisait suite à de précédentes réactions au sein des espaces de commentaires lorsque l'IA était abordée. Si vous vous êtes senti visé, c’est peut-être que votre propre discours s’inscrit dans ce que je décrivais, mais ça, ce n’est pas de mon ressort.

Quant à mes smileys ou mon ironie, inutile de les hisser au rang de crime de lèse-débat. C’est une façon d’écrire, pas une attaque. Vous y voyez du mépris ? J’y vois surtout une lecture chargée d’interprétations.

Votre réaction est disproportionnée et vous vous empressez de redessiner la scène pour inverser les rôles. J’aurais “piqué”, donc tout est permis en retour ? Ce genre de justification ne vous grandit pas.

Je vous invite simplement à débattre sur le fond au lieu de distribuer des étiquettes et de vous poser en arbitre du bon ton. Le désaccord n’est pas un problème.
Ce qui fatigue, ce sont les procès en hérésie dès qu’on n’aligne pas sa pensée sur la vôtre.
votre avatar
Vous niez les sous-entendus, vous relativisez la forme, puis vous reprochez qu’on y réponde. Mais le ton n’est pas un simple détail d’écriture : il participe du message. Et quand l’entrée en matière se fait avec ironie et suffisance, il est difficile de croire ensuite qu’on cherche simplement le débat.

Vous me dites que si je me suis senti visé, c’est peut-être que je me reconnais dans ce que vous dénonciez. J’aurais pu retourner exactement la même logique à votre réaction à mon retour. Mais à quoi bon ? Ce genre de joute tourne en rond.

Ce que je relève, ce n’est pas un désaccord. C’est une posture de départ qui disqualifie l’autre d’entrée de jeu. Ce que vous appelez “beaucoup” était déjà une généralisation implicite, un climat de soupçon lancé sans nuance.

Cela dit, je suis tout à fait prêt à discuter du fond, à condition qu’on le fasse à égalité : sans insinuations, sans condescendance, et sans rhétorique de retrait quand ça répond. On peut avoir des positions très différentes sans s’envoyer des pics — à condition de le vouloir.

La balle est dans votre camp.
votre avatar
Très bien. Puisque vous souhaitez une discussion à égalité, allons-y.

Vous me reprochez d’avoir introduit le débat avec “ironique et suffisant”. Soit. Mais ce jugement est votre lecture, pas une vérité. Ce que vous interprétez comme de la suffisance était, pour moi, une forme d’exaspération vis-à-vis d’un climat récurrent de critiques stériles sur certains sujets. L’ironie, je l’assume, mais ce n’est pas un appel à la guerre.

Je n’ai ni nié le ton, ni esquivé la discussion. J’ai simplement refusé qu’on en fasse un prétexte pour disqualifier d’emblée ce que je disais. Car, justement, si le ton vous dérange, la première étape serait de le questionner plutôt que d’y projeter toute une série d’intentions et de réflexes rhétoriques supposés.

Sur votre second point : oui, vous auriez pu retourner la logique. Mais je ne me suis pas permis de vous prêter des intentions personnelles, de vous renvoyer à une soi-disant “idolâtrie inverse”, ni de décréter que vous fonctionnez par “projection”. Là est la différence. Je n’ai pas joué sur votre personne. Vous, si.

Quant à l’idée de “généralisation implicite”, j’en reviens à ce que je disais plus haut : on peut pointer un climat sans englober tout le monde. Vous jouez sur l’ambiguïté du terme “beaucoup” pour y lire ce que vous avez envie d’y voir. C’est votre droit, mais ça n’en fait pas une généralisation dans les faits.

Enfin, si vous voulez qu’on avance, je suis d’accord. Mais il faut aussi que vous acceptiez que tout ton ironique n’est pas un mépris, que tout désaccord n’est pas une attaque, et que votre sensibilité n’est pas un mètre-étalon du débat acceptable.

Je vous propose donc ceci : on laisse tomber les procès croisés sur les intentions supposées, et on parle des idées. Je suis tout à fait prêt à confronter les miennes aux vôtres. Mais pas à débattre sous surveillance.
votre avatar
Ah tiens, on a quelqu'un qui a atteint son seuil de raisonnement ici aussi.
votre avatar
N'empêche que, vu les réactions, l'appeau fonctionne bien.
Certains dépassent rapidement le seuil de leur raisonnement émotionnel quand ils se sentent visés.

Je pourrais m'en foutre, mais c'est la première fois depuis que je suis sur le site (une paire d'années !) que j'observe des comportements toxiques dans l'espace de commentaire, n'étant pas bienveillants envers ceux n'ayant pas la même opinion qu'eux, bien au contraire.

Clairement, l'IA rebat des cartes et bouleversant les usages, divise plus que jamais au sein de la communauté, avec les conséquences que l'on peut voir, et je suis triste de voir à quel point certains peuvent sortir de leurs gonds parce qu'eux ont la vérité, et que celui qui ne pense pas comme lui, est forcément un c*n/stupide.
votre avatar
votre avatar
Malheureusement non, ce n'est pas la première fois que des comportements toxiques sont à déplorer ici. C'est rarement pour savoir kikalaplugross distro Linux, plutôt des sujets de société, mais ça peut s'écharper sévère.

SInon, faut bien reconnaître que l'IA c'est surtout de la poudre aux yeux. J'ai (vraiment) pas peur pour mon job quand je vois ce qu'elle pond actuellement (je l'utilise pour écrire du code). Si on fait pas gaffe, elle a vite fait de réécrire des bouts de code que tu as patiemment écrits toi-même pour coller au mieux aux specs, et elle remplace ça par des bouses immondes parce qu'elle est pas au courant des contraintes du code existant. Tu corriges en remettant le bon code, tu pourrais croire qu'elle a compris qu'elle a fait une bourde, ben non, elle remet la connerie à l'itération suivante. Bref, toujours avoir deux éditeurs de texte ouverts: un avec l'IA qui propose le nouveau code, et l'autre avec le "vrai" code bien propre dans lequel on injecte les modifs à la main, et SURTOUT sur lequel toutes les extensions de complétion de code / Amazon Q / Copilot et autres ne sont pas installées... Ça marche, mais quelle usine à gaz...

Pareil en ce qui concerne les abstractions, ce qui colle plus avec le sujet de l'actu ("penser en profondeur"). Quand le lui demande (exemple vécu) de vérifier pour tous les handlers d'un API quelles autorisations ils vérifient (genre "quand l'utilisateur veut smurger une parnute, il faut que ladite parnute ait bien été conglomérée précédemment ou que l'utilisateur a le droit de conglomérer tacitement" ) ben oui ça marche quand le code est bien linéaire et inclus directement dans le code du handler, mais si le test est fait dans une abstraction appelée par une fonction utilitaire générique, ben il trouve pas. Or c'est justement dans ces cas là qu'on aimerait qu'il trouve, sinon un simple script awk ferait l'affaire...
votre avatar
N'est ce pas la même chose pour les humains ? Il y a bien une limite à gérer la complexité au bout d'un moment.:fou:
votre avatar
C'est pour ça que nous découpons un problème en éléments a priori plus simples pour le résoudre. En attendant que la "machine" sache le faire ?
votre avatar
Cela tombe bien c'est pourquoi l'humain a développé le travail collaboratif.

La recherche fondamentale (celle dans laquelle travaillent les PhD) n'est pas le fait d'une seule personne comme semble le faire croire les commerciaux de l'IA, mais le fruit du travail d'équipes bien souvent disséminés partout dans le monde.
votre avatar
Qu'est ce qui empêche de faire travailler des IA en équipe ?
votre avatar
Qu'est ce qui empêche de faire travailler des IA en équipe ?
Rien, c'est plus ou moins ce que font déjà des implémentations du type AutoGPT ou même l'"Agentic AI" qui est très à la mode en ce moment.
votre avatar
Rien.
Par contre si tu fais travailler en équipe des modèles d'IA identique, tu vas simplement rajouter de l'incertitude aux 1ers resultats.

Un humain = un modèle IA

L'intérêt du travail en équipe chez l'humain c'est que tu vas utiliser des points de vue et des méthodes fondamentalement différentes.
votre avatar
la justesse diminue progressivement au fur et à mesure que la complexité du problème augmente jusqu'à l'effondrement complet (justesse nulle) au-delà d'un seuil de complexité spécifique au modèle
Cool, on a maintenant une métrique pour les RH: si un emploi nécessite de résoudre des problèmes ayant une complexité inférieure au seuil d'effondrement de l'IA, alors remplacer les employés par une IA + un superviseur humain.

#SadButTrue
votre avatar
Plus qu'à former les RH pour qu'ils sachent calculer le seuil de complexité (ou qu'ils délèguent ça à une IA en espérant que ça ne dépasse pas le seuil de complexité). Ensuite, on pourra même se débarasser des RH, vu qu'une IA pourra faire le boulot toute seule. Au final, les seuls qui sont vraiment inutiles, ce sont les RH. Ils auront fini par supprimer leurs propres emplois.
votre avatar
Et il aura fallu l'IA pour se rendre compte que les couches et surcouches de managers (j'y inclus les RH) sont inutiles?
votre avatar
Je ne pense pas que l'IA remplacera les managers qui achètent des IA pour remplacer les autres. ;)
votre avatar
Dire qu'il y a parfois trop de couches de chefs trop payés à ne jamais se mouiller (c'est normalement la justification de leur salaire élevé),: ok.

Mais il ne faut pas jetter le bébé avec l'eau du bain.

Même dans une entreprise libérée, il faut des personnes qui aient les compétences pour mener et pour l'aspect RH. Cela nécessite des qualité que bon nombre de techniciens ou ingénieurs n'ont pas.

Et pour former une bonne équipe qui fonctionne sans se mettre sur la geulle il faut pas mal de psychologie.
votre avatar
Ce sous-titre de qualité supérieure label rouge bio AOP 👌
votre avatar
Ce qui serait bien ce serait d'arrêter de croire qu'une seule étude fait une vérité, mais j'ai l'impression que la tentation est trop forte quand ça satisfait certaines envies.
votre avatar
Une seule étude ne fait pas la vérité, effectivement. Mais si N études avancent qu'un système fait très bien quelque chose alors une seule étude qui prouve le contraire peut suffire.

(si 100 personnes affirment qu'un verre est incassable, le fait qu'il n'y ait qu'une seule personne qui montre qu'il peut casser -en le faisant- ne diminue pas son affirmation du fait qu'ils étaient 100 au départ.)
votre avatar
(si 100 personnes affirment qu'un verre est incassable, le fait qu'il n'y ait qu'une seule personne qui montre qu'il peut casser -en le faisant- ne diminue pas son affirmation du fait qu'ils étaient 100 au départ.)
Comme Musk avec Tesla ? :D
votre avatar
Einstein, quand on lui parlait d'un bouquin titré "100 preuves qu'Einstein a tort" (approximatif). Il aurait répondu "100 preuves ??? Si j'avais tort, une seule suffirait !"
votre avatar
« les modèles commencent de manière contre-intuitive à réduire leur effort de raisonnement en dépit de l'augmentation de la difficulté du problème »
Humain-like, en somme 🤣
votre avatar
Pour quel coût énergétique et environnemental ?
votre avatar
Bonne question. Il est important aussi de s'interroger sur l’énergie grise et l'utilisation de l'eau.
Quand on voit ce que demande un petit kilogramme d'acier/aluminium ou bout de terre rare, ou un petit kilo de viande... j'espère que ceux qui taclent l'IA sur ce sujet, prendront conscience également que tout le reste de leur consommation fait plus que partie de l'équation... Et que c'est trop facile de taper uniquement sur l'arbre qui cache la forêt.
Parce que bon, dans la vraie vie, c'est mignon de mettre un mousseur sur un robinet, installer des toilettes sèches et des ampoules leds. Mais si on continue de se goinfrer de chocolat que plus personne ne considère comme un fruit exotique (alors que le cacao l'est !) et de bananes, par exemple, ou d'être exigeant et changer régulièrement de matériel, de faire produire sans cesse des pièces neuves de rechange pour une voiture, tous les efforts faits individuellement sont plus que ruinés.
Et je ne parle même pas des fringues synthétiques qui quand ils sont lavés, balancent des microplastiques à foison dans les eaux usées, intraitables, et retournent dans les cours d'eau et la mer... Ou les boues d'épurations hyper-concentrées en PCB qu'on propose aux agriculteurs d'épandre, contaminant les nappes pour des siècles et rendant les terres impropres à la culture. (On commence enfin à en entendre parler !)
votre avatar
votre avatar
Quelques éléments qui me viennent.

Les modèles de raisonnement sont jeunes par rapport aux LLM, donc rien de surprenant a ce qu'ils soient limités.

Une étude d'Apple qui est à la bourre dans le domaine et s'est fait démonter sur ce point. Desolé mais la partialité m'interroge.

Perso j'aime bien observer les modèles de raisonnement à l'œuvre. Plus que le résultat qui peut être moisi, ils répondent au côté boîte noire des LLM. Il est difficile de savoir comment le modèle a décidé de produire telle chaîne de caractères. Voir son raisonnement permet de comprendre le résultat et détecter ses failles.

Et n'oubliez pas, il a fallu des millions d'années à Deep Thoughts pour dire 42.
votre avatar
Premier problème: les boîtes du secteur fanfaronnent très déraisonnablement sur des nouveautés pas mûres, y collent des étiquettes marketing ultra pompeuses, et écrivent après en toutes petites lignes que irl c'est pas aussi bien que ça en a l'air.

Tout cela donne une image pas très sérieuse et surtout juste avide de levées de fonds.

Alors que s'ils avaient eux-mêmes clairement évoqué les limites de la choses, avant de pondre des appellations tapageuses, il y aurait moins de motifs pour les détracteurs (soyons franc: dont je fais partie) de se gausser grassement, et pour les fanboys de surprotéger leurs idoles en y perdant jusqu'à leur éducation.
votre avatar
Je suis remplaçable par une IA, j'atteins certainement plus vite la limite de l'effondrement lors du test de Hanoï, et me fait perdre du temps au boulot ! 😁
votre avatar
Après, combien d'humains savent résoudre le problème des tours d'Hanoï ?
votre avatar
Après, combien d'humains savent résoudre le problème des tours d'Hanoï ?
Combien connaissent son existence, déjà ? :D
votre avatar
Suis peut être un tantinet naïf, mais au moins tous ceux qui se sont intéressés à l'informatique dans le tout début des années 80.

Le jeu des tours de Hanoï était dispo sur les Micral qu'on avait au lycée !
https://fr.wikipedia.org/wiki/Micral

J'ai passé un sacré bout de temps à programmer ce jeu sur mes spectrum, MO5, TO7, Amstrad, etc...
J'ai aussi lamentablement échoué à programmer une résolution auto.
J'ai du atteindre mes propres limites de raisonnement en matière de dev.
Sinon, je viens de faire le jeu en 36 movements.
Pas en core au stade où j'aurai une récompense !
votre avatar
La bonne question serait plutôt "combien d'humains prétendant avoir un doctorat savent résoudre ce problème"
votre avatar
Le Français Mistral présente son IA qui « réfléchit avant de répondre »
Baptisé « Magistral », ce nouveau modèle d’intelligence artificielle vise des usages complexes comme le droit, la finance ou le développement logiciel
votre avatar
Intéressant, merci pour le partage.
votre avatar
Dispo sur Ollama.
votre avatar
Juste un article tout public qui vient d'être publié... Il est écrit "pourquoi" mais ça va pas en profondeur.

https://geeko.lesoir.be/2025/06/12/pourquoi-chatgpt-sest-fait-battre-aux-echecs-par-une-machine-des-annees-70/
votre avatar
Et pendant ce temps:

youtube.com YouTube

Les modèles dits « de raisonnement » s’effondrent quand il faut raisonner sérieusement

  • Meilleurs que des docteurs, vraiment ?

  • Des casse-têtes pour mieux évaluer

  • Au-delà d'une certaine complexité, c'est l'effondrement

  • Les modèles de langage classiques meilleurs pour des problèmes simples

Fermer