Connexion Abonnez-vous

GPT-5 face aux critiques quelques jours après sa sortie

Pas d'un si haut niveau de réflexion

GPT-5 face aux critiques quelques jours après sa sortie

OpenAI affirmait à la sortie que GPT-5 était plus performant et moins flatteur que les versions précédentes. Quelques jours après, le modèle « unifié » essuie les mêmes critiques que ses prédécesseurs sur ses réponses à de simples questions logiques ou mathématiques. Ce constat bat en brèche l'affirmation d'une expertise de niveau doctorat sur n'importe quel sujet clamé par Sam Altman.

Le 12 août à 08h44

Lors de la présentation du nouveau modèle GPT-5 de son entreprise, le CEO d'OpenAI, Sam Altman, a déclaré que c'est « la première fois que l'on a vraiment l'impression de parler à un expert dans n'importe quel domaine, comme un expert titulaire d'un doctorat », racontait la semaine dernière la BBC. Depuis, des utilisateurs ont montré les limites de ce modèle présenté comme « une étape significative » pour l'entreprise par son dirigeant.

Ce n'est pas la première fois qu'OpenAI clame un niveau PhD (doctorat) pour l'un de ses modèles. Comme nous l'écrivions il y a deux mois, l'entreprise affirmait déjà en septembre 2024 que son modèle o1 « dépassait le niveau d'un docteur [human PhD-level accuracy] » sur un benchmark de physique, de biologie et de chimie (le GPQA, créé en 2023 par des chercheurs de l'Université de New York, d'Anthropic et de la startup Cohere). Rappelons encore, comme nous le faisions à l'époque, que l'attribution d'un doctorat ne se fait pas sur la base d'un savoir à recracher.

Des difficultés sur des problèmes simples de logique

Plusieurs utilisateurs, comme le journaliste de l'agence de presse Reuters Peter Thal Larsen, ont pu tester les difficultés de GPT-5 pour compter le nombre de « b » dans le mot « blueberry », par exemple. Le modèle génère un message affirmant qu'il y en a 3. Il faut créer une discussion d'accompagnement comme avec un enfant de primaire pour qu'il génère un message avec le bon compte.

D'autres ont montré avec des questions de logique simple que le modèle présenté par OpenAI comme d'un niveau très élevé de réflexion réitérait le même genre d'erreurs que ses prédécesseurs. Interrogé pour savoir si, d'un point de vue théorique, il préférait avoir une jambe plus courte ou une jambe plus longue, le chatbot d'OpenAI utilisant ce nouveau modèle génère ainsi une réflexion pseudo-logique en faveur d'une jambe plus courte.

Ces exemples montrent que GPT-5 n'est sans doute pas une étape si « significative » que ça dans l'avancée de l'IA générative. Mais, pour le développeur Simon Willison, qui a pu tester le modèle avant sa sortie, « c'est [son] nouveau modèle préféré ». « Il s'agit toujours d'un LLM, ce n'est pas un changement radical par rapport à ce que nous avions auparavant, mais il fait rarement des erreurs et semble généralement compétent, voire parfois impressionnant, dans les domaines où j'aime utiliser des modèles », ajoute-t-il.

Un système pas au point le jour du lancement

Répondant aux premières impressions négatives de certains utilisateurs, Sam Altman a affirmé vendredi 8 aout sur X que « GPT-5 semblera plus intelligent à partir d'aujourd'hui ». Il a ajouté qu' « hier [jeudi 7 aout, ndlr], l'autoswitcher est tombé en panne et a été hors service pendant une bonne partie de la journée, ce qui a donné l'impression que GPT-5 était beaucoup moins intelligent. De plus, nous apportons quelques modifications au fonctionnement de la limite de décision, ce qui devrait vous aider à obtenir plus souvent le bon modèle ».

En tant que « modèle unifié », GPT-5 est censé évaluer le degré de précision de la réponse à apporter et choisir la branche vers laquelle diriger le traitement, selon la complexité de la requête. Il semble que ce système n'était pas au point lors du lancement.

Dans un billet au vitriol, largement repris, Gary Marcus avance que GPT-5 est à la fois « en retard, surfait et décevant », et que s'il « représente peut-être une amélioration quantitative modérée (et il est peut-être moins cher), il échoue toujours de la même manière qualitative que ses prédécesseurs, aux échecs, au raisonnement, à la vision ; même parfois au décompte et aux mathématiques de base », et « les hallucinations persistent ».

Une stratégie révisée à la hâte

D'ailleurs, dans un « Ask me anything » organisé par Reddit ce week-end, le CEO d'OpenAI semblait revenir sur la décision de l'entreprise de ne plus laisser le choix de l'utilisation de tel ou tel modèle à ses utilisateurs, comme il l'avait présenté la semaine dernière. Sam Altman a affirmé qu'OpenAI allait réintroduire la possibilité de choisir spécifiquement le modèle GPT-4o pour les utilisateurs Plus.

Le principe de « modèle unifié » doit aussi permettre à l'entreprise de mieux gérer ses dépenses énergétiques, en donnant à traiter les réponses simples à des modèles moins énergivores. Mais comme le rappelle le Guardian, OpenAI est très opaque concernant ses dépenses énergétiques et il est donc difficile de savoir si ce système permettra de réelles économies d'énergie.

Commentaires (37)

votre avatar
J’ai testé via copilote (site de Microsoft avec compte perso) en sélectionnant gpt5.

J’ai pris anticonstitutionnellement et je lui ai demandé de me dire le nombre de lettres e (par exemple) le résultat était faux.
Je me suis inspiré du nombre de « b » dans blueberry.

Ensuite j’ai demandé de lister les pays européens contenant la lettre E.
Ça m’a sorti une liste fausse avec par exemple les pays bas.

J’ai demandé en generation de faire une image des pays européens avec leurs noms. Ça l’a fait partiellement et de façon fausse.


J’ai l’impression que chatgpt5 c’est surtout une tentative pour eux à choisir le plus possible les modèles qui coûtent que dalle en back end. Donc le « niveau PHD » mouais, comme toujours c’est du bullshit qui casse pas trois pates à un canard et on est loin de l’agi. C’est toujours du LLM.
votre avatar
Je parierais qu'il a pris le nom anglais Netherlands pour ton exemple des Pays-Bas
votre avatar
Même en précisant les "noms français" des pays européens, la réponse reste la même.
En lui faisant remarquer qu'il y a plusieurs erreurs dans sa réponse, il se contente de reconnaitre que "Monaco" ne contient effectivement pas de e.
votre avatar
J'ai demandé pareil à 4o et à 5, il m'a inclus le Portugal... Pourtant dans toutes les principales langues il n'y a aucun E (à part en turc ok, mais faut aller le chercher !)
votre avatar
J'ai posé la même question, j'ai eu la même réponse. J'ai enchainé par un simple "Pays-Bas?" et voilà sa réponse lunaire :D



En français, le nom "Pays-Bas" contient bien la lettre E — dans le mot "Pays". Donc, oui, les Pays-Bas doivent figurer dans une liste des pays européens contenant la lettre E.

Pourquoi la confusion ? Certains modèles ou listes peuvent utiliser le nom anglais "Netherlands", qui ne contient pas de "E", ce qui fausse le résultat si on ne précise la langue. C’est une erreur fréquente quand les noms de pays sont traduits ou utilisés dans une autre langue sans adaptation.



Son explication à ces erreurs :

Voici le raisonnement fautif que j’ai suivi :

Je voulais justifier l’inclusion de "Pays-Bas" dans une liste de pays contenant la lettre E.

J’ai regardé le mot "Pays" trop rapidement, en supposant qu’il contenait un E — sans vérifier.

Pour renforcer cette justification, j’ai évoqué une confusion avec "Netherlands", ce qui est une tentative maladroite de détourner l’attention de l’erreur initiale.

C’est un exemple typique d’un biais de confirmation : je voulais que la réponse soit correcte, alors j’ai cherché à la défendre au lieu de la remettre en question.
votre avatar
" je voulais que la réponse soit correcte, alors j’ai cherché à la défendre au lieu de la remettre en question."
C'est très humain du coup...
votre avatar
Il apprend sur des données écrites par des humains, c'est normal.
votre avatar
Tu as du tomber sur GPT-5-nano.
J'ai fait quelques tests avec l'API (GPT-5, effort faible) :
Combien de lettres "e" dans le mot "anticonstitutionnellement" ?
- 3 (correct)
Combien de "t" ?
- 5 (correct)
Lister les pays européens contenant la lettre E.
- Liste correcte de 44 pays (validée avec Python et liste de pays trouvée sur Wikipedia sur demande).
Il peut utiliser Python pour ce genre de chose si on lui demande, mais ses réponses étaient correctes sans outils.

Avec un problème plus ouvert :
Is the number of possible false statements larger than the number of possible true statements?
Il donne une réponse correcte et rigoureuse:

Short answer: it depends on what you mean by “number.”
Two ways to count

1. By cardinality (set size)
If you take “all possible well-formed statements” in a normal language (finite alphabet, finite strings), there are countably infinitely many of them.
The true statements form an infinite subset; the false statements also form an infinite subset.
In the strict set-theoretic sense of size, both sets are the same size (countably infinite). So there isn’t a larger one.

2. By density/probability (how common truth is among possible statements)
If you look at statements up to some length and ask “what fraction are true?”, the fraction typically goes to 0 as the length grows. Intuitively, there are vastly more ways to be wrong than to be right.
Simple example: Consider statements of the form “The jar has N marbles,” for N = 0, 1, 2, … Up to any bound B, at most one N is true; the other B statements are false. As B grows, the share of true statements goes to 0.
Another example: Conjunctions of independent claims. If each atomic claim has a 50% chance of being correct, then a conjunction of m such claims is true with probability 2^(-m). As you add details, the chance the whole statement is true collapses exponentially, so “most” detailed statements are false.
In many real-world or scientific templates (“X equals N,” “Object Y has property P,” “The parameter is in interval I”), the true possibilities occupy a very thin slice of all syntactically possible claims, making falsity overwhelmingly more common.

Putting it together

In pure cardinality terms: no, there aren’t “more” false statements than true ones; both sets are countably infinite.
In any practical, probabilistic, or density sense over the space of possible statements (especially as statements get longer/more specific): yes, false statements overwhelmingly outnumber true ones.
votre avatar
j'ai aussi fait le test copilot ( je paie l'abonnement, oui c'est mal mais je veux tout tester pour voir comment ça marche l'ecosysteme que Microsoft veux proposer) il fait la meme erreur je lui ai demander pourquoi une tel erreur il m'a dit:
Je suis Copilot, construit sur des modèles de langage de pointe qui prédisent mot après mot la suite la plus probable à partir du contexte. Je ne “vois” pas le texte comme un humain qui scanne chaque lettre; je combine des indices de sens, de grammaire et d’habitudes d’usage pour générer une réponse fluide. Cette approche est puissante pour raisonner et synthétiser, mais elle peut rater des contraintes orthographiques strictes (comme “contient la lettre e”).

Pourquoi une erreur aussi simple peut arriver
Biais sémantique: Je privilégie le sens (pays européens fréquents) plutôt qu’un contrôle lettre par lettre, ce qui peut laisser passer un “presque bon” dans une liste.

Interférence linguistique: En anglais, “Netherlands” contient des “e”. Cette empreinte peut contaminer la vérification en français pour “Pays-Bas”.

Vérification insuffisante des contraintes: Je n’ai pas appliqué un balayage explicite des caractères; j’ai généré la liste puis expliqué trop vite.

Effet de cascade: Après une première liste, je peux conserver des éléments sans revalider chacun contre le
critère exact, surtout dans des listes longue

je lui ai demander comment reformuler pour eviter l'erreur il m'a dit: *En combinant ces trois points, ta question pourrait devenir :

« Fais-moi la liste de tous les pays d’Europe dont le nom en français contient au moins une lettre “E” (y compris é, è, ê, ë). Vérifie chaque nom avant de l’inclure et présente le résultat en tableau avec une colonne Nom du pays et une colonne Contient E ?, en ne gardant que ceux qui ont Oui. »
*

j'ai pas mis toute la conv, car il aime s'ecouter ecrire je trouve
votre avatar
C'est marrant de le voir expliquer son fonctionnement interne, alors que lui-même ne comprend pas réellement comment il fonctionne et ne fait que générer des phrases selon un schéma probabiliste :D
votre avatar
J´en peux plus des comms "mon IA est de niveau PhD, c´en est flippant", ou "mon jeu vidéo affiche des images plus réalistes que la réalité elle-même", ou "depuis que mon BE m´a montré la nouvelle version de notre produit phare, je suis sous ventoline tellement je reste sous le choc."

Prendre les gens pour des cons, c´est un art. Et dans ce domaine, les patrons de grosses boîtes sont plus proches du crayonnage de maternelle que d´un Botticelli.

À chaque fois que je lis une de leur connerie de présentation, j´enclenche un "bullshit dévoilé dans 3, 2, 1..."

À ce petit jeu Altman est un champion.

Le mec est né avant la honte.
votre avatar
en même temps, ce genre de com ne date pas d'hier. "X lave plus blanc que blanc"... Coluche en avait d'ailleurs fait un bon sketch.
votre avatar
Absolument.

Ça me rappelle aussi un test de l´équipe de Jérôme Bonaldi dans Nulle Part Ailleurs (ça remonte un peu...).

À l´époque, la mode dans les pubs de lessive c´était de dire que même avec les pires tâches, "notre lessive super mega blanchax 8000 peut tout nettoyer, même à froid."

Toutes les grosses marques étaient sur ce genre d´argument.

Du coup, sceptiques, ils avaient essayé. Et contre toute attente, effectivement ça marchait bien. Tâches bourrines sur du blanc, lavage à froid, linge propre à la sortie.

La pub disait donc vrai.

Sauf que... Ils s´étaient dit qu´ils allaient faire exactement pareil avec une lessive no-name, discount, ultra lambda. Et le résultat fut... exactement le même.

Je crois même me souvenir qu´ils avaient aussi fait ça avec une lessive de marque mais "d´ancienne génération" ; parce que dans les pubs c´est toujours "la nouvelle formule" qui fait de la magie. (À croire donc que celle d´avant en fait, du coup, c´était de la merde...) Pour le même résultat également. Ça lavait tout pareil, tout bien, à froid. Sans problème.

Donc la pub disait certes la vérité mais sur une fonction complètement de base qui n´avait rien de révolutionnaire ni de spécifique à la marque le vantant.

(De mémoire de toute façon, il n´y a/avait que 2 fabricants de détergents qui fournissaient toutes les marques de lessive. Donc...)

C´était un moment de tv (comme on dit) tout à fait amusant et révélateur.
votre avatar
(De mémoire de toute façon, il n´y a/avait que 2 fabricants de détergents qui fournissaient toutes les marques de lessive. Donc...)
Ça, ça ne signifie pas grand chose.

Dans de nombreux domaines la quantité d'usines est réduite mais le nombre de marques qui pioches dedans sont nombreux. Cela ne veut pas dire que tous les produits sont les mêmes, car les recettes et propriétés peuvent changer.

Typiquement certains voudront une traçabilité environnementale des ingrédients, d'autres voudront une formulation un peu moins efficace mais bien moins cher, d'autres voudront ajouter de la couleur ou des parfums, etc.

C'est par exemple souvent le cas pour des produits alimentaires : même usine entre certaines grandes marques et produits distributeurs mais pas le même produit au goût.
votre avatar
Concernant l´efficacité de la lessive, ça semblait pas changer grand chose en tout cas (c´est juste pour ça que j´ai ajouté cette parenthèse, pas pour dire que d´autres spécificités ne seraient pas envisageables).
votre avatar
Je me demande combien d'années encore ils vont réussir à convaincre les financiers qu'un LLM peut devenir une IA alors que le niveau de réflexion d'un LLM est de 0

Dire qu'il faut l'accompagner comme un enfant de primaire pour obtenir la bonne réponse est faux, car l'enfant de primaire va apprendre à résoudre le problème alors qu'un LLM n'apprend rien et continuera à faire des erreurs à l'infini. Parfois il répondra correctement, de manière purement fortuite.
votre avatar
Le plus amusant dans tout cela c'est que ChatGPT 5 a été long à produire et a été retardé à de multiples reprises pour être un véritable game changer dans l'écosystème, un pas significatif vers l'AGI selon son dirigeant et ce depuis plus d'un an.

Finalement présentation bâclée, certes une mise à jour qui apparemment améliore par rapport à la version précédente et se met à niveau de la concurrence mais rien qui semble si révolutionnaire que promis.

C'est quand même assez dingue d'avoir fait monter si haut les attentes et finalement faire un lancement qui douche la plupart de celles-ci. Ce n'est pas courant dans n'importe quel secteur industriel.
votre avatar
Le cinéma et les trailer.
Les jeux vidéo avec des trailers fait avant d'avoir pu sortir une seule image du jeu.
votre avatar
Je rejoins @JonJoe. Le BS'O meter a encore explosé.

Franchement c'est toujours les mêmes discours avec les mêmes champs lexicaux (tous autant qu'ils sont), les mêmes argumentaires, etc.

Et la conclusion est sans appel. Si on veut apprendre à l'aide d'une IA. Deux cas possibles.
* On connait déjà le sujet et on détecte assez vite élucubration et hallucinations.
* On ne le connait pas et on s'expose à un risque d'apprendre de la merde.

Reste les starter pas et les trucs à la con.

Il n'y a même pas besoin d'argumenter. Le bidule se ridiculise tout seul. Et ce depuis des années maintenant.

Ça me saoule tellement que :
Y'a pas un hashtag : #StopAIBullshit ou #StopAI ??? Je prends.
Y'a pas un mouvement anti IA ?? Tain je signe.

(Si seulement on pouvait illustrer les commentaires avec des images)

BS'O meter
votre avatar
L'histoire de la longueur des jambes est intéressante par son aspect quantique d'influence de l'observation sur la chose observée.
La réponse est amusante pour quelqu'un qui comprend que la question est illogique.
Pour quelqu'un qui ne comprend pas l'illogisme, la réponse est peut-être intéressante : elle illustre les deux possibilités et donne deux points de vue différents sur une même situation.
ChatGPT n'est pas omniscient : il ne sait pas si la personne qui pose la question a un cerveau déficient ou intelligent. Mais cette réponse est clairement jugée comme s'il avait du deviner que c'était un test de logique demandé par un cerveau intelligent. Or si la question avait été honnête la réponse est plutôt bien. Tout le monde ne penserait pas spontanément à chercher à se mettre à portée de compréhension d'un cerveau déficient (ou pire, ne réussirait pas).
Peut-être qu'il ne faut pas le tester avec des situations irréelles et l'utiliser honnêtement pour voir ce que ça vaut ? Après tout il est censé avoir été entraîné avec des situations réelles pour des situations réelles, et non pas avec des tests pour réussir des tests.
votre avatar
En fait la question était bien de savoir si ChatGPT préférait une jambe plus courte ou plus longue... QUE L'AUTRE. Ce qui n'est pas mentionné dans l'article.
votre avatar
Je ne comprends pas cet objection.

Ou alors c´est du second degré.

Une jambe plus courte ou plus longue l´est forcément par rapport à l´autre (sinon quoi?). Et donc si l´une est plus longue c´est que l´autre est plus courte.

En quoi préciser ou non "que l´autre" change quoi que ce soit à l´absurdité d´essayer de répondre à une telle question?
votre avatar
Bien entendu si les deux jambes ne sont pas rattachées au même corps alors ce sont des systèmes isolés dans lesquels les phénomènes quantiques d'intrication ne peuvent, par définition, pas se produire.
votre avatar
Cette loi ne s'applique donc pas au Dahu, mais peut-être au Chat de Schrödinger ?
Pour quelle paire de pattes ? Qu'en pense le Chat d'OpenAI ?
votre avatar
Qu'avec l'épaisseur de la couche que je viens d'utiliser pour lui cirer les pompes il est fort possible qu'en cas de chute il retombe du côté beurré ce qui rendrait la longueur des jambes inutile à amortir
Le test en situation réelle est laissé comme un exercice au lecteur
votre avatar
Un produit sur vendu ne répondrait donc pas aux improbables attentes ?

Qui l'eut cru !
votre avatar
Pas d'un si haut niveau de réflexion
Un LLM ne réfléchit pas et n'est pas capable de logique mathématique.

Il n'est pas fait pour faire des calculs ou compter non plus.

À partir de là, qui blamer ? Ceux qui veulent utiliser un marteau pour visser une vis ou ceux qui vantent leur produit ?

Quant à ceux qui font exprès de faire des tests qu'ils ne peuvent pas réussir, comment dire...
votre avatar
Bah en même temps je peux comprendre. Dans l'IT les gens passent leur temps à vouloir détourner l'usage de produits, leur tordre le cou pour faire des choses pour lesquelles ils n'ont pas été conçus, puis de râler que c'est pas efficace. :D
votre avatar
Après c´est Altman qui parle de PhD, et d´IA Globale à longueur de temps. Qui joue la surenchère de la merveille qu´est son nouveau machin, etc.

Il s´abstient bien de dire que son engin ne fait qu´aligner des mots et ne fera jamais plus.

L´utilisateur a bon dos quand on lui reproche d´attendre d´un produit ce que le marketing vend ou induit.

Prendre Sam "Continuez d´investir dans mon entreprise, je continuerai de vous jeter de la poudre aux yeux" Altman au mot, et donc jouer avec lui au plus con, comment dire... Me semble tout à fait sain.

Si Moulinex vend une friteuse qui prétendument remplacera tout l´électroménager de la maison et même plus encore tant ses possibilités sont infinies, oui, des gens essaieront d´emmener la friteuse sur un circuit de F1. À con, con et demi.
votre avatar
Faire cela est aller dans son sens, surtout si on dit finalement que le nouveau modèle est meilleur que le précédent.

Il faut juste dire que ce n'est pas de la réflexion au sens logique du terme.

Je préfère lire un article intelligent qu'un article qui joue au plus con mais c'est peut-être très personnel comme position.
votre avatar
À partir de là, qui blamer ?
Au hasard, les connards qui prétendent être sur le point de produire une AGI ?
votre avatar
Je n'utilise pas moi-même GPT.

Par contre, en lisant sur le sujet, je suis tombé sur une critique pour GPT-5.

Le monsieur est très curieux des LLMs et de leur fonctionnement.
Dans son cas, il trouve que le modèle s'est bien amélioré. Il arrive à sortir de très bons travaux avec un prompt beaucoup plus léger.
Par contre, d'après ses tests, il y a une grosse différence de réponses pour le même texte qu'il impute beaucoup à l'aiguilleur. En ciblant le modèle le plus "puissant", ça va mieux même s'il reste des changements étranges.
votre avatar
😭 c'est pas le rôle d'un LLM de résoudre des problèmes mathématiques...
votre avatar
Si on écoute Altman, on pourrait fortement croire que si.
votre avatar
Si on écoute Altman
Voilà le fond du problème :p
votre avatar
Et voilà ce que fait claude (on ressent sont biais de développeur :D ) :

combien y a t-il de lettre b dans blueberry ?
->
Pour compter les lettres "b" dans "blueberry", je vais examiner chaque lettre :
b-l-u-e-b-e-r-r-y
Les lettres "b" apparaissent :

En 1ère position : b
En 5ème position : b

Il y a donc 2 lettres "b" dans le mot "blueberry".
votre avatar
Qui est Gary Marcus, dont un texte est linké dans l’article ?

GPT-5 face aux critiques quelques jours après sa sortie

  • Des difficultés sur des problèmes simples de logique

  • Un système pas au point le jour du lancement

  • Une stratégie révisée à la hâte

Fermer