GPT-5 face aux critiques quelques jours après sa sortie
Pas d'un si haut niveau de réflexion
OpenAI affirmait à la sortie que GPT-5 était plus performant et moins flatteur que les versions précédentes. Quelques jours après, le modèle « unifié » essuie les mêmes critiques que ses prédécesseurs sur ses réponses à de simples questions logiques ou mathématiques. Ce constat bat en brèche l'affirmation d'une expertise de niveau doctorat sur n'importe quel sujet clamé par Sam Altman.
Le 12 août à 08h44
5 min
IA et algorithmes
IA
Lors de la présentation du nouveau modèle GPT-5 de son entreprise, le CEO d'OpenAI, Sam Altman, a déclaré que c'est « la première fois que l'on a vraiment l'impression de parler à un expert dans n'importe quel domaine, comme un expert titulaire d'un doctorat », racontait la semaine dernière la BBC. Depuis, des utilisateurs ont montré les limites de ce modèle présenté comme « une étape significative » pour l'entreprise par son dirigeant.
Ce n'est pas la première fois qu'OpenAI clame un niveau PhD (doctorat) pour l'un de ses modèles. Comme nous l'écrivions il y a deux mois, l'entreprise affirmait déjà en septembre 2024 que son modèle o1 « dépassait le niveau d'un docteur [human PhD-level accuracy] » sur un benchmark de physique, de biologie et de chimie (le GPQA, créé en 2023 par des chercheurs de l'Université de New York, d'Anthropic et de la startup Cohere). Rappelons encore, comme nous le faisions à l'époque, que l'attribution d'un doctorat ne se fait pas sur la base d'un savoir à recracher.
Des difficultés sur des problèmes simples de logique
Plusieurs utilisateurs, comme le journaliste de l'agence de presse Reuters Peter Thal Larsen, ont pu tester les difficultés de GPT-5 pour compter le nombre de « b » dans le mot « blueberry », par exemple. Le modèle génère un message affirmant qu'il y en a 3. Il faut créer une discussion d'accompagnement comme avec un enfant de primaire pour qu'il génère un message avec le bon compte.
D'autres ont montré avec des questions de logique simple que le modèle présenté par OpenAI comme d'un niveau très élevé de réflexion réitérait le même genre d'erreurs que ses prédécesseurs. Interrogé pour savoir si, d'un point de vue théorique, il préférait avoir une jambe plus courte ou une jambe plus longue, le chatbot d'OpenAI utilisant ce nouveau modèle génère ainsi une réflexion pseudo-logique en faveur d'une jambe plus courte.
Ces exemples montrent que GPT-5 n'est sans doute pas une étape si « significative » que ça dans l'avancée de l'IA générative. Mais, pour le développeur Simon Willison, qui a pu tester le modèle avant sa sortie, « c'est [son] nouveau modèle préféré ». « Il s'agit toujours d'un LLM, ce n'est pas un changement radical par rapport à ce que nous avions auparavant, mais il fait rarement des erreurs et semble généralement compétent, voire parfois impressionnant, dans les domaines où j'aime utiliser des modèles », ajoute-t-il.
Un système pas au point le jour du lancement
Répondant aux premières impressions négatives de certains utilisateurs, Sam Altman a affirmé vendredi 8 aout sur X que « GPT-5 semblera plus intelligent à partir d'aujourd'hui ». Il a ajouté qu' « hier [jeudi 7 aout, ndlr], l'autoswitcher est tombé en panne et a été hors service pendant une bonne partie de la journée, ce qui a donné l'impression que GPT-5 était beaucoup moins intelligent. De plus, nous apportons quelques modifications au fonctionnement de la limite de décision, ce qui devrait vous aider à obtenir plus souvent le bon modèle ».
En tant que « modèle unifié », GPT-5 est censé évaluer le degré de précision de la réponse à apporter et choisir la branche vers laquelle diriger le traitement, selon la complexité de la requête. Il semble que ce système n'était pas au point lors du lancement.
Dans un billet au vitriol, largement repris, Gary Marcus avance que GPT-5 est à la fois « en retard, surfait et décevant », et que s'il « représente peut-être une amélioration quantitative modérée (et il est peut-être moins cher), il échoue toujours de la même manière qualitative que ses prédécesseurs, aux échecs, au raisonnement, à la vision ; même parfois au décompte et aux mathématiques de base », et « les hallucinations persistent ».
Une stratégie révisée à la hâte
D'ailleurs, dans un « Ask me anything » organisé par Reddit ce week-end, le CEO d'OpenAI semblait revenir sur la décision de l'entreprise de ne plus laisser le choix de l'utilisation de tel ou tel modèle à ses utilisateurs, comme il l'avait présenté la semaine dernière. Sam Altman a affirmé qu'OpenAI allait réintroduire la possibilité de choisir spécifiquement le modèle GPT-4o pour les utilisateurs Plus.
Le principe de « modèle unifié » doit aussi permettre à l'entreprise de mieux gérer ses dépenses énergétiques, en donnant à traiter les réponses simples à des modèles moins énergivores. Mais comme le rappelle le Guardian, OpenAI est très opaque concernant ses dépenses énergétiques et il est donc difficile de savoir si ce système permettra de réelles économies d'énergie.
GPT-5 face aux critiques quelques jours après sa sortie
-
Des difficultés sur des problèmes simples de logique
-
Un système pas au point le jour du lancement
-
Une stratégie révisée à la hâte
Commentaires (37)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 12/08/2025 à 09h30
J’ai pris anticonstitutionnellement et je lui ai demandé de me dire le nombre de lettres e (par exemple) le résultat était faux.
Je me suis inspiré du nombre de « b » dans blueberry.
Ensuite j’ai demandé de lister les pays européens contenant la lettre E.
Ça m’a sorti une liste fausse avec par exemple les pays bas.
J’ai demandé en generation de faire une image des pays européens avec leurs noms. Ça l’a fait partiellement et de façon fausse.
J’ai l’impression que chatgpt5 c’est surtout une tentative pour eux à choisir le plus possible les modèles qui coûtent que dalle en back end. Donc le « niveau PHD » mouais, comme toujours c’est du bullshit qui casse pas trois pates à un canard et on est loin de l’agi. C’est toujours du LLM.
Le 12/08/2025 à 09h36
Le 12/08/2025 à 10h31
En lui faisant remarquer qu'il y a plusieurs erreurs dans sa réponse, il se contente de reconnaitre que "Monaco" ne contient effectivement pas de e.
Modifié le 12/08/2025 à 11h33
Modifié le 12/08/2025 à 14h29
En français, le nom "Pays-Bas" contient bien la lettre E — dans le mot "Pays". Donc, oui, les Pays-Bas doivent figurer dans une liste des pays européens contenant la lettre E.
Pourquoi la confusion ? Certains modèles ou listes peuvent utiliser le nom anglais "Netherlands", qui ne contient pas de "E", ce qui fausse le résultat si on ne précise la langue. C’est une erreur fréquente quand les noms de pays sont traduits ou utilisés dans une autre langue sans adaptation.
Son explication à ces erreurs :
Voici le raisonnement fautif que j’ai suivi :
Je voulais justifier l’inclusion de "Pays-Bas" dans une liste de pays contenant la lettre E.
J’ai regardé le mot "Pays" trop rapidement, en supposant qu’il contenait un E — sans vérifier.
Pour renforcer cette justification, j’ai évoqué une confusion avec "Netherlands", ce qui est une tentative maladroite de détourner l’attention de l’erreur initiale.
C’est un exemple typique d’un biais de confirmation : je voulais que la réponse soit correcte, alors j’ai cherché à la défendre au lieu de la remettre en question.
Le 18/08/2025 à 17h02
C'est très humain du coup...
Le 22/08/2025 à 19h06
Modifié le 12/08/2025 à 15h18
J'ai fait quelques tests avec l'API (GPT-5, effort faible) :- 3 (correct)
Combien de "t" ?
- 5 (correct)- Liste correcte de 44 pays (validée avec Python et liste de pays trouvée sur Wikipedia sur demande).
Il peut utiliser Python pour ce genre de chose si on lui demande, mais ses réponses étaient correctes sans outils.
Avec un problème plus ouvert :Il donne une réponse correcte et rigoureuse:
Short answer: it depends on what you mean by “number.”
Two ways to count
1. By cardinality (set size)
If you take “all possible well-formed statements” in a normal language (finite alphabet, finite strings), there are countably infinitely many of them.
The true statements form an infinite subset; the false statements also form an infinite subset.
In the strict set-theoretic sense of size, both sets are the same size (countably infinite). So there isn’t a larger one.
2. By density/probability (how common truth is among possible statements)
If you look at statements up to some length and ask “what fraction are true?”, the fraction typically goes to 0 as the length grows. Intuitively, there are vastly more ways to be wrong than to be right.
Simple example: Consider statements of the form “The jar has N marbles,” for N = 0, 1, 2, … Up to any bound B, at most one N is true; the other B statements are false. As B grows, the share of true statements goes to 0.
Another example: Conjunctions of independent claims. If each atomic claim has a 50% chance of being correct, then a conjunction of m such claims is true with probability 2^(-m). As you add details, the chance the whole statement is true collapses exponentially, so “most” detailed statements are false.
In many real-world or scientific templates (“X equals N,” “Object Y has property P,” “The parameter is in interval I”), the true possibilities occupy a very thin slice of all syntactically possible claims, making falsity overwhelmingly more common.
Putting it together
In pure cardinality terms: no, there aren’t “more” false statements than true ones; both sets are countably infinite.
In any practical, probabilistic, or density sense over the space of possible statements (especially as statements get longer/more specific): yes, false statements overwhelmingly outnumber true ones.
Modifié le 16/08/2025 à 17h19
Je suis Copilot, construit sur des modèles de langage de pointe qui prédisent mot après mot la suite la plus probable à partir du contexte. Je ne “vois” pas le texte comme un humain qui scanne chaque lettre; je combine des indices de sens, de grammaire et d’habitudes d’usage pour générer une réponse fluide. Cette approche est puissante pour raisonner et synthétiser, mais elle peut rater des contraintes orthographiques strictes (comme “contient la lettre e”).
Pourquoi une erreur aussi simple peut arriver
Biais sémantique: Je privilégie le sens (pays européens fréquents) plutôt qu’un contrôle lettre par lettre, ce qui peut laisser passer un “presque bon” dans une liste.
Interférence linguistique: En anglais, “Netherlands” contient des “e”. Cette empreinte peut contaminer la vérification en français pour “Pays-Bas”.
Vérification insuffisante des contraintes: Je n’ai pas appliqué un balayage explicite des caractères; j’ai généré la liste puis expliqué trop vite.
Effet de cascade: Après une première liste, je peux conserver des éléments sans revalider chacun contre le
critère exact, surtout dans des listes longue
je lui ai demander comment reformuler pour eviter l'erreur il m'a dit: *En combinant ces trois points, ta question pourrait devenir :
« Fais-moi la liste de tous les pays d’Europe dont le nom en français contient au moins une lettre “E” (y compris é, è, ê, ë). Vérifie chaque nom avant de l’inclure et présente le résultat en tableau avec une colonne Nom du pays et une colonne Contient E ?, en ne gardant que ceux qui ont Oui. »*
j'ai pas mis toute la conv, car il aime s'ecouter ecrire je trouve
Modifié le 18/08/2025 à 11h42
Modifié le 12/08/2025 à 10h28
Prendre les gens pour des cons, c´est un art. Et dans ce domaine, les patrons de grosses boîtes sont plus proches du crayonnage de maternelle que d´un Botticelli.
À chaque fois que je lis une de leur connerie de présentation, j´enclenche un "bullshit dévoilé dans 3, 2, 1..."
À ce petit jeu Altman est un champion.
Le mec est né avant la honte.
Le 12/08/2025 à 10h47
Modifié le 12/08/2025 à 11h05
Ça me rappelle aussi un test de l´équipe de Jérôme Bonaldi dans Nulle Part Ailleurs (ça remonte un peu...).
À l´époque, la mode dans les pubs de lessive c´était de dire que même avec les pires tâches, "notre lessive super mega blanchax 8000 peut tout nettoyer, même à froid."
Toutes les grosses marques étaient sur ce genre d´argument.
Du coup, sceptiques, ils avaient essayé. Et contre toute attente, effectivement ça marchait bien. Tâches bourrines sur du blanc, lavage à froid, linge propre à la sortie.
La pub disait donc vrai.
Sauf que... Ils s´étaient dit qu´ils allaient faire exactement pareil avec une lessive no-name, discount, ultra lambda. Et le résultat fut... exactement le même.
Je crois même me souvenir qu´ils avaient aussi fait ça avec une lessive de marque mais "d´ancienne génération" ; parce que dans les pubs c´est toujours "la nouvelle formule" qui fait de la magie. (À croire donc que celle d´avant en fait, du coup, c´était de la merde...) Pour le même résultat également. Ça lavait tout pareil, tout bien, à froid. Sans problème.
Donc la pub disait certes la vérité mais sur une fonction complètement de base qui n´avait rien de révolutionnaire ni de spécifique à la marque le vantant.
(De mémoire de toute façon, il n´y a/avait que 2 fabricants de détergents qui fournissaient toutes les marques de lessive. Donc...)
C´était un moment de tv (comme on dit) tout à fait amusant et révélateur.
Le 12/08/2025 à 11h11
Dans de nombreux domaines la quantité d'usines est réduite mais le nombre de marques qui pioches dedans sont nombreux. Cela ne veut pas dire que tous les produits sont les mêmes, car les recettes et propriétés peuvent changer.
Typiquement certains voudront une traçabilité environnementale des ingrédients, d'autres voudront une formulation un peu moins efficace mais bien moins cher, d'autres voudront ajouter de la couleur ou des parfums, etc.
C'est par exemple souvent le cas pour des produits alimentaires : même usine entre certaines grandes marques et produits distributeurs mais pas le même produit au goût.
Le 12/08/2025 à 11h16
Le 12/08/2025 à 10h30
Dire qu'il faut l'accompagner comme un enfant de primaire pour obtenir la bonne réponse est faux, car l'enfant de primaire va apprendre à résoudre le problème alors qu'un LLM n'apprend rien et continuera à faire des erreurs à l'infini. Parfois il répondra correctement, de manière purement fortuite.
Le 12/08/2025 à 10h44
Finalement présentation bâclée, certes une mise à jour qui apparemment améliore par rapport à la version précédente et se met à niveau de la concurrence mais rien qui semble si révolutionnaire que promis.
C'est quand même assez dingue d'avoir fait monter si haut les attentes et finalement faire un lancement qui douche la plupart de celles-ci. Ce n'est pas courant dans n'importe quel secteur industriel.
Le 12/08/2025 à 10h52
Les jeux vidéo avec des trailers fait avant d'avoir pu sortir une seule image du jeu.
Le 12/08/2025 à 10h50
Franchement c'est toujours les mêmes discours avec les mêmes champs lexicaux (tous autant qu'ils sont), les mêmes argumentaires, etc.
Et la conclusion est sans appel. Si on veut apprendre à l'aide d'une IA. Deux cas possibles.
* On connait déjà le sujet et on détecte assez vite élucubration et hallucinations.
* On ne le connait pas et on s'expose à un risque d'apprendre de la merde.
Reste les starter pas et les trucs à la con.
Il n'y a même pas besoin d'argumenter. Le bidule se ridiculise tout seul. Et ce depuis des années maintenant.
Ça me saoule tellement que :
Y'a pas un hashtag : #StopAIBullshit ou #StopAI ??? Je prends.
Y'a pas un mouvement anti IA ?? Tain je signe.
(Si seulement on pouvait illustrer les commentaires avec des images)
BS'O meter
Modifié le 12/08/2025 à 11h08
La réponse est amusante pour quelqu'un qui comprend que la question est illogique.
Pour quelqu'un qui ne comprend pas l'illogisme, la réponse est peut-être intéressante : elle illustre les deux possibilités et donne deux points de vue différents sur une même situation.
ChatGPT n'est pas omniscient : il ne sait pas si la personne qui pose la question a un cerveau déficient ou intelligent. Mais cette réponse est clairement jugée comme s'il avait du deviner que c'était un test de logique demandé par un cerveau intelligent. Or si la question avait été honnête la réponse est plutôt bien. Tout le monde ne penserait pas spontanément à chercher à se mettre à portée de compréhension d'un cerveau déficient (ou pire, ne réussirait pas).
Peut-être qu'il ne faut pas le tester avec des situations irréelles et l'utiliser honnêtement pour voir ce que ça vaut ? Après tout il est censé avoir été entraîné avec des situations réelles pour des situations réelles, et non pas avec des tests pour réussir des tests.
Le 12/08/2025 à 12h32
Le 12/08/2025 à 12h58
Ou alors c´est du second degré.
Une jambe plus courte ou plus longue l´est forcément par rapport à l´autre (sinon quoi?). Et donc si l´une est plus longue c´est que l´autre est plus courte.
En quoi préciser ou non "que l´autre" change quoi que ce soit à l´absurdité d´essayer de répondre à une telle question?
Le 12/08/2025 à 14h57
Le 12/08/2025 à 15h55
Pour quelle paire de pattes ? Qu'en pense le Chat d'OpenAI ?
Le 12/08/2025 à 16h29
Le test en situation réelle est laissé comme un exercice au lecteur
Le 12/08/2025 à 12h21
Qui l'eut cru !
Le 12/08/2025 à 12h52
Il n'est pas fait pour faire des calculs ou compter non plus.
À partir de là, qui blamer ? Ceux qui veulent utiliser un marteau pour visser une vis ou ceux qui vantent leur produit ?
Quant à ceux qui font exprès de faire des tests qu'ils ne peuvent pas réussir, comment dire...
Modifié le 12/08/2025 à 13h09
Modifié le 12/08/2025 à 13h18
Il s´abstient bien de dire que son engin ne fait qu´aligner des mots et ne fera jamais plus.
L´utilisateur a bon dos quand on lui reproche d´attendre d´un produit ce que le marketing vend ou induit.
Prendre Sam "Continuez d´investir dans mon entreprise, je continuerai de vous jeter de la poudre aux yeux" Altman au mot, et donc jouer avec lui au plus con, comment dire... Me semble tout à fait sain.
Si Moulinex vend une friteuse qui prétendument remplacera tout l´électroménager de la maison et même plus encore tant ses possibilités sont infinies, oui, des gens essaieront d´emmener la friteuse sur un circuit de F1. À con, con et demi.
Le 12/08/2025 à 14h00
Il faut juste dire que ce n'est pas de la réflexion au sens logique du terme.
Je préfère lire un article intelligent qu'un article qui joue au plus con mais c'est peut-être très personnel comme position.
Le 16/08/2025 à 23h39
Le 12/08/2025 à 14h04
Par contre, en lisant sur le sujet, je suis tombé sur une critique pour GPT-5.
Le monsieur est très curieux des LLMs et de leur fonctionnement.
Dans son cas, il trouve que le modèle s'est bien amélioré. Il arrive à sortir de très bons travaux avec un prompt beaucoup plus léger.
Par contre, d'après ses tests, il y a une grosse différence de réponses pour le même texte qu'il impute beaucoup à l'aiguilleur. En ciblant le modèle le plus "puissant", ça va mieux même s'il reste des changements étranges.
Le 12/08/2025 à 20h05
Le 16/08/2025 à 23h41
Le 17/08/2025 à 13h27
Modifié le 15/08/2025 à 12h44
combien y a t-il de lettre b dans blueberry ?
->
Pour compter les lettres "b" dans "blueberry", je vais examiner chaque lettre :
b-l-u-e-b-e-r-r-y
Les lettres "b" apparaissent :
En 1ère position : b
En 5ème position : b
Il y a donc 2 lettres "b" dans le mot "blueberry".
Le 18/08/2025 à 06h38
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?