Premier modèle unifié d’OpenAI, GPT-5 se veut plus performant et moins flatteur

The next big thing, again

Vincent Hermann

Le 08 août 2025 à 10h59

GPT-5 est là, après une attente de plusieurs mois et de nombreuses rumeurs. Premier modèle unifié d’OpenAI, il affiche de grandes ambitions et veut mettre tout le monde d’accord. Selon l’entreprise, il est le meilleur partout, se trompe moins et est plus sobre.

Premier modèle unifié d’OpenAI, GPT-5 se veut plus performant et moins flatteur

The next big thing, again

Vincent Hermann

Le 08 août 2025 à 10h59

IA et algorithmes

9 min

Le nouveau modèle phare d’OpenAI a été présenté hier soir. GPT-5 est le premier modèle unifié de la société : il combine les réponses rapides habituelles de la série GPT aux capacités de raisonnement des modèles o. La présentation de l’entreprise fait la part belle aux superlatifs, le nouveau modèle devrait marquer le début d’une nouvelle ère pour OpenAI.

Un modèle unifié

En tant que modèle unifié, GPT-5 doit décider de lui-même quel degré de précision apporter aux réponses. Cette évaluation doit déboucher sur le choix de la branche vers laquelle diriger le traitement, selon la complexité de la requête. Ce fonctionnement est valable pour l’intégralité des demandes, GPT-5 se voulant le modèle à tout faire d’OpenAI, que ce soit pour des questions d’ordre général, de la génération de code ou de l’analyse de fichiers multimédia, le modèle acceptant à peu près tout en entrée.

Durant la présentation, Sam Altman n’a pas hésité à qualifier GPT-5 de « meilleur modèle au monde ». Il représente « une étape significative » pour l’entreprise dans sa quête d’une intelligence artificielle générale (AGI).

Et pour s’assurer que le modèle fasse la différence, il est disponible pour l’ensemble des utilisateurs, gratuits ou payants, même si les fonctions les plus avancées sont réservées – sans surprise – aux comptes payants. GPT-5 est en effet disponible en versions basique et Pro, la seconde étant réservée aux détenteurs d’un abonnement. À noter que les capacités de « raisonnement », sont disponibles dans les deux versions, mais que leur usage est limité en version gratuite.

OpenAI vante les performances de son modèle

L’entreprise affirme que GPT-5 fait mieux que tous les concurrents, y compris les modèles d’Anthropic dans des domaines comme le développement logiciel, d’ordinaire la chasse gardée de l’IA Claude. Sam Altman évoque même des « performances de pointe », surpassant les autres modèles sur l’ensemble des benchmarks. La version Pro du modèle affiche systématiquement de meilleurs résultats que le GPT-5 de base.

Sur le test AIME 2025 de mathématiques par exemple, GPT-5 affiche dans sa version classique un score de 61,99 %, tandis que la mouture Pro grimpe à 96,7 %. Si on lui adjoint Python et que l’on active le raisonnement, les chiffres s’envolent respectivement à 99,6 et 100 %. Sur le test Humanity’s last exam, réputé difficile, les scores vont de 6,3 à 42 %, s’étalant de la version basique à la version Pro avec Python et la recherche avec liste de blocage. Sur ce test, il n’est dépassé que par Grok4 Heavy de xAI, qui a atteint 44,4 %.

Sur le développement, où OpenAI est attendue au tournant, le nouveau modèle affiche un score SWE-benchmark Verified de 74,9 % avec raisonnement. C’est légèrement supérieur à Opus 4.1 (74,5), lancé il y a quelques jours à peine. Ce qui permet en théorie à OpenAI de faire au moins jeu égal avec Anthropic dans un domaine vu comme très porteur, notamment car il alimente le « vibe coding », au cœur de nombreuses attentions.

Les performances sont également visibles dans le temps de traitement. Selon OpenAI, les raisonnements de GPT-5 sont « plus rapides et plus efficaces ». Dans ce mode, les performances du nouveau modèle dépassent celles d’o3 en utilisant 50 à 80 % de jetons de moins en sortie, sur toutes les capacités. En clair, GPT-5 doit faire mieux, en moins de temps et pour moins cher.

GPT-5 est moins « flagorneur »

OpenAI assure que son nouveau modèle est « moins agréable ». L’affirmation peut paraitre étonnante, mais l’entreprise a constaté une certaine lassitude dans le ton des réponses données. Elles flattent souvent l’utilisateur, par exemple en affirmant que les questions posées sont très pertinentes, ou en répondant à l’utilisateur qu’il a « tout à fait raison » à la suite d’une remarque. « Cela devrait ressembler moins à « parler à l’IA » qu’à discuter avec un ami utile doté d’une intelligence de niveau doctorat », vante OpenAI.

GPT-5 se veut donc moins flatteur, plus direct et sobre, tout en utilisant moins d’emojis « inutiles ». Le « taux de flagornerie », mesuré par OpenAI, serait ainsi passé de 14,5 à moins de 6 %.

Cette ambiance générale peut se compléter avec quatre nouveaux modes pour modifier le ton des réponses : Cynic, Robot, Listener et Nerd. En fonction du mode choisi, le style des réponses évoluera, se fera plus ou moins plaisant, Cynic pouvant parfois se montrer piquant dans ses réponses, là où Listener (Attentionné) sera plus doux. Ces « personnalités » sont disponibles en options et désactivées par défaut.

Parmi les nouvelles fonctions, on note aussi un mode « Thinking », censé pousser plus loin encore les capacités de GPT-5, même avec raisonnement. Pensé pour la sécurité, ce mode permet d’allouer des capacités supplémentaires aux requêtes. Il est présenté comme le mode de fonctionnement idéal pour les tâches requérant une grande précision, notamment les travaux scientifiques. Face à une question complexe, GPT-5 Thinking est censé répondre qu’il ne sait pas plutôt que de sortir une erreur ou halluciner la réponse. Cette fonction est disponible pour tous les comptes, mais son quota d’utilisation est beaucoup plus élevé sur les versions payantes.

Un effort sur la sécurité

En dehors des performances, la sécurité semble avoir été une préoccupation plus marquée d’OpenAI. Par exemple, sur les questions de santé, le test HealthBench Hard Hallucinations a montré que GPT-5 avec raisonnement n’hallucinait que 1,6 % du temps. Un score nettement inférieur à ceux obtenus auparavant par GPT-4o (12,9 %) et o3 (15,8 %). Sans réflexion, le score de GPT-5 remonte à 3,6 %. Bien que les scores baissent notablement, rappelons que les LLM peuvent produire des erreurs factuelles et que leurs résultats doivent être contrôlés, notamment sur des sujets aussi sensibles que la santé.

GPT-5 veut également marquer un tournant dans la manière dont la sécurité est abordée chez OpenAI. Selon l’entreprise, la formation à la sécurité était basée jusqu’ici sur le refus, donc sur une évaluation de la demande. Les résultats sont bons sur les requêtes ouvertement malveillantes, moins quand l’intention est plus diffuse. Selon OpenAI, cette approche était d’autant plus problématique dans des domaines « à double usage ». La virologie est citée en exemple, la demande pouvant émaner d’un professionnel pour des raisons légitimes ou d’un acteur malveillant.

GPT-5 se montre dorénavant moins catégorique, sauf pour les requêtes ouvertement malveillantes. En cas de refus, le modèle en expliquera les raisons. Pour le reste, il donnera « la réponse la plus utile lorsque cela est possible tout en restant dans les limites de sécurité ». OpenAI assure que cette approche plus nuancée – baptisée « safe-completion » – permet « une meilleure navigation dans les questions à double usage, une plus grande robustesse à l’intention ambiguë et moins de refus excessifs inutiles ».

Disponibilité et vent en poupe

La disponibilité de GPT-5 est immédiate pour l’ensemble des utilisateurs. Comme toujours, les personnes détentrices d’une formule payante ont des plafonds d’utilisation nettement plus élevés. En revanche, la version Pro du modèle est pour l’instant réservée aux comptes Pro, facturés 200 euros par mois. Dès la semaine prochaine, les formules Team, Edu et Enterprise basculeront toutes sur GPT-5 comme modèle par défaut. Apple, de son côté, a confirmé que GPT-5 serait utilisé comme modèle intégré pour les fonctions ChatGPT dans les nouvelles versions de ses systèmes à la rentrée.

Pour les développeurs, le nouveau modèle est proposé en trois versions : gpt-5, gpt-5-mini et gpt-5-nano. Plus le modèle est petit, moins il raisonne. L’API dispose également d’un paramètre pour régler le degré de « verbosité », permettant de faire varier la taille des réponses. Un changement qui peut paraître anodin, mais qui permet de contrôler le coût des réponses. Dans son modèle standard, GPT-5 affiche une tarification de 1,25 dollar par million de jetons en entrée et de 10 dollars par million de jetons en sortie.

Le lancement de ce modèle, particulièrement attendu, doit donc marquer une étape importante pour OpenAI. La société a d’ailleurs le vent en poupe actuellement, avec plusieurs nouvelles significatives en l’espace de quelques jours. Elle a ainsi lancé cette semaine ses premiers modèles « ouverts » depuis presque six ans, la série gpt-oss, capable de fonctionner localement (si la machine a assez de puissance).

IA

OpenAI lance deux modèles « ouverts » pour la première fois depuis 2019

IA

Mercredi 06 août 2025 à 16h14 06/08/2025 16h14

2

OpenAI a également annoncé un contrat triomphal pour sa renommée : ChatGPT va équiper l’intégralité de l’administration fédérale américaine. Ce contrat est limité pour l’instant à une seule année et ne va rapporter qu’un dollar symbolique à l’entreprise. Mais il s’agit clairement d’un investissement sur l’avenir, OpenAI espérant sans doute que l’administration ne pourra plus se passer de ses services, tout en s’attirant les bonnes grâces de Donald Trump.

Commentaires (50)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

Gilbert_Gosseyn Premium

Le 08/08/2025 à 11h20

Pour quel coût tant énergétique, ressources naturelles que social ?

RuMaRoCO Premium

Le 08/08/2025 à 11h30

La question est posée en mauvais moment.
Ce n'est pas l'outil qui est "bon" ou "mauvais", comme pour beaucoup d'autres c'est l'usage qu'on en fait.

Exemple exagéré expres mais qui peut faire comprendre ce j'entends par là.

L'eau dans une citerne de camion de pompier dans beaucoup de cas c'est de l'eau potable et pourtant, elle est bien utilisé pour autre chose que pour combattre la soif.

MisterDams Premium

Le 08/08/2025 à 13h40

Il est probable que GPT 5 fasse baisser les coûts énergétiques en pratique, puisqu'il adapte son degré de réflexion à la volée, alors qu'avant ceux qui bénéficiaient du modèle le plus puissant l'utilisaient à chaque question. Un peu comme un processeur en structure big.LITTLE qui bascule sur ses cores "Efficiency", ou une voiture qui désactive des cylindres, mais en version software.

Faut pas oublier que pour OpenAI aussi ça reste un sujet que de faire baisser la ~~facture d'électricité~~ consommation énergétique.

dematbreizh Premium

Le 08/08/2025 à 14h50

Question que ce posent les opposants à la course à l'espace.
Je ne dis pas que je suis fan du gaspillage actuel, mais limiter la réflexion aux résultats immédiat est tout aussi problématique que d'ignorer les gains scientifiques et technologiques indirects.

Renault Premium

Le 08/08/2025 à 15h00

Le soucis c'est que les LLM actuellement sont utilisés beaucoup pour des tâches qui sont souvent largement faisables sans ou avec des outils plus efficients. Donc se poser la question de l'optimisation des ressources est usage aujourd'hui est pertinent car on a déjà des problèmes actuellement pour limiter les dégâts environnementaux en cours.

Alors que les progrès substantiels dans la santé, l'environnement, etc. promis restent à prouver et ne semblent pas à portée à court terme et restent hypothétiques à long terme.

Perso cela ne me gène pas qu'il y ait de la recherche de pointe sur ces sujets, car si gain substantiel il y a c'est super. Je rapprocherais cela de la fusion nucléaire, on ignore si ça marchera mais ça vaut probablement le coup d'essayer. Mais cela ne doit pas servir d'excuse pour polluer avec des centrales à charbon à côté car de la recherche est en cours pour la fusion.

Alors qu'ici on survend ces technos dont la plupart des usages sont peu utiles voire nuisibles et on affiche avec fierté qu'on peut générer des starters pack avec. Super, ce n'est pas vraiment ce qui était la promesse initiale et on peut se poser la question de la pertinente de tout ceci et si ça vaut le coup avec une telle disponibilité.

touitboy

Le 10/08/2025 à 09h53

Le vrai sujet c’est que probablement personne sur ce forum n’est capable d’évaluer correctement le coût énergétique d’un token par rapport à celui d’une recherche Google ou celui, sans doute largement supérieur, à la lecture d’une vidéo en streaming.

Dans une économie de l’attention, peut être la génération de starters packs a gaspillé plus de ressources que ce qu’auraient fait d’autre les gens, peut être pas, on en sait rien.

Renault Premium

Le 10/08/2025 à 14h38

Mouais, "dire on ne sait rien" est bien pratique mais ce n'est pas vrai et avec un peu de raisonnement on peut même déduire des choses malgré le manque de transparence.

On a des infos dans ce genre d'articles aussi par exemple : https://www.technologyreview.com/2025/05/20/1116327/ai-energy-usage-climate-footprint-big-tech/

Déjà il y a eu des études relayées ici même de mémoire où globalement utiliser une IA type ChatGPT par rapport à un moteur de recherche c'est un ordre de grandeur plus élevés en terme de consommation. En même temps, c'est logique.

Un LLM qui fait des recherches utilise de fait un moteur de recherches, donc les impacts s'accumulent ;

Un LLM qui ne fait pas de recherches a quand même besoin de beaucoup de puissance de calcul avec peu ou pas de possibilités de mise en cache des résultats par rapport à un moteur de recherche classique le tout tournant sur des configs plus musclées -> plus consommateur en ressources.

Ensuite, raisonnons un petit peu autour de cette problématique.

Déjà les GAFAM diminuaient doucement leurs émissions et avaient un plan de neutralité carbone (contestable dans la méthodologie mais cela n'a pas d'importance dans le raisonnement). Bizarrement depuis l'avènement des LLM ils reviennent en catimini sur ces engagements et ces trajectoires avec justement des rebonds records. Chose qui n'est pourtant pas apparue par le passé avec le Cloud ou la VOD par exemple car souvent les gains énergétiques et d'optimisations ont contre balancé ces rebonds d'usage. Ici ce n'est pas le cas et c'est un signe fort qu'on est face à impact environnemental bien plus important qu'avant.

Par ailleurs, le manque de transparence est une information en soi. Si l'impact était nul, négligeable ou plus faible que des usages classiques des infrastructures des GAFAM, ils le crieraient sur tous les toits depuis le début. Ce serait du greenwashing à pas cher. Le fait qu'ils ne révèlent rien ou très peu pour la plupart est plutôt un indicateur que les données ne vont pas dans ce sens à l'heure où les enjeux environnementaux sont importants. C'est même pire, jusqu'ici les promesses environnementales sont hypothétiques, genre les LLM pourraient aider à résoudre les problèmes environnementaux. C'est peut être vrai, mais on n'en sait rien et cela traduit surtout qu'aujourd'hui ça n'aide pas, sinon ils le diraient déjà.

On peut le deviner par d'autres éléments. Tout d'abord un LLM ça tourne sur des configurations plus musclées qu'un serveur classique. Car en fait il faut un ordinateur comme les serveurs précédents mais aussi un gros GPU qui étaient souvent absent ou minimal. Et cela nécessite des racks qui consomment plus qu'avant. Serveurs qui sont moins mutualisés aussi, le LLM a besoin de beaucoup de mémoire et de puissance pour tourner ce qui réduit la consommation en parallèle où beaucoup d'usages des clouds sont largement parallélisable. C'est pourquoi d'ailleurs on a régulièrement des moments où les LLM sont en performances réduites car trop de charge, que les fournisseurs poussent des cas d'usage type "envoie ta requête, tu as la réponse dans 15 minutes" ou encore "prix réduit par token en heure creuse". Des logiques qui existaient moins avant car beaucoup d'usage sont finalement légers et plus limités par les latences d'entrées / sorties (réseau et disques) que de calcul et mémoire.

Cela se voit aussi par les annonces en investissements. On parle d'investissements faramineux bien au delà de ce qui a été consenti pour les infrastructures actuelles en si peu de temps. Et cet argent sert à... acheter des GPU qui vont vivre probablement peu de temps et qu'il faudra renouveler très régulièrement. Ce qui est consommateurs en ressources énergétiques mais aussi métaux, etc. Contrairement à un serveur de Google qui peut facilement être recyclé en interne ou externe pour d'autres usages facilement, ces GPU n'auront pas dans un tel volume une seconde vie, cela paraît très improbable car ces machines sont adaptés pour des besoins très spécifiques.

Les investissement dans l'énergie nucléaire ou d'autres grosses centrales est aussi plutôt inédit à cette échelle. Cela ressemble presque à des pratiques qu'on retrouve dans l'industrie lourde. Pour le Cloud ils n'avaient bizarrement pas besoin d'investir autant dans l'infrastructure énergétique autour de leurs data centers. Cela montre un changement d'échelle alors même que les LLM sont loin d'avoir autant d'utilisateurs que d'autres usages aujourd'hui.

Bref, je pense qu'on a au contraire suffisamment d'élément pour dire que le bilan environnemental de ces systèmes est médiocre, mais je suis pour évidemment plus de transparences acteurs sur ces sujets (comme d'autres, car le manque de transparence des LLM c'est à tous les étages). Et de la recherche indépendante.

touitboy

Le 10/08/2025 à 15h31

Je n’ai pas dit que ça ne consommait rien, mais que c’est difficile de comparer à ce qui est fait sans LLM, basé sur des technologies implantées avant que l’enjeu environnemental soit scruté comme il l’est aujourd’hui.
Si YouTube se lançait maintenant les questions sur la consommation des data centers de Google serait sans doute plus forte, surtout quand on voit les centaines de millions d’utilisateurs qui streament une vidéo pour juste écouter de la musique.

C’est également difficile au vu du gain de vitesse absolument abyssal sur certaines tâches, ou les LLM produisent en quelques minutes des jours/semaines/mois de travail traditionnel et dans ce cas il est certain que leur consommation est marginale.

Alors certes, la consommation d’un LLM pour produire une illustration de famille en style studio Ghibli est sans doute excessive, mais ces consommation même massives ne sont pas nécessairement démesurées, même en face de services informatiques différents.

touitboy

Le 10/08/2025 à 15h37

La nouveauté est effectivement qu’on peut potentiellement faire travailler des LLM « à l’infini » pour les spécialiser sur tel ou tel usage, et que dans ce cadre, la consommation est un enjeu de croissance et de compétitivité de ces sociétés, qui peuvent se faire dépasser par un conçurent même logiciellement moins bon juste via une consommation électrique supérieure.

Mais c’est la guerre du futur des grosses boites d’IA, ce n’est pas ce qui se passe dans l’immédiat. Et d’ailleurs c’est un sujet où la France leader de la production électrique nucléaire en Europe aura un atout non négligeable à jouer dans la guerre de croissance que se livreront les sociétés d’IA dans quelques années.

Et pour finir, des sujets de production d’électricité nucléaire dédiée aux gros data center existaient bien avant OpenAI, c’est juste que dans leur cas, c’est l’horizon de compétitivité.

Renault Premium

Le 10/08/2025 à 16h25

Si YouTube se lançait maintenant les questions sur la consommation des data centers de Google serait sans doute plus forte, surtout quand on voit les centaines de millions d’utilisateurs qui streament une vidéo pour juste écouter de la musique.

On peut déplorer le gâchis dans Youtube oui, l'un n'empêche pas l'autre, le but n'est pas de dire qu'il n'y a pas moyen de faire mieux ailleurs. Un peu comme le fait de déplorer la consommation abyssale d'un avion pour un trajet dispensable n'empêche pas de critiquer l'utilisation de yatch en même temps.

Je regrette par ailleurs que Youtube (et consorts) ne permette pas de couper le flux vidéo quand l'utilisateur n'en a pas besoin car seul le son l'intéresse.

Mais un serveur de Youtube peut desservir en simultané beaucoup d'utilisateurs car streamer de la vidéo c'est avant tout un problème de bande passante et de latence plus que de calcul ou de RAM. Tu peux facilement mettre en cache les vidéos les plus populaires, bouger certaines vidéos d'un datacenter à l'autre pour limiter les transferts intercontinentaux, etc.

Un LLM répond à des requêtes trop spécifiques et consomme trop de ressource sur une machine pour que cela soit possible. D'où les besoins massifs en GPU, serveurs et énergie car la mutualisation est plus basse. C'est la mutualisation qui a permis le développement du Cloud avec des infras à la demande qui limitent les besoins d'avoir énormément de machines pour gérer les pics d'utilisation car on peut lisser.

De même pour les machines, de part l'usage de modèles gourmands, il faut renouveler le matériel régulièrement et l'ancien devient obsolète. Un serveur qui fait du streaming toute la journée peut facilement tenir plus longtemps et peut facilement servir à une autre tâche en interne comme ailleurs. Des gros GPU comme ça qui ont quelques années ont moins de possibilités de reconversion ce qui génère une pollution importante.

C’est également difficile au vu du gain de vitesse absolument abyssal sur certaines tâches, ou les LLM produisent en quelques minutes des jours/semaines/mois de travail traditionnel et dans ce cas il est certain que leur consommation est marginale.

Les cas d'usage où le gain de temps est si important restent rares à ce jour, et quand je vois la majorité des usages dans mon entourage, le plus gros c'est pour des tâches qui :

Sont faisables avec un autre outil plus performant (genre recherche web classique, cas le plus courant de mon point de vue) ;

Ne l'auraient pas fait car le faire eux mêmes ou demander à quelqu'un est trop long / pénible / trop chers pour un besoin qui n'en mérite pas tant -> effet rebond avec création d'un besoin ;

Ne sont vraiment pas utiles (mode Ghibli, starters parks, créer des images juste pour jouer avec, etc.)

Bien sûr il y a des usages légitimes, qui ont même potentiellement un gain environnemental par rapport à des méthodes plus "traditionnelles". Mais ce n'est pas le cas d'usage dominant, et on peut le regretter que tout cet argent et énergie soit gaspillé.

Ce qui ne veut pas dire que les LLMs sont le seul domaine du numérique qui mérite une telle critique, mais il ne faut pas utiliser cela comme excuse pour ne pas questionner l'impact des LLMs. Comme pour tout le reste.

Et oui, on a quand même pas mal d'indices que l'impact environnemental de ces machines n'est pas un détail et que de fait leur usage devrait se faire avec parcimonie et non en mode "osef".

touitboy

Modifié le 10/08/2025 à 18h42

« Les cas d'usage où le gain de temps est si important restent rares à ce jour »

Non, clairement pas.

En vrai on est d’accord sur le fond. Je sous estime peut être la consommation réelle mais je pense que tu sous-estimes énormément les gains -monstrueux- de temps que font gagner les LLM, encore pire si tu code.

Renault Premium

Modifié le 10/08/2025 à 19h26

je pense que tu sous-estimes énormément les gains -monstrueux- de temps que font gagner les LLM, encore pire si tu code.

Tu parlais de quelques minutes d'usage d'un LLM pour des tâches allant à plus d'un mois pour un humain.

Avec le temps de vérification / correctifs nécessaires, et en conditions réelles d'utilisation, je ne vois pas vraiment de cas où un tel ratio existe de manière stable. Plusieurs minutes pour plusieurs heures ça se fait, plusieurs heures pour plusieurs jours de taff également, mais quelques minutes pour plusieurs semaines ou mois pas vraiment.

C'est d'ailleurs cohérent avec les benchmarks (qui valent ce qu'ils valent évidemment) où un LLM dépasse rarement les performances d'un humain à ce stade pour des tâches de longues haleines à partir d'une journée de travail.

Donc non je ne pense pas que je sous estime ces systèmes, j'ai lu pas mal de retours à ce sujet, les gains sont réels ou parfois mitigés (donc parfois positifs, parfois négatifs) selon les gens et domaines. Je n'ai pas vu de tels ratios.

Furanku Premium

Modifié le 10/08/2025 à 20h47

Je confirme ce point, utilisant différents LLM au quotidien pour mon boulot (dev) : en quelques minutes on gagne quelques heures, au max, de dev. En quelques heures, quelques jours au mieux. Mais ensuite on atteint un plateau.
Car il y a encore beaucoup de review, d'affinage etc à prévoir. Et arrive un moment où le LLM perd les pédales dans le contexte, ce qui oblige à démarrer un nouveau contexte (les 1M de tokens de contexte c'est surtout bon pour le marketing).

Et je rajoute que ce n'est pas la panacée en permanence. Ça excelle sur des tâches triviales, ça dépanne bien sur de la complexité et c'est un très bon canard (pour ceux qui connaissent).
Mais ce n'est pas non plus un miracle.

Encore cette semaine j'ai bossé sur une feature estimée à 50h de dev. On l'a tombé en 34h environ, avec l'aide d'OpenCode (et malgré quelques difficultés au démarrage).
C'est loin d'être négligeable. Mais nous sommes loin des quelques minutes pour plusieurs jours de gain.

touitboy

Modifié le 10/08/2025 à 23h23

Plus envie de débattre en asynchrone, trop long 🙃

Liam

Le 11/08/2025 à 03h25

Je sais que beaucoup de gens ne me croient pas, mais je constate la même chose que toi en traduction : ça dégrossit mais tu atteins vite un stade où tu n'arrives plus à affiner alors que le résultat n'est pas encore pro, et au final si tu essayes vraiment d'obtenir ce que tu veux en passant uniquement par le modèle, tu te retrouves à y passer autant de temps que si c'est un humain qui s'en charge.
Je ne suis même pas fan de l'approche hybride "il dégrossit, j'affine", parce qu'au final il conditionne tellement les choses dans sa manière de dégrossir que tu peux te retrouver bloqué, et obligé de tout recommencer (avec en plus le cerveau pollué par sa version).

Par contre, c'est un canard exceptionnel, et en cela, il représente un vrai gain de productivité. Mais c'est pas de la magie. Non il ne produit pas une traduction pro, prête à l'emploi, de 6000 mots (2-3 jours de boulot) en quelques secondes. Mais oui il fait gagner, peut-être, 20-30% de productivité sur la journée parce qu'au lieu de rester bloqué sur un passage, tu peux brainstormer avec lui sur la solution, que quand tu butes sur un mot, tu peux lui donner la définition et il te retrouve le mot, etc.

touitboy

Modifié le 22/08/2025 à 06h15

« Encore cette semaine j'ai bossé sur une feature estimée à 50h de dev. On l'a tombé en 34h environ, avec l'aide d'OpenCode (et malgré quelques difficultés au démarrage).
C'est loin d'être négligeable. Mais nous sommes loin des quelques minutes pour plusieurs jours de gain. »

En bien si, justement, très bel exemple.
La génération du code qui vous a fait gagner 16h elle a pris combien de temps ? Je pense que ce n’est même pas en minutes et elle vous a fait gagner 3/4 d’une journée.

Et encore je pense que c’est parce que le code est encore médiocre en sortie de LLM, sauf que ceux ci ne font que s’améliorer.
Bientôt vous verrez que le plus long sera la relecture, pas la correction.

C’est quand même assez dingue de m’expliquer que ces outils vous font gagner environ 30% de productivité mais qu’ils sont bof bof, 30% !!!!

touitboy

Modifié le 22/08/2025 à 06h14

Ci-joint un des articles que j’avais lu sur lequel je suis retombé qui explique que les LLM ne consomment déjà pas beaucoup plus qu’une recherche Google, aujourd’hui

https://3615vincent.com/chatgpt-consomme-autant-quune-recherche-google/

Google vient vient de publier un papier sur les résultats techniques de Gemini, la requête moyenne est passée chez eux à 0,24 Wh.

Twitter

En gros les modèles lourds consomment entre 0,3Wh et 0,2Wh et la consommation en locale des modèles légers passe entre 0,01 et 0,05 Wh

C’est déjà très très léger, on se rapproche de l’ordre de grandeur de la consommation de ton téléphone pour lire mon commentaire.

Écrire un texte avec chat GPT aujourd’hui est sans doute déjà moins energivore que de l’écrire soit même sur ordinateur.

Et ça c’est sans compter l’énergie humaine pour écrire ou lire les messages car si on veut vraiment rire, un humain c’est 100Wh, et certes on n’est pas rechargés avec une prise, mais ce qu’on mange aussi a un fort bilan carbone.

Renault Premium

Le 22/08/2025 à 09h10

Google vient vient de publier un papier sur les résultats techniques de Gemini, la requête moyenne est passée chez eux à 0,24 Wh.

C'est une requête moyenne, on voit bien dans les sources citées qu'avec les modèles de raisonnement cela augmente significativement et on pousse de plus en plus à s'en servir.

Notons également que les LLM dynamiquement comme lors de l'entrainement ont besoin des moteurs de recherche. Quand tu lances une requête et qu'ils doivent chercher sur Internet la réponse à ta demande, les deux usages se cumulent.

Ensuite il y a aussi le problème de l'effet rebond dont j'ai parlé. Le coût marginal d'une requête baisse, c'est bien, mais ça a plus d'utilisateurs qui font plus de choses avec donc la pollution globale augmente.

Il faut également tenir compte de l'infrastructure nécessaire qui tourne sans traiter de requêtes qui est aussi comme souvent surdimensionné pour absorber les pics.

Les concepteurs de ces IA ne construisent pas des data centers de plus en plus grands et de plus en plus chers pour le plaisir des yeux. C'est pour répondre à la demande de calcul supposé que ce soit pour l'entrainement comme pour l'inférence. Ces projets vont consommer beaucoup d'énergie directement et indirectement. Ce n'est pas un hasard si les émissions et la consommation électrique chez eux ont explosé et ont entrainé un recul de leurs objectifs environnementaux.

C'est la pollution globale qui compte, plus que le coût par requête unitaire.

Écrire un texte avec chat GPT aujourd’hui est sans doute déjà moins energivore que de l’écrire soit même sur ordinateur.

Pas forcément (dépend du nombre de requêtes nécessaires, des allers retours, de la préparation du prompt).

Ensuite le soucis c'est de voir le bilan de manière isolée.

Prenons un scénario où j'écris un message avec une IA à une connaissance (cas d'usage bidon mais c'est pour l'exemple). Le gain de temps de ChatGPT fait que je peux faire autre chose, comme regarder une série sur Netflix. Donc au lieu d'écrire le courriel qui consomme plus d'énergie en temps que tâche, utiliser ChatGPT + Netflix pour ce laps de temps peut avoir un bilan plus élevé.

C'est le cas pour tout, quand certains gagnent du temps avec leur IA, ils n'éteignent pas leur ordi pour autant ou n'arrêtent pas de faire des activités. Donc le bilan global pour la planète ne se résume pas au coût énergétique de la tâche elle même car en réalité les bilans s'additionnent.

Et ça c’est sans compter l’énergie humaine pour écrire ou lire les messages car si on veut vraiment rire, un humain c’est 100Wh, et certes on n’est pas rechargés avec une prise, mais ce qu’on mange aussi a un fort bilan carbone.

Tu vois ton raisonnement montre le problème que j'explicitais plus haut.

Que tu utilises une IA ou pas, tu as besoin de manger +/- la même chose chaque jour. Cela ne change absolument pas le bilan carbone d'y recourir de ce côté là.

bingo.crepuscule Premium

Modifié le 09/08/2025 à 01h43

Bizarrement, ceux qui mettent cet argument en avant (recevable, évidemment, tout doit être mis sur la table, comme n'importe quel autre sujet), se posent beaucoup moins de questions sur leur consommation de viande et produits laitiers, leurs véhicules/empreinte carbone, l'énergie grise de tout ce dont ils profitent, l'impact de leurs choix de consommation sur d'autres personnes, et sont très sélectifs, et clairement, partial.
Ne bossant plus dans l'informatique et étant un peu plus neutre et utilisateur de l'outil dans diverses situations, je dirais que bon nombre de gens ici, outre ce qu'ils estiment être une fumisterie (ce n'est pas de la vraie IA c'est vrai, et c'est perfectible) ont peur de cette concurrence et effets de bords. (Et à juste titre... Et il n'y a pas de réponse simple à ce sujet.)

SebGF Premium

Modifié le 09/08/2025 à 09h33

Pour ma part, j'ai l'impression qu'on a découvert l'impact environnemental de l'informatique avec l'IA (voire l'informatique tout court ainsi que la société humaine). Alors que la question de la construction des data centres lors de l'expansion du Cloud soulevait déjà des préoccupations en ce sens (construction, refroidissement, alimentation électrique), mais balec ça permettait de doom scroll sur twitter et regarder des vidéos de chat sur youtube.

fred42 Premium

Le 09/08/2025 à 09h51

J'ai quand même l'impression que l'IA change l'ordre de grandeur de l'impact environnemental de l'informatique.

Timanu69

Le 09/08/2025 à 10h22

"L’ENIAC est caractérisé particulièrement par sa grande taille. En effet, cette machine pesait 30 tonnes et occupait une surface d’environ 70 m2. Sa consommation électrique était estimée entre 150 et 200 kW. "
Une paille

SebGF Premium

Le 09/08/2025 à 10h32

C'est surtout que les grosses entreprises de la tech sont en mode "j'ai dépensé sans compter" et qu'elles s'en foutent de l'impact environnemental.

Je pense qu'on est plus sur un effet d'échelle causé par un engouement avec la folie des grandeurs qu'une réelle augmentation causée par la techno (ça reste des fermes de calcul comme ce qui permet aujourd'hui de s'insulter en temps réel à l'autre bout de la planète). Il ne faut pas oublier aussi le gouvernement US qui n'en a rien à foutre de l'écologie et ne limite donc pas ces ambitions.

bingo.crepuscule Premium

Le 09/08/2025 à 15h09

On en parle, du Bitcoin ?... 😅
Pas sûr que ce soit les mêmes qui critiquent cet aspect de l'IA aujourd'hui qui critiquaient la gabégie énergétique, que ce soit en consommation ou production des unités de calcul...

fred42 Premium

Le 09/08/2025 à 15h13

whataboutism !

Perso, je critique l'un come l'autre.

touitboy

Le 10/08/2025 à 09h54

Ce n’est pas du tout évident.
Passé la phase d’aprentissage, on voit que certains modèles tournent sur des configurations particulièrement légères.

bingo.crepuscule Premium

Modifié le 15/08/2025 à 13h46

Je pense qu'à ce niveau c'est le plus raisonnable, mieux vaut de petits modèles ultra spécialisés qui font les choses bien et mieux, que d'énormes modèles fourre-tout... Qui réclament des configurations complètement folles.
Typiquement pour l'assistance au développement, la compta, juridique, etc...

CharlesP. Premium

Le 08/08/2025 à 11h22

Ce contrat [...] ne va rapporter qu’un dollar symbolique à l’entreprise.

Ça va leur coûter littéralement des milliards et ne rien rapporter, alors qu'ils sont déjà en déficit monstrueux...
(pas du tout comparable avec Google ou Microsoft qui peuvent se permettre d'offrir des abonnements aux écoles et gouvernements puisqu'ils sont excédentaires de centaines de milliards)

Hâte que la bulle de l'IA éclate. Ça va pas être drôle pour tout le monde, mais on peut pas dire que ceux qui ont investi là-dedans ne le méritent pas.

treizarque Premium

Le 08/08/2025 à 11h27

Ne t'en fais pas, d'une façon ou d'une autre, ils trouveront un moyen de faire payer la facture à quelqu'un d'autre. La victime toute trouvée, ce sera le monsieur tout le monde qui va devoir se coltiner une inflation de dingue pour compenser ou qui devra faire des efforts pour combler le trou.

CharlesP. Premium

Le 08/08/2025 à 11h49

Oh, j'en suis pas certain, la bulle de l'IA ne touche que le numérique. Carrefour n'investit que peu dans l'IA.
Il y aura de l'inflation, mais sur les produits numériques surtout.

Et je suis bien content que l'Europe soit en retard sur l'IA bizarrement. C'est les US qui vont prendre le plus gros du souffle.

treizarque Premium

Le 08/08/2025 à 12h10

Pas de problème, Trumpinou augmentera les taxes sur nos produits pour combler le trou.

Freeben666 Premium

Le 08/08/2025 à 13h51

C'est comme un dealeur qui offre la première dose. Ça va leur couter un peu initialement, mais une fois le client accro ils vont se faire des gonades en or.

CharlesP. Premium

Le 08/08/2025 à 14h22

Hum, pas certain.
On parle d'une administration, si c'est gratuit c'est cool, mais si après un an le forfait passe à 2 milliards de dollars par an, ça risque de coincer...

L'IA coûte extrêmement cher, si OpenAI veut être rentable là-dessus, vu le nombre de requête que le pourcent de la population américaine qui est fonctionnaire peut représenter, on parle de plusieurs milliards de dollars.

Petit rappel que ChatGPT, Claude, Gemini et Le Chat sont des gouffres financiers pour ces entreprises-là, elles font le pari de brûler des centaines de milliards par an pour essayer de rendre "accro" des gens (et montrer qu'elles ont la plus grosse... base de données).
Sauf que quand les tarifs viendront coller au réel, personne n'utilisera plus un ChatGPT pour particulier à 300€/mois et pour entreprise plus cher qu'un salaire d'ingénieur.
Anthropic par exemple perds de l'argent sur un abonnement Claude Code, alors qu'ils sont à 200€ par mois.

Freeben666 Premium

Le 08/08/2025 à 14h49

Je ne me fais pas de souci pour eux.

Je doute qu'ils fassent beaucoup de vente directe à des particuliers dans le futur, mais je suis persuadé qu'ils seront intégrés dans énormément de produits (comme par exemple les smartphone, comme on peut le voir avec Apple).

Le gens utiliserons OpenAI/Anthropic/Mistral sans s'en rendre compte, et les boites s'arrangeront pour n'intégrer des requêtes IA que là où ça a une réelle valeur ajoutée.

Et en dehors de leurs services de ChatBot, ils ont des assets qui ont bien plus de valeur : les modèles qu'ils ont entrainés, l'expertise gagnée et leur jeu de données d'entrainement.

CharlesP. Premium

Le 08/08/2025 à 18h16

Sauf que les modèles et le jeu de données n'ont de la valeur parce que l'IA est sur-valorisé.
Quand la bulle éclatera parce que les investisseurs se rendent compte que OpenAI/Anthropic/... ne peut pas être rentable, ils ne vaudront plus rien.

Leur API aussi est vendue à perte, au cas où, donc même sans le chatbot et en vendant uniquement de l'intégration dans d'autres produits, au tarif actuel, ils perdent de l'argent, au tarif rentable, plus personne ne voudrait en acheter tellement les prix seraient délirants.

bingo.crepuscule Premium

Le 09/08/2025 à 01h45

Et pendant ce temps là, Nvidia se gave. Ils vendent des pelles et des pioches durant la ruée vers l'or 😁

Freeben666 Premium

Le 09/08/2025 à 13h42

On en reparle dans 5 ans ;-)

gachdel Premium

Le 09/08/2025 à 23h31

Ils perdent de l'argent, certes, mais ils n'ont pas encore (officiellement) ajouté de publicités ou autre dans leurs produits. Beaucoup de boîte pourraient payer très cher pour que ChatGPT recommande d'acheter un PC ou une TV de leur marque, plutôt que celle du concurrent.

touitboy

Le 10/08/2025 à 09h56

Vu le prix par mois des versions payantes, encore heureux 🤫

RuMaRoCO Premium

Le 08/08/2025 à 11h33

Perso : le truc qui me chagrine le plus et l'emploi du terme (marketing) "thinking". Pour encore plus accentuer la confustion sur "l'intelligence" du programme.

Gaby22

Le 08/08/2025 à 12h12

Dans une de ses dernières interview Altman se disait effrayé par les capacités de GPT-5... Après cette présentation révolutionnaire je vois ce qui l'effrayait tant. GPT-5 fait un peu mieux pour un peu moins cher, c'est terrifiant !

Freeben666 Premium

Le 08/08/2025 à 13h49

J'ai testé un peu GPT5 ce matin, est franchement le gap est bluffant avec leurs précédents modèles.

Vidéo d'un gars qui l'a eu en accès anticipé pour ceux qui veulent se faire une idée :

YouTube

Gaby22

Le 08/08/2025 à 16h42

Et donc tu as été effrayé par ces nouvelles capacités ?

Freeben666 Premium

Le 08/08/2025 à 17h48

Effrayé, non. Surpris, un peu.

Effrayé, je le réserve pour quand ils le mettront au contrôle de l'arsenal nucléaire américain 😅

Liam

Le 11/08/2025 à 03h31

Le service marketing d'OpenAI est clairement en roue libre, et Altman est bien plus un chef du marketing que de l'ingénierie.

khalahan Premium

Le 08/08/2025 à 14h31

Ceux qui parlent de "bulle IA" n'ont vraiment pas compris la révolution que nous vivons. Qu'on soit pour ou contre, l'IA à déjà commencé à changer notre monde et ça n'est que le début, pour le meilleur ou pour le pire. En d'autres temps ils auraient parlé de "bulle de la mécanisation" de l'agriculture ou "bulle de l'électricité" qui semblait très gadget au début.
Pire, l'IA est une course entre les grands blocs politiques et économiques de notre monde. S'arrêter, c'est laisser les autres devenir nos maîtres incontestés.

treizarque Premium

Modifié le 08/08/2025 à 15h10

Qui sait, s'arrêter en l'état actuel du monde, c'est peut-être foncer moins vite dans le mur ?

nabnux Premium

Le 08/08/2025 à 21h37

La révolution de générer des contenus au mieux médiocres qui ont besoin (et auront toujours besoin) d'être vérifiés par des humains derrière, le tout pour une quantité astronomique de ressources et en dépréciant la valeur du travail des gens ?

Je préfère être sceptique/critique qu'être un bandeur de LLM qui gobe sagement la bonne parole des techbros. Sans compter que ça mine la vraie recherche en IA fondamentale.

gachdel Premium

Le 09/08/2025 à 23h34

Ben... Il y a bien eu des "bulles de la mécanisation". Quand la mécanisation a commencé, de nombreuses personnes ont investi dedans, on créé des entreprises. Puis quelques années après, tout s'est un peu tassé, le marché est devenu plus petit, et beaucoup de boîtes se sont effondrées, tout comme la bulle Internet.
Ce n'est pas pour autant que le marché a disparu.

Triton Premium

Le 08/08/2025 à 14h37

L’intro me fait penser à ça : !Achille Talon — Concours de modestie