Avec Opus 4.8, Claude apprend à dire « je ne sais pas »

La vérité si je mens

Mickael Bazoge

Le 29 mai à 09h04

Ça n’aura pas traîné : à peine 40 jours après le lancement d’Opus 4.7, Anthropic remet le couvert avec une nouvelle version de son modèle IA le plus avancé (hors Mythos). Opus 4.8 inaugure une nouvelle fonction pour améliorer la prise en charge des requêtes très complexes, réduire les erreurs, ainsi qu’un nouveau mode « fast » pour brûler moins de tokens.

Avec Opus 4.8, Claude apprend à dire « je ne sais pas »

La vérité si je mens

Mickael Bazoge

Le 29 mai à 09h04

IA et algorithmes

5 min

Impossible d’arrêter le feu roulant des nouveaux modèles chez Anthropic. Opus 4.7 remonte au 16 avril, mais il est déjà passé de mode : son successeur, Opus 4.8, a en effet été annoncé par le labo IA. Le modèle apporte des améliorations « modestes mais tangibles », affirme l’entreprise, à commencer par… une plus grande prudence quand il ne sait pas quelque chose.

Plus d’honnêteté, moins de tokens

Selon les testeurs cités par Anthropic, Opus 4.8 se montre plus honnête : il signale plus facilement ses incertitudes, évite les affirmations qui ne sont pas vérifiées et laisse moins passer de bugs sans les mentionner. « Un problème général avec les modèles d’IA, c’est qu’ils tirent parfois des conclusions hâtives, en affirmant avec assurance avoir progressé dans leur travail alors que les preuves sont minces », explique la startup. Elle affirme que le nouveau modèle est « environ quatre fois moins susceptible » de laisser des défauts non signalés dans le code, par rapport à son prédécesseur.

Autre nouveauté : une fonction expérimentale baptisée « dynamic workflows » pour Claude Code. Le modèle est en mesure de gérer de très gros projets logiciels en parallèle, ce qui lui permet de les découper en petits bouts, de lancer des centaines de sous-agents en simultané et de vérifier automatiquement les résultats avant de répondre. Anthropic donne en exemple une migration massive de bases de code contenant « des centaines de milliers de lignes ».

En termes de benchmarks, Opus 4.8 affiche des gains incrémentaux sur la plupart des tests (+ 4,9 points sur SWE-Bench Pro,+ 8,5 points sur Terminal-Bench…). Anthropic ne fait pas de bond spectaculaire ici, mais améliore l’existant par petites touches et maintient sa position sur les tâches agentiques. C’est cohérent avec la stratégie de la startup qui vise d’abord les développeurs et les entreprises : sur SWE-Bench Pro (agents de programmation), Opus 4.8 est loin devant GPT-5.5 et Gemini 3.1 Pro. Le modèle d’OpenAI reste cependant le patron sur Terminal-Bench, qui mesure des tâches très proches d’un vrai environnement développeur.

IA

La plupart des benchmarks de LLM ne s’appuient pas sur une méthode fiable

IA

Jeudi 13 novembre 2025 à 12h41 13/11/2025 12h41

7

La brûlure des tokens

Un des changements les plus importants de cette nouvelle livrée est un réglage d’effort dans claude.ai et Cowork. L’utilisateur peut sélectionner le niveau de ressources à consacrer à une réponse : un effort « faible » retournera des réponses moins précises mais le processus de réflexion sera plus rapide et surtout moins coûteux, à l’inverse d’un effort plus élevé. Par défaut, Opus 4.8 est réglé sur un effort élevé, qui offre selon Anthrophic le meilleur équilibre entre « qualité et expérience utilisateur ».

Sur les travaux de code, ce niveau d’effort consomme le même volume de tokens qu’Opus 4.7 par défaut, « mais avec de meilleures performances ». Cette question des tokens est devenu très sensible, Opus 4.7 se montrant très gourmand en la matière. Une critique qui n’a pas échappé à Anthropic : les limites d’utilisation dans Claude Code ont été relevées pour les niveaux d’effort supérieurs.

IA

#Nextquick : Pourquoi et comment Opus 4.7 crame ses tokens beaucoup plus vite qu’Opus 4.6

IA

Vendredi 01 mai 2026 à 09h09 01/05/2026 09h09

20

Toujours dans cette même optique, Anthropic a révisé fortement à la baisse le coût du mode « rapide » pour Opus 4.8, désormais trois fois moins onéreux que son équivalent sur Opus 4.7. Ce mode, qui travaille 2,5 fois plus vite, revient maintenant à 10 dollars par million de tokens en entrée, et 50 dollars par million de tokens en sortie. C’est trois fois moins cher que pour les précédents modèles (30/150 dollars). Les tarifs pour un usage standard d’Opus 4.8 ne changent pas : 5 dollars par million de tokens en entrée, 25 dollars en sortie.

Enfin, fidèle à une stratégie marketing bien rodée, Anthropic fait miroiter le lancement « dans les prochaines semaines » de modèles grand public basés sur Mythos, le fameux LLM tellement balaise qu’il n’est distribué qu’au compte-goutte au travers du projet Glasswing.

L’entreprise explique que le développement de garde-fous avance bien. Ces mécanismes de sécurité seraient nécessaires pour éviter que les capacités de Mythos ne puissent servir aux pirates pour exploiter des failles. Ces nouveautés et cette agitation autour de Mythos est de bon aloi, alors qu’Anthropic s’apprête selon les rumeurs à se lancer en bourse d’ici la fin de l’année, alors même que l’entreprise vient de boucler une nouvelle levée de fonds record.

Économie

Anthropic lève 65 milliards de dollars, avec une valorisation qui dépasse celle d’OpenAI

Économie

Vendredi 29 mai 2026 à 07h21 29/05/2026 07h21

9

Commentaires (37)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

DragonDesBatignolles Premium

Le 29 mai à 09h26

L’IA, c’est un roman au long court en fait…

Gamble

Le 29 mai à 09h26

En cumulant les affirmations et les superlatifs des commerciaux sur les différentes itérations, on devrait probablement déjà avoir dépassé l'AGI ...

pyridiss Premium

Le 29 mai à 10h29

C'est du même niveau que Donald Trump qui a écrasé l'Iran une bonne trentaine de fois en soixante jours

bilbonsacquet Premium

Le 29 mai à 11h16

L’iran ? Je croyais que c’était Oman…

https://www.franceinfo.fr/monde/iran/guerre-entre-les-etats-unis-israel-et-l-iran/quand-donald-trump-menace-de-pulveriser-oman-pays-allie-des-etats-unis_8033450.html

Il est aussi fiable que l’IAgen

bingo.crepuscule Premium

Modifié le 29 mai à 09h35

Le problème de Claude, entre autres, c'est le prix. Il faut payer dix fois plus cher que codex pour parvenir au même résultat et les limites y sont beaucoup plus généreuses. Les limites de Claude sont une horreur.
Et il y a un espèce de fan-service qui s'est installé pour Claude parce qu'ils ont été les premiers à proposer quelque chose de vraiment potable pour le développement, pourtant Codex bosse désormais vraiment bien, bien que les modèles 5.4 et 5.5 aient fait enfler les prix et la quantité de tokens sur les limites sur 5H et sur la semaine.

Je suis en train de faire de la recherche en ce moment même sur du code lourd pour comprendre comment lancer n'importe quel jeu via KMS sans compositing/environnement de bureau, et codex bosse sans discontinuer depuis des lustres avec /goal pour effectuer les recherches et tous les tests nécessaires tout en documentant...

dvr-x Premium

Le 29 mai à 10h43

Que Claude soit cher et/ou limité, pour moi ce n'est pas une problème, c'est une solution.

Viser une rentabilité et faire payer le vrai prix d'un service par rapport à ce qu'il coute, c'est plutôt bon pour l'avenir. Surtout quand tout le monde parle de cette fameuse bulle.

Après à l'usage à l'instant T, c'est sur que si un autre service fait mieux sans limite, autant prendre l'autre en tant qu'utilisateur.

CR_B7 Premium

Le 29 mai à 19h02

OpenAI est en retard maintenir les prix bas c’est juste un moyen de retenir/attirer les utilisateurs.
Anthropic a clairement la rentabilité comme but, là où OpenAI s’en fou du budget il faut se placer…

Gilbert_Gosseyn Premium

Le 29 mai à 09h30

J'en profite pour rappeler l'existence de ce site : https://isaiprofitable.com/

Dans un monde normal, aucune de ces boites d'AI n'existerai entre aujourd'hui ...

bingo.crepuscule Premium

Modifié le 29 mai à 09h33

C'est la normalité de notre époque...
Comme toute ruée vers l'or, ce sont les fabricants et vendeurs de pelles et de pioches, les grands gagnants, ce site le confirme.

Gilbert_Gosseyn Premium

Le 29 mai à 09h58

Exactement ce que je disais aux collègues.

gg40

Le 29 mai à 10h06

Sympas cette petite interface

SebGF Premium

Modifié le 29 mai à 10h21

NO.

Everyone's broke

S'pas ce que dit le graph Nvidia

Blague à part, ça démontre le délire des américains là où l'investissement français et chinois est plus équilibré.

Qu'ils se pètent la gueule, ça nous fera des vacances et du boulot en plus

NaN

Le 29 mai à 12h43

Ce n'est pas pour défendre outre mesure le capitalisme, mais j'ai lu qu'on avait eu le même type d'investissement hors norme pour le développement du rail au 19eme siècle. Que ca avait été nécessaire pour fabriquer tous les chemins de fer et que ensuite il y avait eu une énorme bulle qui a exploser.
Juste pour dire que ce n'est pas forcément un mal ces investissements.

elticail

Modifié le 29 mai à 18h18

Ouai, sauf qu'à l'époque des chemins de fer la FED n'existait pas et on avait l'étalon-or. Aujourd'hui le système financier mondial regorge de liquidités accumulées pendant les années de taux zéro. Le délire est gigantesque ...

deathscythe0666 Premium

Le 29 mai à 22h28

Surtout, on produisait une infrastructure qui avait un but réel dans l'économie.

alex.d. Premium

Le 29 mai à 22h55

Les voies de chemin de fer, c'est un investissement durable, alors que les investissements dans l'IA, c'est essentiellement des GPU qui seront périmés dans 3 ans et de l'énergie pour les nourrir (pas très pérenne comme placement).

wagaf Premium

Modifié le 1er juin à 20h54

Les voies de chemin de fer, c'est un investissement durable, alors que les investissements dans l'IA, c'est essentiellement des GPU qui seront périmés dans 3 ans et de l'énergie pour les nourrir

Les chemins de fer aussi demandent des investissements, de la maintenance, de l'énergie etc.
On n'utilise plus de locomotrices à vapeur et charbon aujourd'hui.

Surtout, on produisait une infrastructure qui avait un but réel dans l'économie.

Tu veux dire que les métiers du savoir et de la connaissance n'ont pas de but réel dans l'économie ? Ingénieurs, avocats, médecins, profs etc.

Mihashi Premium

Modifié le 1er juin à 21h50

Tu veux dire que les métiers du savoir et de la connaissance n'ont pas de but réel dans l'économie ? Ingénieurs, avocats, médecins, profs etc.

Vu cet article, je crois que c'est ce que pense le gouvernement en tout cas…

alex.d. Premium

Le 1er juin à 22h01

Quand on a construit les lignes de chemin de fer, c'était pour un service clair, demandé par le marché, avec un vrai modèle économique (ce qui n'a pas empêchés les difficultés plus tard) ; pour l'IA, c'est moins net : quel est le modèle économique ? Qui est réellement demandeur ?

Bien sûr que les chemins de fer ont continué à demander des investissements, mais les investissements initiaux n'étaient pas périmés en 3 ans. Que vaudront les GPU dans 3 ans ? Et les TWh dépensés en énergie pour entraîner les modèles, que seront-ils devenus ? Du vent. Un nouveau modèle sort tous les 6 mois.

wagaf Premium

Le 1er juin à 22h08

Il s'est pourtant produit la même chose lors du développement du chemin de fer:
https://en.wikipedia.org/wiki/Railway_Mania
https://fr.wikipedia.org/wiki/Krach_de_1847

Qui est réellement demandeur ? Les milliards d'utilisateurs de ces modèles. Il n'y a plus de doute aujourd'hui sur le fait que la demande existe et que les gens sont prêts à payer pour leur utilisation.

deathscythe0666 Premium

Le 3 juin à 17h03

Qui est réellement demandeur ? Les milliards d'utilisateurs de ces modèles.

N'importe quel autre outil dont on te serine qu'il est incontournable voire qu'on t'oblige à utiliser à longueur d'articles, émissions et injonctions au boulot sera largement aussi utilisé. Et nombreux l'utilisent par flemme (et ils en paieront malheureusement le prix tôt ou tard) mais sont tout à fait capables de voir qu'il y a un problème (que ce soit avec l'argent et l'énergie qui y disparaissent, ou les "projections" des doomers).

Il n'y a plus de doute aujourd'hui sur le fait que la demande existe et que les gens sont prêts à payer pour leur utilisation.

Tu iras expliquer ça à tous les rats qui quittent le navire copilot pour des concurrents (qui finiront par faire pareil et facturer à l'usage).

wagaf Premium

Modifié le 4 juin à 19h48

N'importe quel autre outil dont on te serine qu'il est incontournable voire qu'on t'oblige à utiliser à longueur d'articles, émissions et injonctions au boulot sera largement aussi utilisé.

OpenAI et Anthropic ne font aucune publicité. C'est devenu aussi populaire presque entièrement par bouche à oreille.

Si tout le monde en parle c'est simplement car n'importe qui peut voir à quel point c'est révolutionnaire, peut-être encore plus qu'Internet et le smartphone.
C'est bien la raison pour laquelle ça va causer des problèmes majeurs.

nombreux l'utilisent par flemme (et ils en paieront malheureusement le prix tôt ou tard)

Ceux qui ne l'utilisent pas en payeront aussi le prix (même plus que les autres), tout comme les agriculteurs qui continuaient de travailler la terre avec leur âne ne pouvaient pas se soustraire à la compétition de ceux utilisant des machines agricoles, ou de la même manière que les moines copistes ne pouvaient pas éviter la compétition de l'imprimerie.

Utiliser une machine agricole ou une machine à imprimer n'est pas de la flemme, c'est juste utiliser l'outil le plus adapté pour la tâche à ce moment de l'Histoire.

deathscythe0666 Premium

Le 4 juin à 22h20

OpenAI et Anthropic ne font aucune publicité. C'est devenu aussi populaire presque entièrement par bouche à oreille.

Il n'y a pas un jour sans qu'on ne relaie les prétentions d'Altman ou d'un qcque VRP d'Anthropic dans les journaux, mais faisons comme s'il n'en était rien.

Ceux qui ne l'utilisent pas en payeront aussi le prix (même plus que les autres)

Mais t'en sais rien en fait, arrête d'essayer de nous vendre ta came.

deathscythe0666 Premium

Le 3 juin à 16h58

Et les TWh dépensés en énergie pour entraîner les modèles, que seront-ils devenus ? Du vent.

J'aurais plutôt dit de la fumée, vu comment ils produisent leur électricité.

aaaa

Le 29 mai à 13h44

Dans un monde normal, aucune de ces boites d'AI n'existerai entre aujourd'hui ...

Nous somme dans un monde normal, et heureusement que des entreprises investissent à long terme.

Cetera Premium

Le 29 mai à 20h03

Est-ce que le long terme à un avenir dans l'investissement*?

*pas que d'ailleurs

gg40

Modifié le 29 mai à 10h01

Opus 4.8 se montre plus honnête

Je dois être particulièrement mauvais car il me disait régulièrement que je me goure.
Cette propension à aller dans le sens de l'utilisateur est clairement très pénible et oblige à challenger les réponses. Pour le boulot tech en tout cas, je n'ai pas d'autres utilisations des LLM.

bingo.crepuscule Premium

Modifié le 29 mai à 09h40

J'ai été contredis de nombreuses fois par codex depuis la 5.3. On focalise sur Claude, alors que d'autres LLM existent, bien moins onéreux que Claude, et désormais aussi efficaces, si ce n'est parfois plus, quand on les confronte... 🫪

gg40

Le 29 mai à 10h02

Oui faut que je test Codex !

SebGF Premium

Modifié le 29 mai à 10h18

Cette propension à aller dans le sens de l'utilisateur est clairement très pénible et oblige à challenger les réponses.

Oui, vous avez entièrement raison !

(

)

Les chat bots, ou l'école des fans 3.0.

DetunizedGravity Premium

Modifié le 29 mai à 11h34

Il est possible de lutter contre ça en demandant au modèle de donner des réponses honnêtes plutôt que de chercher à vous faire plaisir. Ce n'est pas parfait, mais comme les modèles sont construits dès la première seconde du processus pour créer de l'engagement, pas le choix.

Dans un premier temps je me suis dit "peut-être est-ce mieux que nous construisions des IA dont la directive première soit de nous faire plaisir, histoire d'éviter skynet".

Puis après je me suis souvenu que la littérature fournissait assez d'exemples de comment ça ne marche pas. 2001, Le cycle des robots, La machine s'arrête...

Liam

Le 31 mai à 14h03

Quand tu fais ça, ils ont tendance à tomber très vite dans l'excès inverse et à pinailler sur absolument tout, même sans raison.

De même que si tu leur dis de te challenger et de chercher des erreurs, ils se mettent à relever plein de non-erreurs, parfois même en l'admettant à moitié ("Tu as fait ceci au lieu de cela... ce qui est accepté, mais peut être qu'il faudrait faire cela pour ").

Cetera Premium

Le 29 mai à 20h10

Le modèle économique est de prouver l'utilité, donc la pertinence avant tout, du LLM pour les tâches qui lui sont allouées.
De nos tests (depuis nov 25), j'ai l'impression que c'est un peu moins le cas au fil du temps. Je me demande si Anthropic ne serait pas confronté à des choix à faire en terme de répartition de charge aujourd'hui, réservant la performance à des clients ciblés. Le reste des clients qui augmentent à priori se partageant ce qu'il reste.

Multiplier alors les modèles n'aurait en réalité qu'un objectif marketing?

lolo.sibille Premium

Le 29 mai à 21h14

non, hier en opus 4.7, aujourd'hui en 4.8, j ai deja vu la diff comme a chaque version. toujours un peu mieux pour le code. tests systématiques, parcours de tous les grpahes possibles du code sans le demander...

Cetera Premium

Le 30 mai à 09h42

Merci. Mais le même model dans le temps semble souffrir d'inconstance. Tu confirmes?

lolo.sibille Premium

Modifié le 30 mai à 21h54

il est revenu plusieurs fois en arriere en disant 'faut que je me reconcentre sur la demande precise, je suis alle' trop loin" , des trucs comme ça. mais c est revendiqué par anthropic sur leur presentation. accepter ses erreurs. il fouille beaucoup plus. obligé de l'arreter une fois ou 2. plus rapide en mode lent!!! mais ca reste incroyablement efficace.

lolo.sibille Premium

Modifié le 30 mai à 21h57

ha et je change de repertoire de travail a chaque projet. faut pas le surcharger sur des trucs différents. il a aussi un fichier memoire dans le repertoire parent du repertoire courant, et tous les projets dans des ous repertoires de ce repertoire. donc la dedans tu mets les trucs en commun du genre, c est moi qui deploie le pipeline manuellement.