Connexion Premium

Claude Sonnet 4.5 veut reprendre la couronne sur les performances en développement

Roi d'un jour

Claude Sonnet 4.5 veut reprendre la couronne sur les performances en développement

Anthropic

Anthropic a annoncé lundi soir son nouveau modèle de frontière. Baptisé logiquement Claude Sonnet 4.5, il a été présenté comme reprenant la couronne sur les performances et la précision dans plusieurs domaines. L’entreprise américaine veut notamment montrer que ses modèles restent les meilleurs pour le développement, surtout face à un GPT-5 qui a rééquilibré le combat.

Fin mai, Anthropic lançait les versions 4 de ses modèles Claude. En plus de l’habituel Sonnet, la société annonçait en grande pompe son modèle Opus, présenté comme le nouveau fleuron de la gamme. Contrairement à Sonnet qui était orienté vers le « tout venant », Opus était réservé aux tâches les plus exigeantes, avec de plus grandes capacités de raisonnement et une précision accrue. Début aout, Anthropic lançait les version 4.1, avec des améliorations plus ou moins substantielles dans tous les domaines.

Une semaine plus tard, OpenAI présentait GPT-5. Même si le modèle a essuyé diverses critiques, il permettait de relancer la guerre entre les deux familles de modèles, surtout auprès des développeurs et toutes les personnes intéressées par les agents.

Pour ne pas laisser trop longtemps son concurrent sur le devant de la scène, Anthropic a dégainé lundi soir la version 4.5 de Claude Sonnet, avec la volonté affichée de reprendre la couronne sur ce que l’entreprise considère comme sa chasse gardée désormais.

Des scores une nouvelle fois en augmentation

Depuis hier soir, le modèle Claude Sonnet 4.5 est donc disponible, aussi bien dans l’interface du chatbot qu’à travers l’API. Anthropic joue la continuité : l’utilisation et les tarifs sont les mêmes. Pour ces derniers, on parle donc toujours de 3 dollars par million de jetons en entrée et 15 dollars par million de jetons en sortie. Le modèle devrait déjà être disponible chez les outils de vibe coding utilisant Claude, dont Cursor et Windsurf.

Crédits : Anthropic

Sans surprise, Anthropic revendique une nouvelle fois la première place dans un certain nombre de tests. Sur SWE-Bench Verified notamment, Sonnet 4.5 affiche un score de base de 77,2 %, soit meilleur qu’Opus 4.1 et GPT-5, même dans sa version Codex. Le modèle arrive également en tête du OSWorld avec 61,4 %, contre 42,2 % il y a quatre mois. Le tableau présent dans l’annonce montre de meilleurs scores dans tous les domaines.

Pour illustrer les capacités de son nouveau modèle, Anthropic explique l’avoir vu fonctionner en continu « pendant plus de 30 heures sur des tâches complexes en plusieurs étapes » au sein du même projet. L’entreprise ne donne cependant aucune précision sur ce test et il est difficile pour l’instant de savoir si les conditions étaient standards ou si c’était le résultat d’une demande très spécifique.

Le meilleur pour quelques semaines ?

Qu’importe, car Anthropic est sûre d’elle : « Claude Sonnet 4.5 est le meilleur modèle de codage au monde. C’est le modèle le plus solide pour construire des agents complexes. C’est le meilleur modèle d’utilisation des ordinateurs. Et il montre des gains substantiels en raisonnement et en mathématiques », affirme l’entreprise. Elle assure également que cette version fait moins dans la flagornerie, se trompe moins et résiste mieux aux attaques par injection.

Au-delà des benchmarks, le développeur Simon Willison, qui intervient régulièrement dans les colonnes d’Ars Technica, indique sur son blog avoir pu tester Sonnet 4.5 pendant plusieurs semaines avant l’annonce. Le nouveau venu est selon lui meilleur que GPT5-Codex, qui était jusqu’ici son modèle préféré pour le développement. Il tempère cependant : le domaine évolue très rapidement, Gemini 3 (Google) devrait être lancé très prochainement et Claude Sonnet 4.5 ne gardera pas forcément sa couronne longtemps.

Anthropic ajoute que le nouveau Claude dispose de capacités supplémentaires. Il permet par exemple de générer des feuilles de calcul, des diapositives et autres documents sans quitter l’interface du chatbot. Il prend également en charge l’exécution de code et la création du fichier, toujours depuis l’interface de discussion, ou via les applications l’utilisant via son API.

Claude Code a maintenant son kit de développement

En plus du modèle Sonnet 4.5, Claude Code a désormais un SDK (Software Development Kit). Anthropic estime que le moment est venu, car après six mois de mises à jour constantes pour son outil d’aide à la programmation, elle pense savoir « ce qu’il faut pour créer et concevoir des agents d’IA ».

« Nous avons construit Claude Code parce que l’outil que nous voulions n’existait pas encore. Le SDK Agent vous donne la même base pour créer quelque chose d’aussi performant pour résoudre n’importe quel problème que vous résolvez », assure la société.

Le kit s’appuie sur la même infrastructure que pour Claude Code. L’idée est que les développeurs pourront développer leurs propres agents pour des tâches spécifiques, en profitant des mêmes performances.

Anthropic a également présenté une fonction intitulée « Imagine with Claude ». Réservée aux personnes abonnées Max (100 ou 200 dollars par mois), elle montre ce que Claude produit à la volée quand il génère du code informatique. « Une démonstration ludique montrant ce que Claude Sonnet 4.5 peut faire », selon Anthropic.

La réponse se fera en temps réel, sans fonctionnalité prédéterminée ni code préécrit, affirme la société, qui ajoute : « Ce que vous voyez, c’est Claude qui crée en temps réel, répond et s’adapte à vos demandes au fur et à mesure que vous interagissez ». Cette fonction est en préversion et n’est disponible que pendant cinq jours.

Commentaires (7)

votre avatar
Je ne crois aux benchs que lorsque je les ai moi-même falsifiés (utilisateur de Claude Sonnet 4).
votre avatar
J'ai vu la mise à jour ce matin (surtout l'interface Claude Code qui c'est amélioré).
Pas assez travaillé sur cette version de modèle pour vraiment dire si c'est meilleur qu'avant. L'ancien 4.0 était déjà très bon.

De toute façon, comme dit dans l'article les choses vont tellement vite qu'il n'y aura plus que les "IA" pour suivre tout ce bordel.
Perso je suis fatigué de cette frénésie, j'utilise Claude code au quotidien, tant que l'outil est ok avec mes usages je resterai dessus.

J'ai plus d'envie pour auto héberger un LLM opensource avec du RAG pour l'adapter précisément à mon activité, méthodes docs etc.
votre avatar
Claude continue dans sa politique désagréable de demander un numéro de téléphone mobile. L'e-mail je veux bien (j'en ai plusieurs !) mais je refuse de donner mon numéro de mobile à tire-larigot pour d'évidentes questions "privacy".

Donc oui, les versions précédentes que j'avais pu tester étaient performantes, mais je vais rester sur Gemini pour le moment !

D'ailleurs, les autres qui demandaient un numéro de mobile en sont revenus, Claude fait un peu office de (mauvaise) exception en la matière.
votre avatar
C'est quoi leur justification ?
C'est contraire au principe de minimisation du RGPD.
votre avatar
j’imagine réduire le multi compte et révoquer les accès au personnes interdites par les État-Unis.
votre avatar
Je suis bien d'accord que c'est contraire au RGPD, c'est pourquoi je ne vais pas utiliser leur truc, même si MrIntrepide a sans doute raison.

Google "triche" un peu avec Gemini qui nécessite un e-mail Google. J'ai ça aussi, mais c'est un ancien compte de l'époque où on ne nous demandait rien... aujourd'hui encore on peut avoir de tels comptes mais il faut un certain bagage technique pour lancer un Android virtualisé et y rattacher un compte tout aussi virtuel sans info personnelle !
Sans ce "bagage technique", la création d'un nouveau compte e-mail Google nécessite bel et bien un numéro de téléphone mobile, donc indirectement Google demande une tel information (ou presque pour les "malins"... sans doute 90% des lecteurs ici !)
votre avatar
Si ca interesse quelqu'un il y a 50% de reduction pour 3 mois sur Claude en ecoutant le podcast upgrade: podcasts.apple.com Apple

Je suis interesse mais dans mon usage de la version gratuite, Claude rame vraiment beaucoup et peine a repondre aux questions, je ne sais pas si c'est similaire dans la version payante...