Connexion Premium

GPT-5.3 Codex, Claude Opus 4.6 : OpenAI et Anthropic se tirent la bourre

Quelqu’un pour siffler la fin de la récré ?

GPT-5.3 Codex, Claude Opus 4.6 : OpenAI et Anthropic se tirent la bourre

Hier en fin de journée, en l’espace de quelques minutes, Anthropic et OpenAI ont annoncé deux nouveaux modèles : Claude Opus 4.6 pour le premier, GPT-5.3 Codex pour le second. Dans les deux cas, avec la promesse d’être « toujours plus mieux ». Anthropic met aussi en avant une inférence aux États-Unis, avec un surcoût.

Le 06 février à 14h38

Selon TechCrunch, les deux concurrents « avaient initialement prévu de sortir leurs deux outils de codage agent exactement en même temps : à 10 h PST [soit 19 h, heure française, ndlr]. Cependant, peu de temps avant la sortie initiale, Anthropic a avancé sa date de sortie de 15 minutes, devançant légèrement OpenAI dans la course à la promotion des modèles ».

Le torchon brûle publiquement entre les deux entreprises qui s’écharpent par vidéos et déclarations interposées sur la question de la publicité, OpenAI en ajoute, Anthropic s’y refuse. La guerre de communication se transforme maintenant en course à l’échalote à celui qui dégainera le premier.

Opus 4.6 fait tout mieux, avec une fenêtre contextuelle d’un million de jetons

Mais de quoi parle-t-on précisément ? Chez Anthropic, de Claude 4.6 qui « améliore les compétences en codage ». Le nouveau modèle est capable de maintenir les agents plus longtemps, de fonctionner avec des bases de code plus volumineuses, détecte mieux ses propres erreurs, etc. La société annonce aussi « une première pour les modèles Opus » : une fenêtre contextuelle d’un million de jetons, en bêta pour l’instant. En sortie, il est question de 128 000 tokens.

Dans son communiqué, Anthropic annonce que, sur le test GDPval-AA, « Opus 4.6 surpasse le deuxième meilleur modèle du secteur (GPT-5.2 d’OpenAI) d’environ 144 points »… ouf, à 15 minutes près, GTP-5.3 Codex aurait rendu ce test caduc.

Anthropic propose aussi toute une série de mesures des performances d’Opus 4.6 face à Opus 4.5, Sonnet 4.5 (Anthropic également), Gemini 3 Pro de Google et GPT-5.2 d’OpenAI. L’entreprise est évidemment en tête dans une majorité des cas.

D’autres nouveautés sont mises en avant, notamment la gestion des équipes d’agents, la « pensée adaptative » pour permettre au modèle de mieux comprendre le contexte, plus de liberté aux développeurs pour avoir « un meilleur contrôle sur l’intelligence, la vitesse et le coût », des améliorations sur la prise en charge des documents Excel et PowerPoint, etc. Comme à chaque fois ou presque, c’est le modèle le plus puissant de l’entreprise.

GPT-5.3 Codex promet d’être « 25 % plus rapide »

Claude Opus 4.6 n’aura gardé le titre de dernier modèle que pendant un quart d’heure avant que GPT-5.3 Codex n’arrive. OpenAI aussi montre ses muscles et annonce que son modèle « repousse les limites des performances en programmation de GPT-5.2-Codex, tout en intégrant les capacités de raisonnement et de connaissances professionnelles de GPT-5.2, réunies au sein d’un seul modèle, avec en plus une exécution 25 % plus rapide ».

Dans son communiqué, OpenAI affirme que son modèle « établit de nouveaux records sur SWE-Bench Pro et Terminal Bench, et affiche d’excellents résultats sur OSWorld et GDPVal ». OpenAI ne compare toutefois pas son nouveau modèle à celui d’Anthropic, mais on peut voir que GPT-5.3 Codex est exactement au niveau de GPT-5.2 sur GDPval. Attention, cela concerne GDPVal alors qu’Anthropic parle de GDPVal-AA. GDPval est pour rappel un benchmark des IA génératives lancé par OpenAI en septembre dernier.

GPT-5.3-Codex a « contribué de manière décisive à sa propre création »

La société de Sam Altman affirme au passage que « GPT-5.3-Codex est le premier modèle d’OpenAI à avoir contribué de manière décisive à sa propre création ». « L’équipe Codex a utilisé des versions préliminaires pour déboguer son entraînement, gérer son déploiement et analyser les résultats des tests et d’évaluations », explique OpenAI.

Il est aussi intéressant de noter que le communiqué d’Anthropic parle à plusieurs reprises de GPT-5.2 et d’OpenAI, là où celui d’OpenAI ne fait aucune mention de son concurrent. GPT-5.3 Codex est mis en face de GPT 5.2 et 5.2 Codex.

De l’inférence « US-only » chez Anthropic

OpenAI en profite pour brosser NVIDIA dans le sens du poil : « GPT-5.3-Codex a été conçu pour fonctionner avec les systèmes NVIDIA GB200 NVL72, a été entraîné dessus et fonctionne sur ces mêmes systèmes. Nous remercions NVIDIA pour son partenariat ».

Du côté d’Anthropic, on met en avant la production locale avec l’US-only inference : « Pour les charges de travail qui doivent s’exécuter aux États-Unis, l’inférence aux États-Unis est disponible à 1,1x par jeton », soit 10 % de plus. Rien pour les autres pays du monde.

Commentaires (12)

votre avatar
Cool, une bataille de gros kiki !
votre avatar
@Flock va pouvoir recycler l'illustration où Musk et Bezos comparaient leurs fusées.
votre avatar
mwaif, plus mieux, plus vite peut être mais il y a peu de temps j'étais presque chaud de tenter un abonnement claude puis quand j'ai le bordel qu'est l'usage limite j'ai tout refermé et fuckoff l'ia.

cf : reddit.com Reddit
votre avatar
si tu code pour du pro, ne te pose même pas de questions, c'est Claude Code qui te fera perdre le moins de temps :)
votre avatar
GitHub Copilot est bien lui aussi. S'intègre bien dans pas mal d'ide, et permet de choisir l'agent facilement. Par contre, attention au coût en jeton de certains modèles.
votre avatar
mais si j'explose le quota premium en deux ou trois messages avant meme d'avoir eu le temps de finir de dire le contexte ca va pas aidé
votre avatar
Impressionnant comme ça va vite.
Et la marge de progression est encore importante.

Il y a un aspect marketing évident, mais au delà de ça, ces nouveaux modèles qui sortent régulièrement sont des avancées importantes, qui à chaque fois repoussent les limites de ce qui est possible avec des impacts concrets majeurs.
votre avatar
Et aussi l'impact sur leur impact sur l'environnement :D
votre avatar
toujours pas, non
votre avatar
Personnellement, j'utilise déjà une version d'Opus 4.5 en local pour coder, ça ne bouffe pas plus que de jouer à Overwatch (par contre, il a des problèmes de stabilité sur les jobs un peu larges)
votre avatar
Du coup, j'ai essayé Opus 4.6 pendant quelques heures aujourd'hui, et le résultat n'est pas dégueulasse question code produit. Je l'ai piloté pour produire un logiciel d'analyse de signal en go, avec un découpage en librairies structurées, et à la relecture, le code est propre et j'ai pas grand-chose à modifier pour avoir un résultat final plutôt correct. J'ai pas encore osé lui faire faire du C car j'ai toujours l'impression que laisser un LLM faire du C c'est un peu comme envoyer un enfant de 8 ans chercher du bois avec une tronçonneuse allumée, mais je tenterai ça dans un sandbox dans les jours qui viennent.
votre avatar
C'est étonnant, cette proposition d'Anthropic, où il faut payer 10% de plus pour polluer plus.

GPT-5.3 Codex, Claude Opus 4.6 : OpenAI et Anthropic se tirent la bourre

  • Opus 4.6 fait tout mieux, avec une fenêtre contextuelle d’un million de jetons

  • GPT-5.3 Codex promet d’être « 25 % plus rapide »

  • GPT-5.3-Codex a « contribué de manière décisive à sa propre création »

  • De l'inférence « US-only » chez Anthropic