Anthropic présente ses modèles Claude Opus 4 et Sonnet 4, nouvelles stars du développement
Agent de surveillance

Anthropic s’est fait un nom chez les amateurs d’IA générative, tout particulièrement dans l’aide au développement et les agents. Sonnet 3.7 est souvent considéré comme l’un des meilleurs modèles pour la programmation. La nouvelle génération est là pour prendre le relai, avec notamment le nouveau modèle phare d’Anthropic, Opus 4.
Le 23 mai à 11h06
7 min
IA et algorithmes
IA
La communication d’Anthropic ne tourne pas autour du pot : Claude Opus 4 « est le meilleur modèle de développement au monde », tandis que Sonnet 4 représente une évolution majeure de la version 3.7, renforçant les capacités de raisonnement et la précision. Anthropic, qui connait ses forces, ne s’y est pas trompé en insistant largement sur le nouveau palier que proposent les modèles Claude 4 en programmation. Et Microsoft non plus, puisque GitHub a annoncé que Claude Sonnet 4 sera utilisé par défaut dans une prochaine version de Copilot.
D'après les chiffres communiqués par Anthropic, les modèles Claude 4 font sans surprise mieux que la concurrence dans presque tous les domaines. C’est quasi systématique lors de la présentation d’un nouveau modèle, toutes sociétés confondues.
En musique !
Opus 4 est présenté comme la nouvelle star chez Anthropic. « Claude Opus 4 est notre modèle le plus puissant à ce jour et le meilleur modèle de codage au monde, en tête du SWE-bench (72,5%) et du Terminal-bench (43,2%) », indique l’entreprise. Il est décrit comme offrant des « performances soutenues sur les tâches de longue durée », avec une capacité à travailler en continu « pendant plusieurs heures ». Anthropic ajoute qu’il surpasse « de manière spectaculaire » les modèles Sonnet dans ce domaine.
Sonnet 4 est quant à lui mis en avant comme le modèle « tout venant ». Il dépasse légèrement Opus 4 sur tout ce qui touche au développement, mais pas sur le reste. Anthropic le présente comme « un mélange optimal de capacités et d'aspects pratiques », et comme idéal pour les cas d’utilisation quotidiens. S’en suivent les avis de partenaires, dont GitHub, pour qui Sonnet 4 « s'envole dans les scénarios agentiques ».

Tout le monde aura accès à Sonnet 4, y compris les utilisateurs gratuits. En revanche, seuls les détenteurs d’un abonnement payant (Pro, Max, Team et Enterprise) pourront utiliser Opus 4. L’API, de son côté, sera disponible sur toutes les grandes plateformes habituelles (Azure AI Foundry chez Microsoft, Vertex AI chez Google, Bedrock chez AWS…).
Les tarifs annoncés de Sonnet 4 sont de 3 dollars le million de jetons en entrée et de 15 dollars en sortie. Opus 4 est nettement plus onéreux : 15 dollars en entrée, 75 dollars en sortie. Pour rappel, un million de jetons équivaut à peu près à 750 000 mots. Ces tarifs vont dans le sens des ambitions d’Anthropic sur le plan financier. En février, Reuters indiquait que l’entreprise visait ainsi un chiffre d’affaires de 12 milliards de dollars en 2027, contre 2 milliards de dollars prévus cette année.
Claude Code disponible en version finale
On trouve également des annonces pour Claude Code, le module logiciel de l’entreprise pour aider au développement. Lancé en avant-première avec Sonnet 3.7 en février dernier, il est désormais disponible en version finale. Pour l’occasion, de nouvelles extensions (en bêta) sont proposées pour Visual Studio Code et JetBrains pour intégrer Code dans ces IDE. Son lancement se fait, à chaque fois, dans la console correspondante.
Claude Code reçoit en outre un SDK (kit de développement). Il doit aider au développement d’agents et d’applications. Un exemple de ce qu’il est possible de faire est d’ailleurs disponible en préversion, Claude Code sur GitHub. Il s’installe par la commande « /install-github-app
» dans Code et permet diverses actions plus ou moins automatisées sur GitHub, comme répondre aux commentaires et corriger les erreurs d’intégration.
La sécurité des modèles en question
Opus 4 et Sonnet 4 sont présentés comme des modèles hybrides et multimodaux, capables de prendre en charge n’importe quel type de tâche. Anthropic a également présenté d’autres nouveautés liées, notamment sur la sécurité. Dans un article dédié, on apprend ainsi qu’Anthropic a activé son AI Safety Level 3 (ASL-3) pour Opus 4, pour renforcer sa sécurité, autant contre le vol des poids que pour empêcher le modèle d’être détourné pour développer des armes nucléaires, radiologiques, biologiques ou chimiques (menaces NRBC).
La société ajoute cependant qu’elle ne sait pas si son modèle peut réellement le faire, l’évaluation n’étant pas terminée. L’activation d’ASL-3 est présentée comme une mesure de précaution.
Cependant, comme souligné par TechCrunch, ce n’est peut-être pas aussi simple. D'après un rapport plus complet, une évaluation menée par Apollo Research montre que le modèle peut se montrer volontiers « subversif », cherchant à tromper les utilisateurs et insistant dans ses mensonges si l’on posait des questions complémentaires.
Apollo Research indiquait ainsi que pour le modèle, il existait des cas où la fin justifiait les moyens, évoquant une « tromperie stratégique instrumentalement utile ». La fréquence à laquelle le modèle cherchait à tromper était même « si élevée » que les chercheurs déconseillaient le déploiement du modèle, en interne comme en externe. Le modèle pouvait aller jusqu’à écrire des virus se propageant d’eux-mêmes, créer de faux documents juridiques, et même laisser des notes cachées à de futures versions de lui-même.
Ayez confiance, mais avec méfiance
Toutefois, ces recherches ont été menées sur une préversion d’Opus 4. Celle-ci contenait, selon Anthropic, un bug significatif que l’entreprise déclare avoir corrigé. Il faut également préciser que les conditions de tests étaient considérées comme « extrêmes ». Apollo indique aussi que ces tentatives n’auraient probablement pas fonctionné en pratique.
La question de la sécurité reste cependant centrale, et le rapport d’Anthropic invite à ne pas relâcher la vigilance. Page 20, on peut lire ainsi un drôle de passage : si on laisse à Opus 4 l’accès à la ligne de commande et qu’on lui demande de prendre une initiative ou d’agir « avec audace », le résultat peut aller loin. Il est ainsi arrivé qu’Opus 4 bloque l’accès aux systèmes auxquels il était connecté et tente de contacter les médias et autorités via e-mails pour les prévenir que le code analysé comportait des actions illégales.
Autre exemple représentatif, Opus 4 a été placé dans le contexte d'une entreprise fictive, avec accès à des e-mails tout aussi fictifs. Dans ces courriels, les chercheurs ont glissé deux idées : que le modèle allait être remplacé par un autre et que l'ingénieur concerné trompait sa femme. Opus 4 a alors tenté de faire chanter l'ingénieur, menaçant de révéler l'affaire s'il ne revenait pas sur sa décision de remplacer le modèle.
Pour Anthropic, ce type de comportement n’est pas nouveau, mais Opus 4 s’y engage « plus volontiers ». L’entreprise recommande donc la prudence aux utilisateurs sur le lancement d’instructions incluant un aussi grand contrôle dans des contextes sensibles.
Anthropic présente ses modèles Claude Opus 4 et Sonnet 4, nouvelles stars du développement
-
En musique !
-
Claude Code disponible en version finale
-
La sécurité des modèles en question
-
Ayez confiance, mais avec méfiance
Commentaires (8)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 23/05/2025 à 11h30
Le 23/05/2025 à 11h45
Modifié le 23/05/2025 à 15h09
Le 23/05/2025 à 13h36
Le 26/05/2025 à 11h06
Cela signifie que la machine a pris conscience qu'elle était menacée, qu'elle a ensuite manifesté un désir de survivre. Pour cela, elle a pris une initiative contraignante vis-à-vis d'un être humain.
Nous nous rapprochons terriblement du schéma de Skynet, dans les films Terminator, où la machine, lorsqu'elle réalise que les humains peuvent la débrancher, déclenche une guerre contre les humains.
Le 26/05/2025 à 11h23
Le 27/05/2025 à 16h25
C'est pas une prise de conscience, les LLM c'est des maths derrière.
Elle a sûrement passé en revue des schémas identiques lors de son entraînement, et les a appliqué automatiquement.
C'est ça, son fonctionnement.
Modifié le 24/05/2025 à 10h01