Connexion Premium

Anthropic lance son « premier modèle de raisonnement hybride » Claude 3.7 Sonnet

IA sonata

Anthropic lance son « premier modèle de raisonnement hybride » Claude 3.7 Sonnet

La société vient de lancer son nouveau modèle Claude 3.7 Sonnet, présenté comme le premier modèle de raisonnement « hybride ». Il peut ainsi fonctionner comme une IA générative classique, avec des réponses immédiates, ou prendre plus de temps pour augmenter la précision et réduire le risque d’erreur.

Le 25 février 2025 à 12h51

Dans le grand théâtre de l’intelligence artificielle, il est surtout question des IA génératives. Ces modèles, largement popularisés par ChatGPT, accueillent depuis plus récemment des IA dites de « raisonnement ». Nettement plus couteuses en puissance de calcul et prenant plus de temps pour répondre, elles analysent leurs propres réponses pour y détecter des erreurs. Ces modèles de raisonnement sont souvent recommandés pour tout ce qui touche aux sciences, aux mathématiques et au développement logiciel. Ils parviennent à augmenter la précision des réponses en décomposant les questions en étapes plus digestes.

Jusqu’à présent, les modèles proposés par les différentes entreprises étaient soit de type IA générative « ordinaire », soit de raisonnement. Anthropic propose une approche hybride avec Claude 3.7 Sonnet, le modèle pouvant fonctionner sur l’un ou l’autre mode. La société dit vouloir simplifier l’expérience utilisateur en présentant une bascule moins « intimidante » qu’un changement de modèle, pas toujours bien compris par le public.

Claude 3.7 (l’entreprise a sauté la version 3.6, pour une raison inconnue) est disponible pour l’ensemble des utilisateurs (Free, Pro, Team et Enterprise). Mais seules les personnes payant l’abonnement auront la partie raisonnement. Côté entreprises, le nouveau modèle est accessible depuis l’API d’Anthropic, Amazon Bedrock et Google Vertex AI. Les tarifs restent les mêmes que pour les versions précédentes du modèle : 3 dollars par million de jetons en entrée et 15 dollars par million de jetons en sortie, incluant les jetons de raisonnement.

Anthropic se lance dans le raisonnement

Si cette version était particulièrement attendue, c’est parce qu’Anthropic n’avait encore rien annoncé dans le domaine de l’IA capable de « raisonner ». Une carence qui devenait d’autant plus visible que les derniers mois ont été riches en annonces, que ce soit chez OpenAI, Google ou encore xAI récemment. Des modèles comme o3-mini ou Gemini 2.0 Flash Thinking sont disponibles depuis des mois. On peut ajouter au lot le fameux modèle chinois DeepSeek R1.

« Tout comme les humains utilisent un seul cerveau pour les réponses rapides et la réflexion profonde, nous pensons que le raisonnement devrait être une capacité intégrée des modèles de frontière plutôt qu’un modèle entièrement séparé. Cette approche unifiée crée également une expérience plus transparente pour les utilisateurs », explique ainsi Anthropic dans un long billet de blog.

L’approche est présentée comme plus souple, quel que soit le scénario d’utilisation. En usage classique, on pourra ainsi choisir entre un traitement ordinaire – auquel cas Claude 3.7 est décrit comme une version améliorée de Claude 3.5 – et un temps de réponse plus long pour une réponse plus précise.

La même approche vaudra pour les développeurs manipulant l’API d’Anthropic. Il sera ainsi possible de contrôler le « budget » de la réflexion. Ils pourront lancer un travail pour N jetons, dans une limite de 128 000. Le paramètre permet de moduler la réponse, selon que l’on souhaite jouer sur la vitesse de traitement ou la précision de la réponse.

Rappelons cependant que si Anthropic est la première à dégainer un tel modèle hybride, elle ne sera pas seule longtemps. L’entreprise devrait être rejointe dans les mois qui viennent par OpenAI, qui a confirmé il y a deux semaines travailler sur un tel modèle « unifié ».

« Des problèmes du monde réel »

Dans son billet, Anthropic dit s’être surtout concentré sur les « problèmes du monde réel » dans le développement de ses modèles de raisonnement. L’entreprise dit avoir sciemment mis de côté les résultats que l’on peut obtenir dans les benchmarks théoriques, surtout centrés sur les concours, notamment de mathématiques. Elle en fait un argument commercial : « nous nous sommes plutôt concentrés sur des tâches du monde réel qui reflètent mieux la façon dont les entreprises utilisent réellement les LLM ».

Pour Anthropic, Claude 3.7 Sonnet conforte la première place de l’entreprise dans le domaine de l’aide au développement. Elle affirme que des sociétés comme Cursor et Cognition ont trouvé Claude 3.7 Sonnet bien meilleurs que la concurrence. Vercel évoque même une « précision exceptionnelle » pour tout ce qui touche aux agents. Replit dit l’avoir utilisé pour construire « depuis zéro » des applications web et tableaux de bord, là où d’autres modèles n’y seraient pas parvenus.

Le tableau fourni par Anthropic résume les différents scores obtenus, selon que Claude 3.7 est utilisé avec et sans ses capacités de raisonnement. On note d’ailleurs que le modèle ne sort pas nécessairement vainqueur de tous les comparatifs. Ce qui fait dire à Anthropic que « Claude 3.7 Sonnet excelle dans le suivi des instructions, le raisonnement général, les capacités multimodales et le développement agentique ». Ce positionnement lui permet de se concentrer sur une partie spécifique du champ de bataille actuel.

L’entreprise ajoute que sa nouvelle version refusera moins souvent de répondre aux questions. Claude 3.7 Sonnet serait ainsi capable de faire des distinctions plus nuancées entre les demandes classiques et « nuisibles ». La version 3.7 réduirait ainsi de 45 % les refus inutiles de réponses.

Claude Code, dédié aux agents

Comme pour les capacités de raisonnement, le développement d’agents est un autre grand axe de développement depuis quelques mois. Rappelant qu’en matière d’IA (comme dans d’autres domaines), un agent est un composant logiciel indépendant capable d’interagir avec son environnement de manière autonome et de collecter des données. Une ou plusieurs missions lui sont confiées et il se « débrouille » pour les accomplir dans le contexte donné. C’est une généralisation du concept de chatbot.

Avec l’annonce de Claude 3.7 Sonnet, Anthropic lance donc un nouveau produit dédié. Nommé Code, il est disponible en avant-première et permet aux développeurs de lancer des tâches spécifiques depuis leur terminal. Selon Anthropic, Claude code peut par exemple analyser un projet avec une instruction simple en langage naturel du type « Explique-moi la structure de ce projet ».

De même, le service peut modifier une base de code existante en fonction des instructions. Code décrit étape par étape ses modifications, peut détecter des erreurs ou encore envoyer le code vers un dépôt GitHub.

Le produit sera « amélioré continuellement », notamment sur la fiabilité des appels, le support des longues commandes, le rendu de l’application ou encore « la compréhension par Claude lui-même de ses capacités ». Toute structure ayant un compte professionnel peut tenter l’aventure, mais le nombre maximal d’utilisateurs a déjà été atteint. Sur la page consacrée au projet, Anthropic invite à s’inscrire sur une liste d’attente.

Commentaires (3)

votre avatar
Claude 3.7 Sonnet, peins moi des nymphéas.
votre avatar
Mes talents, je les monnaie.
votre avatar
Il va falloir qu'ils soient pointilleux pour m'impressionner :D