Connexion Premium

Claude Code réfléchissait trop, puis plus assez : Anthropic corrige le coup de mou

Réflexion profon… 😴

Claude Code réfléchissait trop, puis plus assez : Anthropic corrige le coup de mou

Anthropic

Le coup de mou qui a affecté Claude Code ces dernières semaines n’était pas une vue de l’esprit. Anthropic a constaté l’existence de problèmes, et les a corrigés.

Claude Code a connu des soucis de fonctionnement entre la fin du mois de mars et mi-avril. Des utilisateurs se sont plaints d’une dégradation du service. Suite à des témoignages, Anthropic a mené l’enquête, et a déterminé trois problèmes qui ont été résolus le 20 avril avec la version v2.1.116.

Claude Code en baisse de régime

Dans son post-mortem, l’entreprise assure ne pas « dégrader intentionnellement » ses modèles et confirme que Claude Agent SDK et Claude Cowork sont également touchés, mais pas l’API ni la couche d’inférence.

Le premier souci remonte au 4 mars, un mois après le lancement d’Opus 4.6 : le niveau de raisonnement par défaut est passé de « high » – la valeur lors de son lancement début février – à « medium » pour « accélérer » les réponses, suite à des retours d’utilisateurs.

Avant ce changement, le modèle prenait plus de temps pour réfléchir et consommait aussi plus de tokens. Mais, en retour, il générait des réponses plus solides. Le hic, c’est que dans certains cas, la latence apparaissait très longue, donnant l’impression que l’interface était figée, que les réponses arrivaient tardivement (et pour cause), et que la consommation de tokens explosait.

Image : Anthropic

La modification d’Anthropic avec le niveau de raisonnement « medium » a bien eu l’effet escompté : moins de tokens consommés, plus de rapidité et de stabilité… mais des réponses moins recherchées. Face aux retours négatifs, Anthropic a fait machine arrière le 7 avril en basculant les modèles sur « high effort » et Opus 4.7 sur « xhigh effort », un nouveau palier mis en place pour le nouveau modèle.

Deuxième problème, qui est cette fois un bug : le 26 mars, l’entreprise active la mise en cache des requêtes (prompt caching), et après une période d’inactivité dépassant l’heure, supprime une partie de l’historique. L’idée était de réduire le nombre de tokens envoyés, d’accélérer la reprise d’une session et au bout du compte de diminuer les coûts.

Image : Anthropic

L’implémentation a cependant débouché sur la suppression de chaque nouveau message après le seuil d’inactivité, au lieu de supprimer l’ancien raisonnement une seule fois. Claude Code ne conservait donc qu’un fragment très récent de contexte. Côté utilisateur, les conséquences ne se faisaient pas attendre : oubli du contexte fâcheux, répétitions, choix d’outils incohérents… Le modèle agissait, mais sans se souvenir pourquoi !

Autre écueil : en supprimant ainsi le contexte à chaque prompt, les requêtes ne retrouvent plus les données et doivent être recalculées entièrement, comme si le système repartait de zéro à chaque fois. Résultat : davantage de tokens consommés et l’impression que les quotas fondent comme neige au soleil. Le diagnostic a été difficile à établir, il a fallu plus d’une semaine pour le débusquer ; il a finalement été corrigé le 10 avril. Pour l’anecdote, Opus 4.7 a détecté le bug suite à son analyse, alors qu’Opus 4.6 n’a rien trouvé.

Enfin, le passage à Opus 4.7 avait tendance à produire des réponses longues et donc à engloutir les tokens. Anthropic a limité les réponses à 100 mots maximum et restreint les échanges entre appels d’outils à 25 mots. Mais en réduisant le verbiage, Claude Code a aussi réduit sa capacité à penser en profondeur. Introduite le 16 avril, la consigne a été retirée quatre jours plus tard.

Pour éviter que de tels problèmes se reproduisent, Anthropic s’engage à utiliser plus régulièrement la version publique de Claude Code, et moins des versions de test. Des analyses détaillées seront produites pour comprendre l’impact des changements, des outils pour réaliser des audits et suivre les modifications ont été développés, et des tests seront effectués pour chaque modification du système de prompts. Et histoire de se faire pardonner, les quotas d’usage ont été réinitialisés pour tous les abonnés.

L’entreprise a également créé un compte X dédié @ClaudeDevs « afin de pouvoir expliquer en détail nos décisions produit et leurs justifications. Nous partagerons également ces informations dans des fils de discussion GitHub ». Enfin, dans le billet du 23 avril, Anthropic annonce avoir « réinitialisé les limites d’utilisation pour tous les abonnés ».

Commentaires (11)

votre avatar
On commence entrapercevoir que les choix technico-économiques sont nécessaires.... Ces modèles sont lourds en infrastructures et cher en inférence, les choix sont nécessaires pour que ce soit viable économiquement.
votre avatar
Exactement, Claude souffle le chaud et le froid et cherche de la rentabilité, ni plus, ni moins.

Le problème, est exactement le même que ce qu'a connu Shadow avec le cloud gaming. Comment rentabiliser un service qui réclame des investissements colossaux permanents et de grosses mises à jour du hardware ?

Réponse : pas possible, sauf à diminuer drastiquement les coûts avec des puces spécialement développées et beaucoup moins chères et énergivores que le matos de Nvidia... Mais ce qui entraîne, forcément des limites quand à l'évolutivité de ce qui est supporté...
votre avatar
De ce que je lis ici et là, on s'attend à ce que les forfaits de base (20€/$ env.) augmentent plus ou moins sévèrement.
Lorsque la drogue gratuite ou à peu près aura sans doute atteint son objectif..
votre avatar
Pour éviter que de tels problèmes se reproduisent, Anthropic s’engage à utiliser plus régulièrement la version publique de Claude Code, et moins des versions de test. Des analyses détaillées seront produites pour comprendre l’impact des changements, des outils pour réaliser des audits et suivre les modifications ont été développés, et des tests seront effectués pour chaque modification du système de prompts.
Tout cela laisse entendre qu'ils poussaient en prod des modifications trop rapidement sans les tester "en vrai" et sans évaluer les risques.

C'est bien qu'ils se soient aperçu du problème, mais c'est quand même le B.A BA du développement logiciel.
votre avatar
Oui tout à fait...
Il n'est pas rare d'avoir plusieurs mises a jour de claude code dans une journée (channel: latest).
:(
votre avatar
c'est quand même le B.A BA du développement logiciel.
Pousser en prod sans tester ? :D
votre avatar
Les tests E2E coûtent cher alors que les utilisateurs peuvent le faire...
Hé mais attend... Ça se tient en fait.
votre avatar
J'ai toujours dit que la prod était la meilleure des qualifs.
votre avatar
Le bon vieux précepte : Tester c’est douter
votre avatar
Suivi de : ...et corriger, c'est abdiquer !
votre avatar
Pas du tout, ils utilisent Claude Code pour développer donc c’est garanti 100% sans bogues. :francais: