Connexion Premium

Claude lance Code Review, un outil de luxe pour faciliter la relecture de code

Le 10 mars à 16h22

Créer le problème pour ensuite vendre la solution : de façon probablement non intentionnelle, Anthropic vient de faire sien l’un des principes de base du marketing. L’entreprise a en effet annoncé lundi 9 mars le lancement d’un nouvel outil, pour l’instant limité aux clients des plans Teams et Entreprise : Claude Code Review, un ensemble d’agents IA dédiés à la relecture du code.

Elle explique avoir développé cette nouvelle brique de son offre en raison d’un problème auquel elle a été directement confrontée : la quantité de code produite par chacun de ses ingénieurs aurait augmenté de 200 % en 2025, et ce gain de productivité généralisé se traduirait par un goulet d’étranglement au niveau de l’étape de la relecture de code (code review), c’est-à-dire l’étape à laquelle une pull request (PR) est relue avant d’être fusionnée au niveau d’un dépôt.

L’outil tournerait déjà en interne :

« Chez Anthropic, Code Review tourne sur presque toutes les PR. Auparavant, seulement 16 % d’entre elles recevaient des commentaires de relecture pertinents. Ce taux atteint désormais 54 %. Le système n’approuve pas les PR – la décision finale revient toujours à un humain – mais il comble les lacunes pour que les relecteurs puissent réellement se concentrer sur les modifications déployées ».

Anthropic

En pratique, Code Review prendrait la forme non pas d’une instance unique, mais d’une multitude d’agents chargés d’examiner en parallèle le code à la recherche de bugs. Anthropic revendique, sur la base de ses usages internes, une efficacité supérieure à 99 % (moins de 1 % des retours formulés par Code Review seraient considérés comme incorrects).

Anthropic ne rentre pas dans le détail du degré de précision des agents mis en œuvre ou de la façon dont la relecture de code est parallélisée. « Chaque agent recherche un type de problème différent, puis une étape de vérification compare les candidats au comportement réel du code afin d’éliminer les faux positifs. Les résultats sont dédupliqués, classés par ordre de gravité et affichés sous forme de commentaires directement sur les lignes de code concernées. », explique simplement l’entreprise.

Réalisée sur ses infrastructures, la relecture de code se révèle logiquement gourmande en ressources. Sur ce point, Anthropic évoque un coût unitaire de l’ordre de 15 à 25 dollars par relecture de PR, en précisant que ce dernier est bien sûr proportionnel à la taille et à la complexité de l’échantillon soumis à examen. L’entreprise propose donc aux administrateurs de piloter le déploiement de Code Review auprès de leurs équipes soit à partir d’un quota mensuel (distribué à tous), soit en autorisant l’accès à l’échelle du dépôt.

Le 10 mars à 16h22

Commentaires (13)

votre avatar
15 à 25 dollars ? La douiiiiille !

Ceci était un commentaire moyennement constructif mais probablement que d'autres auront la même réaction.

Par contre on est d'accord que le problème qu'ils ont créé et auquel ils apportent [leur] solution c'est pas (seulement) les 200% de code en plus mais plutôt la qualité du code GenIA et des rapports de bug GenIA, non ?
Ou alors est-ce pour compenser les suppressions de postes pourtant déjà justifiées par les gains énormes de productivité ?

Bref, W12 rame au boulot et c'est chiant. Mais j'ai pu donner un screenshot à Gemini pour qu'il me redonne les deux tableaux capturés en texte donc on ne peut pas dire que ça ne m'a servi à rien l’IA aujourd'hui. J'ai bien gagné ... 1-2 minutes 😅
votre avatar
Mais j'ai pu donner un screenshot à Gemini pour qu'il me redonne les deux tableaux capturés en texte
T'as vérifié le texte en sortie quand même ? 😬

Sinon pour avoir tester un peu le code avec les LLMs, par défaut c'est conçu pour ch#er du code, par pour bien le faire. Il me génère souvent des fonctions qui font presque la même chose qu'une fonction existante : je lui demande souvent de factoriser tout ça. Et ça marche pas à tous les coups, je le fais souvent "à la mano" pour aller plus vite ...

Bref, une machine pour générer plus de code et de bugs que nécessaire, une machine pour review le code en trop (en admettant que ça soit efficace), et dans les ténèbres les lier ...
votre avatar
Oui j'ai vérifié rapidement mais ce n'est pas mon premier essai. C'est vraiment cool en vrai de pouvoir écrire un bout de phrase et joindre une image et d'obtenir le résultat formaté. Je ne sais pas comment ça tourne derrière. Appel d'une OCR standard ou via le modèle lui-même ? Je ne sais pas.

Je suis souvent bluffé par ses IA. C'est limité mais impressionnant sur de nombreuses tâches.

J'en profite pour faire la promo du dernier Podcast de Mathilde : Entre la chaise et le Clavier. J'ai écouté le premier épisode ce soir et c'était top !
votre avatar
« Créer le problème pour ensuite vendre la solution » Je passe beaucoup de temps à relire du code (des tartines) généré par d'autres avec de l'IA et ça rend cette part du boulot (croissante) particulièrement déhumanisante. L'avenir est sombre.
votre avatar
Je vis la même chose.
Le pire est qu'on est obligés d'utiliser l'outil qui va nous remplacer.
votre avatar
Pourtant c’est pas compliqué, c’est une question de politique et de relations humaines.

Perso 90% de mon code est généré par des LLMs mais je considère toujours que ça reste du code dont je suis garant de la qualité. Donc je relis et je n’envoie pas en PR du code que je ne comprends pas et dont je ne suis pas moi même content.

Si tes collègues t’envoient de la tartine en review, ce n’est pas un problème d’IA, c’est un manque de professionnalisme de leur part.
votre avatar
+1

Le problème n'est pas tant le code généré par IA. Mais plusieurs choses :

  • l'incompréhension sur le fonctionnement de l'IA Gen (beaucoup l'utilisent, peu sauront expliquer ce qu'est un LLM, le fait qu'il "hallucine" en permanence, ce qu'est un token, etc) ;

  • cela donne un aspect "magique" : beaucoup posent alors leur cerveau et font une confiance aveugle à la sortie générée ;

  • on en revient donc au fait que l'IA peut amplifier des capacités... bonnes comme mauvaises (et c'est souvent le second cas qui prévaut malheureusement).



Personnellement j'utilise aussi l'IA au quotidien pour dev. Et je "vibe code" même totalement certains projets perso.

Mais autant pour du perso, sur un langage que je ne maîtrise pas/peu, je reste tolérant.
Autant dans le pro je ne me vois pas pousser une PR en review sans l'avoir moi-même review avant...

Et ce dernier point prévalait déjà avant l'IA.
Donc ceux qui poussent du slop faisaient déjà, majoritairement, de la merde avant. Sauf que c'était moins impactant car la volumétrique était moindre. Mais le problème était déjà là.
votre avatar
Si tes collègues t’envoient de la tartine en review, ce n’est pas un problème d’IA, c’est un manque de professionnalisme de leur part.
Exactement.

Accessoirement, je vois le même cas de figure sur d'autres aspects projets dont la partie juridique. Quand j'entend des chefs de projet demander "conseil" à ChatGPT pour du juridique au lieu d'aller voir le service de l'entreprise ("ouais mais c'est chiant on a pas de réponse clair", bah oui, c'est le jeu du juridique qui donne le cadre, pas la solution !), je me dis juste : darwinisme.

Le problème étant qu'en entreprise, les gens motivés sont rarement récompensés, les incompétents ayant la désagréable capacité à savoir mieux faire du bruit.
votre avatar
Le problème étant qu'en entreprise, les gens motivés sont rarement récompensés, les incompétents ayant la désagréable capacité à savoir mieux faire du bruit.
Et les compétents on les poussent vers le haut du tas managérial. Ce qui accentue le principe de Peter.
Et une fois au dessus, tu devient responsable du bruit, sans avoir les moyens d'y remédier.
Alors que dans la cage aux fauves, tu peux encore intervenir un minimum pour que ce qui sort soit un tant soit peu potable.

3615 mylife :roll:
votre avatar
Si tes collègues t’envoient de la tartine en review, ce n’est pas un problème d’IA, c’est un manque de professionnalisme de leur part.
J’aurais dû être plus précis, désolé. Le code fourni récemment est assez pertinent, mais:

  • vu que la productivité d’« écriture » du code (pour moi la partie la plus motivante, avec la conception et l’architecture) augmente, la part requise pour la revue du code des autres prend mécaniquement une place encore plus importante en proportion dans mon temps de travail.

  • le pire ce sont pour les tests unitaires: un LLM est très rapide pour les générer. D’une part ça peut effectivement être un gros problème de professionnalisme: des tests générés à partir du code à tester loupent totalement l’intérêt de tester le code face au cahier des charges. Mais même si ce code est pertinent, tester tous les scénarios du code est verbeux (même fait par un humain), et si ça demande peu d’efforts à générer ça demande des heures à relire.

votre avatar
Pour le second point, est ce qu'il y a des IA qui savent faire du TDD correct peut-être ? (Perso comme je ne suis pas dev, pour l'instant mon usage de la génération de code par IA reste limité à la création de proto rapides donc je ne me suis pas intéressé à ce genre de questions)
votre avatar
Magique, le code est écrit par l'IA, et la vérification est faite par IA. Bien sûr, on nous dit que c'est l'humain qui validera in fine le commit, mais en pratique, combien d'humains valideront sans analyser aux-même la demande ?
votre avatar
Je vais dire quelque chose qui va fâcher.
Je suis aussi touché que beaucoup par la vague LLM.
Cependant, je note que lorsqu'il s'agissait de l'impact du progrès sur les autres (exemple les secrétaires ), on (je m'inclu dedans) jugeait peu important la fin de l'employabilité pour certains métiers au motif qu'il ne fallait pas freiner le progrès.
Maintenant que nous sommes touchés à notre tour, le progrès devient un problème.

Un bel exemple de notre égoïsme non?