Après Sonnet 4.6 chez Claude, Gemini 3.1 Pro promet un raisonnement amélioré
Brain Dead
Le 20 février à 11h51
La course aux LLM se poursuit chez les grands noms de l’IA avec, cette semaine, deux annonces successives, qui concernent respectivement Claude Sonnet 4.6, dernière version en date du modèle généraliste d’Anthropic et Gemini 3.1 Pro qui, chez Google, promet des capacités améliorées en matière de raisonnement.
Après Sonnet 4.6 chez Claude, Gemini 3.1 Pro promet un raisonnement amélioré
Brain Dead
La course aux LLM se poursuit chez les grands noms de l’IA avec, cette semaine, deux annonces successives, qui concernent respectivement Claude Sonnet 4.6, dernière version en date du modèle généraliste d’Anthropic et Gemini 3.1 Pro qui, chez Google, promet des capacités améliorées en matière de raisonnement.
Le 20 février à 11h51
IA et algorithmes
IA
4 min
Le calendrier s’accélère encore sur le front des grands modèles de langage, avec deux sorties quasi concomitantes cette semaine : Claude Sonnet 4.6 chez Anthropic et Gemini 3.1 Pro chez Google. Deux semaines plus tôt, ce sont Claude Opus 4.6 et GPT-5.3 Codex qui s’affrontaient dans l’actualité, illustrant le caractère presque frénétique du rythme de publication adoptés par les acteurs de l’IA générative.
Sonnet 4.6 se rapproche d’Opus
Chez Anthropic, Opus (le modèle haut de gamme dédié aux tâches complexes) n’aura pas conservé longtemps l’exclusivité des nouveautés de Claude 4.6. Sonnet (le modèle courant proposé par défaut, moins gourmand en tokens) intègre en effet les principales, à commencer par sa fenêtre contextuelle désormais étendue à un million de jetons. Ce paramètre est important pour les usages avancés, puisqu’il définit la quantité d’information que le modèle peut traiter et conserver en mémoire dans le cadre d’une conversation avec l’usager.
Anthropic ne détaille pas les emprunts précis de Sonnet à Opus, mais affirme dans le tableau qui résume les performances de ses modèles et les compare à la concurrence que Sonnet 4.6 talonne, voire dépasse, son aîné sur la plupart des scénarios fonctionnels (code, analyse financière, traitements agentiques). Opus 4.6 garderait tout de même une longueur d’avance sur les raisonnements complexes.
Face à la concurrence, les deux modèles 4.6 seraient supérieurs à GPT-5.2 et Gemini 3 Pro sur la plupart des scénarios d’usage. Rappelons que les chiffres présentés dans ce tableau émanent d’outils de mesure (benchmarks) choisis et opérés par Anthropic. L’entreprise double ces mesures de quelques sondages réalisés auprès de ses utilisateurs, qui mettent quant à eux en lumière un réel progrès en passant de 4.5 à 4.6, notamment sur le code.
Sonnet 4.6 est désormais utilisé par défaut sur tous les abonnements à Claude, y compris dans sa version gratuite. « Nous avons également mis à niveau notre offre gratuite vers Sonnet 4.6 par défaut ; elle inclut désormais la création de fichiers, les connecteurs, les compétences et la compression. », indique à ce sujet l’entreprise.
Gemini 3.1 Pro mise sur le raisonnement
Chez Google, c’est donc le déploiement de Gemini 3.1 Pro qui commence au travers des différents produits et modèles de la gamme.
3.1 Pro offrirait, selon Google, des performances doublées en matière de raisonnement sur ARC-AGI-2, l’outil de mesure de la fondation ARC Prize, qui fait aussi office de mètre étalon chez Anthropic. Gemini 3.1 Pro obtiendrait à ce niveau un score de 77,1 %, soit près de dix points de plus que ce qu’obtient Claude Opus 4.6.
Au-delà des performances synthétiques, Google promet une amélioration sensible des performances dans les usages appliqués, prenant comme exemple la génération d’une animation SVG à partir d’une requête texte.
« À compter d’aujourd’hui, Gemini 3.1 Pro est déployé dans l’application Gemini avec des limites plus élevées pour les utilisateurs disposant des abonnements Google AI Pro et Ultra. La version 3.1 Pro est également disponible sur NotebookLM, exclusivement pour les utilisateurs Pro et Ultra. Les développeurs et les entreprises peuvent dès maintenant accéder à la version préliminaire de Gemini 3.1 Pro via l’API Gemini, grâce à AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI et Android Studio. », précise Google.
Après Sonnet 4.6 chez Claude, Gemini 3.1 Pro promet un raisonnement amélioré
-
Sonnet 4.6 se rapproche d'Opus
-
Gemini 3.1 Pro mise sur le raisonnement
Commentaires (37)
Abonnez-vous pour prendre part au débat
Déjà abonné ou lecteur ? Se connecter
Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles d'un média expert
Profitez d'au moins 1 To de stockage pour vos sauvegardes
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousModifié le 20/02/2026 à 13h22
Ceci dit, pour du gratuit avec Antigravity et sur des choses simples, ça dépanne.
Dernièrement j'ai été très agréablement surpris par les progrès effectués par Codex 5.3, au plus haut niveau de réflexion, il est capable de résoudre des problèmes épineux là où bloquaient pas mal d'autres modèles qui tournaient en rond sans jamais résoudre le souci et en induisant d'autres.
Kimi K2.5 a également un gros avantage en terme de lisibilité et à commenter le code, les deux ensemble font du bon boulot. Claude est surtout très bon sur le raisonnement, lui, et l'écriture d'une documentation technique, du reverse engeenering.
Le 20/02/2026 à 15h05
Pour certains, j'ai limite l'impression que si demain un outil chiait du code parfait en tout points, ils en seraient encore à cracher dessus, par principe, en réfutant tout progrès en la matière...
Le 20/02/2026 à 15h30
Modifié le 20/02/2026 à 16h38
Tu es tout de même l'un des commentateurs les plus anxiogènes et le moins ouvert sur certains sujets (je n'en ai pas en tête mais je me fais souvent cette réflexion à la lecture de tes posts) mais tu demandes de l'ouverture lorsque le sujet te touche.
Le 20/02/2026 à 19h42
Le 20/02/2026 à 16h45
Courage aux “devs” antitechnologie
pour moi, si tu perds ton taf à cause d’une IA, c’est que tu n’étais pas vraiment dev
Le 21/02/2026 à 18h54
Modifié le 22/02/2026 à 16h04
Faut prendre ça comme ce que c'est, un junior/stagiaire.
Le 22/02/2026 à 18h50
J'ai testé le vibecoding sur un projet (le "vrai" vibecoding, où je n'intervenais pas directement sur le code, uniquement via des prompts).
A plusieurs reprise, je lui donne comme consigne de faire un truc comme ci, il me le fait finalement comme ça (par ex: utilise la bibliothèque 7z pour gérer la compression, il a préféré utiliser SharpCompress). Il a fallu insister à plusieurs reprises pour qu'il "m'obéisse".
C'était ClaudeCode pour info.
Le 22/02/2026 à 19h28
Le 22/02/2026 à 20h29
Je pense qu'une bonne consigne peut aider sur certaines choses (notamment sur les conventions de nommage ou sur les bonnes pratiques à suivre par exemple).
Par contre, quand tu lui demandes de faire un truc, il devrait le faire, pas faire autrement.
Je l'ai vu aussi ramer dès que le projet commençait à être un peu plus gros. Très fort pour démarrer le projet par contre et pour avancer rapidement au début.
2 ou 3 aller retour, tu dois vraiment avoir des projets simples. Sur des projets complexes, j'étais bien au delà.
Par contre, là où j'ai trouvé qu'il était très bon, c'est pour les refactorings. Modifier une signature de méthode et répercuter les modifications sont fait très bien.
En vibe coding, à part pour un POC ou un projet rapide, ne n'y crois pas.
Par contre, en tant qu'assistant en "pair programming" là, il est beaucoup plus bon. Mais cela sous-entends qu'il soit utilisé par un développeur confirmé/senior.
Le 01/03/2026 à 12h36
J'ai pas des projets simple, j'ai des app en production et aussi des POC avancés en IA pour de grands groupe. il faut pas lui demander de faire 10 trucs en même temps (sauf pour ceux avec du github copilot facturé au prompt). Avoir des agents/persona bien défini, faire attention à la fenêtre de contexte, préféré une spec ecrite à une spec en mémoire qui se perd ou avec de la perte si kv cache en q8, etc. il y a beaucoup d'éléments à mettre en place. Vibe coding ça veux pas dire: ia fait mon projet je vais faire autre chose. C'est travailler avec l'ia pour preparer et pendant l'execution, surveiller ce qu'elle fait pour la guider. c'est pas launch and forget. c'est un tandem. Et si la personne n'a pas assez de connaissance dev, oui, ça par dans des mauvaises directions, mais ya des outils pour ça. si on a de très gros projet, du spec kit aide, mais je trouve ça bien trop lourd. Je suis beaucoup plus dans l'idée de https://addyosmani.com/blog/good-spec/
ça permet de rarement se planter. et quand ça loop, un petit "do step by step" débloque pas mal de fois:P
Le 22/02/2026 à 19h52
Le 22/02/2026 à 20h30
Le 23/02/2026 à 00h47
Pour ma part, j'ai un gros pre-prompt de cadrage que je lui envoie avant de commencer le travail pour m'assurer qu'il fasse tous les contrôles qualité nécessaire et qu'il respecte les objectifs. J'ai toutefois été parfois agréablement surpris de le voir répondre par la négative à une injonction de refactoring et d'argumenter pour démontrer le poids de la modification et son impact négative pour l'évolution du code.
Avec les bonnes précautions sur des tâches pas trop complexes, le résultat va de moyen à très bon.
Le 23/02/2026 à 17h07
Le 23/02/2026 à 19h49
Le 20/02/2026 à 16h51
Dommage qu'on ne voit pas les pseudos de ceux qui réagissent.
l'IA c'est un sujet comme la Politique et Microsoft sur Next, des avis bien tranchés pour certains.
Le 20/02/2026 à 19h41
Pour la documentation en anglais, c'est vraiment génialissime aussi.
C'est capable de pondre du code "boilerplate" sans problème majeur.
Mon sujet du moment c'est mon algorithme RCU tout en C11 (avec instructions atomiques). Là ça rame un peu et on atteint les limites du raisonnement non-humain (pour le moment !).
Je l'ai laissé faire sur un truc et il m'a pondu un code 100% foireux. Je lui ai gentiment fait remarqué qu'il avait pondu un code "Mickey Mouse" et que je reprenais la main, et lui donnerait le résultat pour critique/vérification.
Même à ce niveau de complexité, il est capable :
L'amélioration est flagrante depuis Gemini 2.5, je verrai ce qu'il en est pour 3.1
Par contre au début ça paraissait quasi "illimité" en mode "gratuit", là c'est devenu sacrément bas en limite token. Aussi j'ai changé de stratégie, je ne l'interpelle que pour "du travail" et je n'essaye pas de lui expliquer ce qu'il a fait de faux... ce serait un travail "gratuit" d'entraînement, pas envie de le faire puisque la "générosité réciproque" s'est réduite !
Pas testé Claude car il persiste à demander un numéro de téléphone.
Codex c'est chez qui ?
Le 20/02/2026 à 15h15
J'ai testé Codex 5.3 pour la première fois hier et il a produit un algo impressionant mais à côté de la plaque, en interprétant beaucoup trop littéralement les instructions, là où Opus et Gemini donnent parfois l'impression de lire dans mes pensées.
Gemini 3 Pro partait parfois dans des boucles de pensées peu productives et cet aspect semble avoir été largement amélioré avec Gemini 3.1 Pro.
Modifié le 20/02/2026 à 23h40
Je suis assez partagé jusque là : le gain de temps est là, mais il y a fréquemment des ratés (changements qui font tout foirer, commentaires à coté de la plaque), et niveau résultat c'est souvent raté (des éléments graphiques placés n'importe comment, du texte en blanc sur fond blanc, etc.)
J'y vais petit pas par petit pas, je sais ce que je fais, je connais bien le langage et le module, bien assez pour comprendre et corriger les edits proposés. Au final, ça écrit beaucoup de code, avec assez peu d'erreurs à l'exécution, mais le résultat en sortie est souvent bancal, parfois à retravailler, mais encore trop souvent à jeter. Quand je lui demande de factoriser le code, il me flingue systématiquement des trucs critiques.
Ça vient peut-être de la nature très visuelle du projet, difficile à comprendre niveau machine.
Modifié le 20/02/2026 à 21h51
Avec Sonnet 4.5 je fait très régulièrement des refacto assez complexes de la migration bdd jusqu'aux tdd et la qualité s'améliore franchement, de moins en moins besoin de retoucher et avec plusieurs dizaines voire centaines de fichiers modifiés.
Il faut bien entendu rester vigilant et savoir ce qu'on fait, mais par contre bien utilisé la productivité explose...
Ceux qui ne s'y intéressent pas ou le dédaigne resteront sans doute au bord de la route.
Le 20/02/2026 à 23h51
A trop dépendre d’un outil qu’on ne posséde pas, on peut vite se retrouver dépasser en cas de problèmes.
Le 21/02/2026 à 09h21
Ça ne dispense pas de continuer à se renseigner sur les documentations/api/bugs connus, ça ne dispense pas d'acquérir une base de réflexion pour les juniors, ça ne dispense pas de valider l'architecture en fonction des design pattern connus.
Par ailleurs, s'orienter sur la maîtrise d’œuvre impose :
Pour identifier et corriger efficacement toutes les hallucinations possibles de l'IA. Mais de toute façon tout dev est déjà supposé le faire.
Si demain l'IA n'est plus disponible, aucun problème il suffira de réécrire soi-même comme avant ce sera juste plus lent et plus chiant.
Si tu te retrouves bloqué sans elle, c'est que tu l'as mal utilisé.
Néanmoins j'approuve totalement ce qui a été dit précédemment, le gain de productivité est massif et ceux qui passent à côté du train vont s'en mordre les doigts un jour.
Le 21/02/2026 à 10h25
Je veux dire, j'en ai vu des projets mal foutus, codés par des gens pas compétents, pas rapides pour coder, sans tests, ni doc, sans gestionnaire de versions (sisi en 2026 ça existe encore malheureusement), où le moindre changement introduit plus de bogues que ça n'en résout. Et pourtant malgré tout en 2026 on les croise encore, les produits se vendent malgré la concurrence qui fait mieux et est plus productif.
Si la productivité brute était la seule métrique qui régissait ce monde, ça se saurait. Alors peut être que tu as raison mais c'est un peu péremptoire de l'anticiper alors que l'histoire économique grouille de contre exemples du genre.
L'autre point important avec l'IA c'est aussi qu'on manque de recul dans son usage à long terme. Il est clair que plus on délègue de tâches, plus ces tâches on ne sera plus trop compétent sur le temps long. C'est connu bien avant l'IA et ça ne changera pas avec (pensons aux développeurs promus avec des responsabilités). Et ça peut poser des soucis, que ce soit si l'IA manque ou si l'IA ne s'en sort pas ou si tout simplement on veut suivre ce qu'elle produit convenablement.
D'expérience, on comprend toujours moins le code qu'on relit que celui qu'on écrit et c'est normal. On passe moins de temps à réfléchir à son implémentation donc on perd une partie des étapes qui aide à s'en souvenir. Et relire du code, en particulier en gros volume, c'est aussi moins sexy pour beaucoup de gens donc on a plus de mal à s'y mettre. La conséquence est que le niveau de maitrise du code exécuté est probablement plus faible quand l'IA le génère que quand on le fait soi même. D'ailleurs il n'est pas rare que certains adeptes des IA pour coder mentionne cet aspect sur leur blog et conseillait d'y être vigilant.
Le soucis c'est que l'IA très efficace sur le code c'est très récent. Donc ceux qui mesurent de belles choses le font sur des projets et des technologies qu'ils maitrisent déjà depuis quelques temps et donc il n'y a pas encore ce recul de long terme concernant les limites en terme de compréhension et de suivi ce qu'on pourrait nommer le "déskilling". Ou ils le font sur des petits projets souvent jouets où l'enjeu n'est pas là au niveau du long terme.
L'autre point aussi et ça se constate partout, tous les projets informatiques ne sont pas les mêmes et clairement l'IA semble s'en sortir mieux pour certaines tâches ou algos que d'autres. D'où le fait que certains mesurent des gains considérables pour leur activité alors que d'autres mesurent des gains bien plus modestes sans que cela ne soit qu'une question de savoir ou non s'en servir.
Comme pour un bilan carbone où cela s'évalue sur l'ensemble du cycle de vie, on ne mesurera le gain réel aussi que sur l'ensemble du cycle de vie de développement de ces projets ce qui prendra des années. On ne peut pas tirer de bilans définitifs avec quelques mois d'expérimentations.
Le 21/02/2026 à 18h58
Modifié le 21/02/2026 à 15h02
J'adore coder, c'est pour moi une création presque artistique. Partir d'une feuille blanche pour résoudre un problème me procure une satisfaction intellectuelle immense. Et quoi de plus beau au final d'aboutir à un code parfaitement pensé, documenté et répondant au problème de manière simple et optimisée ?
Le seul intérêt pour moi de l'IA est comme moteur de recherche amélioré (et encore, car même là il faut souvent vérifier par rapport à la documentation réelle).
Le 21/02/2026 à 19h37
Modifié le 21/02/2026 à 20h30
Evidemment qu'il y a parfois de la répétition, mais c'est normal, un même problème a souvent la même solution, mais je ne vois pas ce qu'il y a de chiant là dedans, d'autant que suivant le contexte, il ne faut pas toujours appliquer la même solution, j'ai vu beaucoup de projets se planter à vouloir utiliser les mêmes recettes. Trop de développeurs vivent sur des acquis et ne remettent pas en cause leurs façons de faire. Il faut savoir innover et cela ne sera jamais à la portée de l'IA !
Le 21/02/2026 à 15h18
Sinon tu parles du "comme avant", mais du "comme avant" pour toi. Les jeunes générations qui arrivent sur le marché n'auront pas de "comme avant"
Le raisonnement, la logique, l'algorithmique et surtout l'expérience c'est comme tout cela se travaille ou cela se perd.
Le 21/02/2026 à 19h22
Le 21/02/2026 à 17h38
Le 21/02/2026 à 19h21
Le 22/02/2026 à 10h46
Et les premières victimes de ce remplacement sont les juniors, ce qui veut dire que toute la profession est menacée à terme car pas de juniors. On est sans doutes face à une forme très agressive de révolution industrielle, de marche du progrès, mais j'ai l'impression que les dégâts sur le savoir et la maîtrise des technologies par l'humain sont gigantesques.
Le 22/02/2026 à 12h11
Ce qui est d'autant plus dommageable qu'avant de devenir expert, tous les experts passent par une phase junior. Donc à force de remplacer les juniors... l'avenir promet d'être radieux...
Le 22/02/2026 à 13h43
Entre ça et le réchauffement climatique et la mort du droit international , j'ai de plus en plus l'impression de vivre dans une démonstration du paradoxe de Fermi appliquée à notre espèce.
Le 23/02/2026 à 06h57
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?