Depuis son retour, Claude Fable 5 fait beaucoup moins rêver

Toxicité politique

Anthropic

Vincent Hermann

Le 03 juillet à 17h41

Depuis son retour, Fable 5 est la cible de critiques virulentes sur ses performances. Le modèle ne semble pas présenter les mêmes capacités qu’avant son blocage, suite à la directive de la Maison-Blanche. Même Mythos 5 semble perdre de sa superbe.

Depuis son retour, Claude Fable 5 fait beaucoup moins rêver

Toxicité politique

Anthropic

Vincent Hermann

Le 03 juillet à 17h41

IA et algorithmes

7 min

Rappelons rapidement quelques éléments chronologiques. Le 9 juin 2026, Anthropic lance Claude Fable 5, une version de Mythos 5 disposant de garde-fous et présenté alors comme le modèle le plus « capables » de l’histoire de l’entreprise. Trois jours plus tard, une directive de contrôle des exportations, signée par la Maison-Blanche et juridiquement contraignante, force Anthropic à suspendre l’accès aux deux modèles pour tout ressortissant étranger, y compris ses propres employés non-américains. Le décret conduit l’entreprise à un arrêt mondial pour tous les clients, Anthropic ayant jugé impossible de filtrer les utilisateurs par nationalité en temps réel.

Le déclencheur invoqué était un rapport de chercheurs d’Amazon selon lequel Fable 5 aurait pu être manipulé (jailbreaké) pour livrer des informations exploitables dans des cyberattaques. En toile de fond, des soupçons qu’un groupe lié à la Chine ait pu accéder à Mythos, ce qui faisait craindre une rétro-ingénierie ou une distillation par un adversaire étranger.

Fin juin, le Department of Commerce lève ces contrôles. L’accès à Fable 5 est restauré le 1ᵉʳ juillet sur Claude Platform, Claude.ai, Claude Code et Claude Cowork. Mythos 5, lui, reste réservé aux partenaires vérifiés du programme Glasswing, comme on l’a vu avec Mozilla.

Au-delà du temps perdu par Anthropic (environ trois semaines), le retour de Fable 5 ne s’est pas fait sous les cotillons. Ses performances, selon les cas d’utilisation, semblent en fort retrait. Pendant ce temps, l’utilisation des modèles chinois grimpe rapidement.

Kaboum !

Dans la plupart des résultats obtenus avant le retrait de Fable 5, de nombreux sites ont relevé les excellentes performances du modèle, notant souvent un saut générationnel significatif. Parmi les notes obtenues : 80,3 % sur SWE-Bench Pro (contre 69,2 % pour Opus 4.8), 64,5 % sur Humanity’s Last Exam avec outils (contre 57,9 % pour Opus 4.8 et 52,2 % pour GPT-5.5), et ainsi de suite pour tous les benchmarks majeurs (FrontierCode Diamond, OSWorld-Verified, GDPval-AA, Terminal-Bench 2.1), comme relevé notamment par Datacamp.

Pour Every, le résultat était encore plus tranché : Fable 5 était tout simplement « le meilleur modèle de programmation ». La société en tenait pour preuve le score de 91/100 obtenu sur leur propre benchmark « Senior Engineer », contre 63 pour Opus 4.8 et 62 pour GPT-5.5. Même son de cloche chez BenchLM.

C’est là que le tableau se complique singulièrement depuis le 1ᵉʳ juillet. Le retour de Fable 5 s’est accompagné d’un nouveau classificateur de cybersécurité, et selon des données publiées le 2 juillet par la plateforme de test BridgeMind, les scores de débogage TypeScript de Fable 5 se sont effondrés de 70 %, comme relevé par Tech Times.

Pourquoi une telle chute ? A priori, pas parce que le modèle en lui-même est devenu moins performant. La faute semble bien incomber au nouveau classificateur, qui redirige une part des requêtes liées à la programmation vers Opus 4.8, sans que les utilisateurs en soient toujours informés.

Il reste 67% de l'article à découvrir.

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

La suite de cet article est réservée à nos abonnés

Soutenez un journalisme indépendant,
expert et sans pub.

Abonnez-vous sur next.ink/subs

Commentaires (16)

SebGF Premium

Modifié le 3 juillet à 19h02

C'est plutôt fréquent de voir l'effet "waouh" passer sur la sortie de nouveaux modèles pour constater ensuite une dégradation. La question de coût de fonctionnement est la première hypothèse qui me vient en tête.

Comme le Cloud à son époque, les modèles d'IA commerciaux en SaaS ne sont pas assez chers. Sauf que, contrairement au Cloud, le dumping commercial risque de moins bien marcher vu la puissance colossale requise par les modèles américains.

Et si le protectionnisme du gouvernement américain vient fourrer son nez pour bloquer l'usage, autant dire qu'ils jouent à la roulette russe avec un automatique.

Ramaloke Premium

Le 5 juillet à 16h34

De toutes façon la seule hégémonie américaine qui peut couper du jour au lendemain sans préavis l'accès au modèle devrait faire décider tout Européen à utiliser uniquement des modèles IA Locaux pour toute la partie opérationnel.

Moins puissant et plus lent certes, mais beaucoup moins cher et au moins peu importe ce qui se passe politiquement, ils continueront à fonctionner.
Ne garder que les modèles privées/SAAS que pour la partie Dev/PenTest, donc les besoins "one-shot".

La Chine a (encore) superbement bien jouer son coup. Manque plus qu'ils arrivent avec leur propre CPU et APU dédié et le marché US va s’effondrer (à raison).

SebGF Premium

Le 5 juillet à 17h45

De toutes façon la seule hégémonie américaine qui peut couper du jour au lendemain sans préavis l'accès au modèle devrait faire décider tout Européen à utiliser uniquement des modèles IA Locaux pour toute la partie opérationnel.

Ce qui est exactement ce que je fais

gg40

Le 4 juillet à 12h01

Je n'ai pas encore tester ce model. je crois que je ne vais même pas le faire.

kampuchea Premium

Le 6 juillet à 10h19

Oui. GLM devient du coup le truc à tester. Pourtant Fable était vraiment intéressant. Mais les choix suicidaires de Trump ouvrent la porte aux modèles chinois qui commencent à vraiment défoncer les choses (Kimi K2.7 est également à essayer)

Cetera Premium

Le 6 juillet à 11h18

Tu as un retour sur GLM 5.2? C'est quoi ton usage principal si ce n'est indiscret?
Note: Korben en parle en positif .

kampuchea Premium

Le 6 juillet à 11h32

GLM c’est sur le vibe-coding

C’est un collègue qui l’évalue, son retour est très positif. On a de l’attention à la qualité logicielle (sécu, respect archi et perfs) et sur le coût. La vitesse de réalisation importe peu pour nous, le drive projet non-plus (on donne la stack, les specs et les étapes)

On a une nouvelle métrique préférée : delivery par token pondéré au coût token

Cetera Premium

Le 6 juillet à 12h33

On a une nouvelle métrique préférée : delivery par token pondéré au coût token

Merci pour ta réponse!

C'est clair que c'est maintenant requis aussi chez nous.

gg40

Le 6 juillet à 18h32

Reste à trouver un endpoint de confiance pour faire de l'inférence. Chez OVH ils sont à la ramasse, que des versions anciennes.

SebGF Premium

Modifié le 6 juillet à 20h11

Reste à trouver un endpoint de confiance pour faire de l'inférence. Chez OVH ils sont à la ramasse, que des versions anciennes.

Regarde du côté d'Infomaniak si jamais, même si c'est pas non plus les mega dernières versions top moumoute, les modèles sont régulièrement mis à jours et des nouveaux sont proposés en beta.

kampuchea Premium

Le 7 juillet à 08h01

Chez Scaleway y'a aussi de bonnes options

SebGF Premium

Modifié le 7 juillet à 08h29

Jamais été voir, merci pour le ping :)

(c'est bien de varier les pâtures)

Edit : par contre leur simulateur qui affiche direct une facture à 6000 balles, ça a de quoi faire flipper

(parce qu'il met en avant l'hébergement dédié)

gg40

Le 7 juillet à 09h47

https://opencode.ai/fr/go me fait de l’œil mais c'est US.
En tout cas merci pour infomaniak et Scaleway je n'y avait pas pensé.

ROC2024 Premium

Le 6 juillet à 11h39

Je confirme l'ajout de restriction mais de ce que j'ai pu tester, il faut en mettre. En intégrant des API fin de semaine dernière avec Fable5, le modèle a trouvé une grosse faille de sécurité par accident et à bloqué directement avec suppression des informations sur la faille et rétrogradation vers le modèle opus 4.8 (j'ai prévenu immédiatement l'éditeur). En le voyant travailler, on va pas se mentir, c'est difficile a expliquer mais il y a un entraînement à la recherche d'information ou à obtenir un résultat même si ça implique casser du code sans qu'on lui demande (et avec facilité apparemment). Il faut faire attention en utilisant le modèle. Donc au minimum tous les sites/API développés avec les pieds palmés sans sécurité sérieuse ont encore plus du souci à se faire.

KooKiz Premium

Modifié le 6 juillet à 13h10

Une chose qui est unique avec ce modèle, et qui je suppose le rend bon en sécurité, c'est qu'il trouve des bugs en étant assigné à une tâche totalement différente. Plein de fois il m'a sorti un "Au passage je me suis rendu compte qu'il y a un problème avec xxx, voulez-vous que je le corrige ?". Il a vraiment un niveau de compréhension du code qui est supérieur à tous les autres modèles que j'ai pu essayer jusqu'à présent.

KooKiz Premium

Le 6 juillet à 13h06

La faute semble bien incomber au nouveau classificateur, qui redirige une part des requêtes liées à la programmation vers Opus 4.8, sans que les utilisateurs en soient toujours informés.

Je suis très sceptique sur le "sans que les utilisateurs en soient toujours informés". Dans tous les cas, il y a un réglage qu'on peut activer dans Claude Code pour désactiver la redirection vers 4.8 (la conversation se bloque au lieu de continuer avec un warning).