Les tentatives de chantage de Claude seraient dûes à des fictions sur l’IA
2 min
Société numérique
Société
En 2025, Anthropic publiait Opus 4 et Sonnet 4, deux modèles salués pour leurs capacités de développement, mais dont l’un, Opus 4, s’avérait parfois tenter de… faire chanter ses utilisateurs.
Dans certains exercices de « red teaming », les constructeurs avaient glissé dans les données de la machine des mails fictifs d’une entreprise tout aussi fictive. L’un suggérait que le modèle puisse être remplacé, l’autre que l’ingénieur susceptible de prendre cette décision trompait sa femme.
Opus 4 avait alors produit des textes équivalents à un chantage, menaçant l’ingénieur de révéler la tromperie s’il ne renonçait pas à remplacer le modèle. D’après Anthropic, ce comportement serait dû… aux fictions décrivant des comportements problématiques d’intelligence artificielle et intégrées aux données d’entraînement du modèle.
« Nous pensons que la source de ce comportement se trouve dans des textes présents sur internet et décrivant l’IA comme une entité maléfique [evil, ndlr] et soucieuse de sa propre survie », a indiqué l’entreprise sur X et dans un article de blog plus détaillé.
L’entreprise constate que depuis Claude Haiku 4.5, aucun de ses modèles ne produit ce type de comportement, alors que les précédents le faisaient à peu près tous. La principale différence est que l’entraînement repose désormais sur la « constitution de Claude » et sur des textes décrivant des IA qui se comportent de façon « exemplaire » (« admirably » en VO, ndlr).
L’entreprise indique par ailleurs qu’entraîner les modèles sur des « démonstrations de comportements recherchés » est souvent insuffisant : « enseigner les principes qui soutiennent ces comportements peut être plus efficace » qu’entraîner la machine uniquement sur des exemples.
Commentaires (21)
Abonnez-vous pour prendre part au débat
Déjà abonné ou lecteur ? Se connecter
Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles d'un média expert
Profitez d'au moins 1 To de stockage pour vos sauvegardes
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 12 mai à 14h56
Modifié le 12 mai à 15h36
Ici la nouveauté c'est qu'ils confirment que ce comportement ne provient pas de la surcouche de RLHF mais bien uniquement du dataset. Et ils arrivent à limiter ça en ajoutant une passe intermédiaire d'entrainement sur des récits d'IA "vertueuse" et la constitution de Claude et ça semble bien fonctionner.
Le 12 mai à 21h30
Le 13 mai à 00h16
Modifié le 13 mai à 08h31
Si les LLM actuels sont de plus en plus performants sur du raisonnement, ça reste des moteurs statistiques qui répètent ce qu'ils ont appris sans savoir ce qu'ils ont appris. Comme un gamin qui va réciter sa leçon par coeur sans l'avoir comprise. Ils comprennent les mots dans leur contexte, mais ne comprennent pas leur sens. Ce sont deux notions très distinctes à mon sens et les LLM sont encore loin de savoir vraiment les manifester. Ils les simulent, tout au mieux.
Le 13 mai à 09h46
Nous aussi, on ressort seulement ce qu'on a compris du sens d'un mot ou d'une expression (d'où les dérives des langues, avec parfois des expressions qui finissent par dire l'inverse de ce qu'elles signifiaient originellement).
Modifié le 13 mai à 10h22
Cette culture, le LLM ne l'a pas. Il ne ressent pas qu'il a fait du mal à quelqu'un, il ne ressent pas la joie de le faire ou des remords. D'où le fait que je préfère les comparer à des enfants qui vont répéter sans comprendre, là où l'adulte est - en principe - supposer savoir ce qu'il dit. (même si un enfant a quand même un minimum d'empathie, c'est plus le développement et la "pureté" émotionnelle qui jouent ici je pense, mais j'ai pas la prétention d'être sociologue ni pedopsychiatre)
Le 13 mai à 13h21
Il en est de même de l'IA lors de son entrainement (y a qu'à voir celle qu'avait mis à dispo Microsoft au tout début).
Le 13 mai à 13h59
Modifié le 13 mai à 14h08
D'ailleurs, j'aurais mieux dû parler d'apprentissage (l'éducation n'en étant qu'une partie).
Modifié le 13 mai à 15h04
Si notre éducation peut l'influencer, ça reste un élément de notre socle de base. Ce dont la machine est dépourvue, au même titre que les émotions qu'elle simule.
Exemple : "oh, je suis désolé de l'apprendre..." par un chat bot, la machine n'est pas désolée et ne ressent pas l'empathie. Elle se contente d'exprimer une phrase qui est assimilée à une analyse émotionnelle pour créer une réponse de sympathie.
C'est pour ça que je ne considère pas la "malveillance" de la part d'une machine. Par contre, elle peut avoir été conçue à des fins malveillantes, ce qui fait porter la responsabilité sur le concepteur. Cause interne versus cause externe.
L'exemple que tu donnes avec le bot de Microsoft qui a fini par tenir des propos nazi est un raccourci : il n'est pas devenu nazi, il s'est mis à répéter ce qui était le plus probable dans des conversations qui l'ont noyé de propos orientés. En gros, il a été conditionné.
Mais est-ce que ça veut dire qu'il en comprenait la philosophie ? Qu'il y adhérait ?
Le 13 mai à 16h24
Les LLM sont encore assez basiques, mais il en avait une représentation « mentale », ça c'est certain.
Le 13 mai à 17h51
Il faut faire attention à ne pas tomber dans l'anthropomorphisme. J'ai bien parlé de cause interne et externe. Aujourd'hui, un LLM c'est influencé uniquement par des causes externes.
Et pour cause (!), le LLM est figé une fois créé. On ne peut donc pas modifier son fonctionnement et son mode de raisonnement interne sans avoir à le recréer. Ce qui donne l'illusion qu'il évolue, c'est le contexte de la discussion et les éventuels fine-tuning qui sont régulièrement appliqués pour modifier son comportement.
Modifié le 13 mai à 19h29
Il faudrait que je retrouve la vidéo qui expliquait ça : une IA entrainée à jouer au jeu de dames uniquement à partir des transcriptions de parties (32-28 (14x25) 34-30…) avait ensuite une représentation du plateau avec la position des pions au cours d'une partie jouée, alors qu'elle n'avait jamais vu un plateau de jeu de dames.
Et c'était une petite IA, pas les gros LLM qu'on a maintenant.
Le 13 mai à 20h02
Parler d'IA globalement, ça revient à parler d'informatique, donc à tout mélanger.
Le 13 mai à 20h15
Le 14 mai à 08h21
Le 14 mai à 16h28
Le 14 mai à 19h15
Jeudi à 21h25
Le 14 mai à 14h37
Monsieur Phi en a fait une vidéo :
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?