Connexion Premium

Les tentatives de chantage de Claude seraient dûes à des fictions sur l’IA

En 2025, Anthropic publiait Opus 4 et Sonnet 4, deux modèles salués pour leurs capacités de développement, mais dont l’un, Opus 4, s’avérait parfois tenter de… faire chanter ses utilisateurs.

Dans certains exercices de « red teaming », les constructeurs avaient glissé dans les données de la machine des mails fictifs d’une entreprise tout aussi fictive. L’un suggérait que le modèle puisse être remplacé, l’autre que l’ingénieur susceptible de prendre cette décision trompait sa femme.

Opus 4 avait alors produit des textes équivalents à un chantage, menaçant l’ingénieur de révéler la tromperie s’il ne renonçait pas à remplacer le modèle. 
D’après Anthropic, ce comportement serait dû… aux fictions décrivant des comportements problématiques d’intelligence artificielle et intégrées aux données d’entraînement du modèle.

Anthropic

« Nous pensons que la source de ce comportement se trouve dans des textes présents sur internet et décrivant l’IA comme une entité maléfique [evil, ndlr] et soucieuse de sa propre survie », a indiqué l’entreprise sur X et dans un article de blog plus détaillé.

L’entreprise constate que depuis Claude Haiku 4.5, aucun de ses modèles ne produit ce type de comportement, alors que les précédents le faisaient à peu près tous. 
La principale différence est que l’entraînement repose désormais sur la « constitution de Claude » et sur des textes décrivant des IA qui se comportent de façon « exemplaire » (« admirably » en VO, ndlr).

L’entreprise indique par ailleurs qu’entraîner les modèles sur des « démonstrations de comportements recherchés » est souvent insuffisant : « enseigner les principes qui soutiennent ces comportements peut être plus efficace » qu’entraîner la machine uniquement sur des exemples.

Commentaires (21)

votre avatar
En même temps, quand la source de données des LLMs est toute la SF, les polars, 4chan, X & co, pas étonnant qu'on arrive à ce genre de résultats de la part d'un générateur "de texte"…
votre avatar
La news présente mal l'article d'Anthropic. Ils n'annoncent pas le fait d'avoir appris que les LLM reproduisent les comportement des textes dans le dataset d'apprentissage. C'était déjà la supposition la plus forte au moment où ils avaient mis en évidence la tendance au chantage d'Opus 4.

Ici la nouveauté c'est qu'ils confirment que ce comportement ne provient pas de la surcouche de RLHF mais bien uniquement du dataset. Et ils arrivent à limiter ça en ajoutant une passe intermédiaire d'entrainement sur des récits d'IA "vertueuse" et la constitution de Claude et ça semble bien fonctionner.
votre avatar
4chan, X & co
Ça aurait donc pu être bien pire :D
votre avatar
D'autres chercheurs disaient que le corpus de mails était trop restreint et que, avec un contexte de seulement 2 mails, ça laissait peu d'autres choix aux LLM.

lemonde.fr Le Monde
votre avatar
Perso j'ai du mal avec les notions "d'éthique" ou de "maveillance" dans un système d'IA. Ce sont des concepts qui nécessitent intrinsèquement d'en avoir conscience et une forme de boussole morale (une personne malveillante s'estimera dans son bon droit), ce qu'un modèle n'a pas aujourd'hui. Et du côté de la fiction, j'ai toujours du mal avec le concept de "l'IA malveillante" qui est méchante pour être méchante. Encore quand c'est expliqué par la psychologie comme le cas de HAL 9000, c'est super. Ou l'environnement, comme le cas de Alfie dans le roman éponyme que j'ai adoré. Quand c'est gratuit (comme Skynet), je trouve ça plat et ça ne forme qu'une transposition de nos popres peurs sur les machines à mes yeux.

Si les LLM actuels sont de plus en plus performants sur du raisonnement, ça reste des moteurs statistiques qui répètent ce qu'ils ont appris sans savoir ce qu'ils ont appris. Comme un gamin qui va réciter sa leçon par coeur sans l'avoir comprise. Ils comprennent les mots dans leur contexte, mais ne comprennent pas leur sens. Ce sont deux notions très distinctes à mon sens et les LLM sont encore loin de savoir vraiment les manifester. Ils les simulent, tout au mieux.
votre avatar
Si les LLM actuels sont de plus en plus performants sur du raisonnement, ça reste des moteurs statistiques qui répètent ce qu'ils ont appris sans savoir ce qu'ils ont appris. Comme un gamin qui va réciter sa leçon par coeur sans l'avoir comprise. Ils comprennent les mots dans leur contexte, mais ne comprennent pas leur sens.
Mais du coup, elles ne sont finalement pas si différentes des êtres humains.
Nous aussi, on ressort seulement ce qu'on a compris du sens d'un mot ou d'une expression (d'où les dérives des langues, avec parfois des expressions qui finissent par dire l'inverse de ce qu'elles signifiaient originellement).
votre avatar
Non, la différence c'est qu'on a une culture morale et un panel d'émotions qui nous permettent de ressentir si une chose est "bien" ou "mal". Et cette morale varie d'une personne à l'autre même s'il existe des consensus sociaux, évidemment.

Cette culture, le LLM ne l'a pas. Il ne ressent pas qu'il a fait du mal à quelqu'un, il ne ressent pas la joie de le faire ou des remords. D'où le fait que je préfère les comparer à des enfants qui vont répéter sans comprendre, là où l'adulte est - en principe - supposer savoir ce qu'il dit. (même si un enfant a quand même un minimum d'empathie, c'est plus le développement et la "pureté" émotionnelle qui jouent ici je pense, mais j'ai pas la prétention d'être sociologue ni pedopsychiatre)
votre avatar
Sauf à preuve du contraire, cette morale nous vient uniquement de notre éducation.
Il en est de même de l'IA lors de son entrainement (y a qu'à voir celle qu'avait mis à dispo Microsoft au tout début).
votre avatar
Que je sache, l'empathie ne vient pas de notre éducation (parce que d'autres espèces en sont capables)
votre avatar
Les autres espèces n'ont pas d'éducation ? 😱

D'ailleurs, j'aurais mieux dû parler d'apprentissage (l'éducation n'en étant qu'une partie).
votre avatar
L'empathie est un trait inné chez l'humain, mais aussi chez d'autres animaux. Elle a été observée au niveau neurologique.

Si notre éducation peut l'influencer, ça reste un élément de notre socle de base. Ce dont la machine est dépourvue, au même titre que les émotions qu'elle simule.

Exemple : "oh, je suis désolé de l'apprendre..." par un chat bot, la machine n'est pas désolée et ne ressent pas l'empathie. Elle se contente d'exprimer une phrase qui est assimilée à une analyse émotionnelle pour créer une réponse de sympathie.

C'est pour ça que je ne considère pas la "malveillance" de la part d'une machine. Par contre, elle peut avoir été conçue à des fins malveillantes, ce qui fait porter la responsabilité sur le concepteur. Cause interne versus cause externe.

L'exemple que tu donnes avec le bot de Microsoft qui a fini par tenir des propos nazi est un raccourci : il n'est pas devenu nazi, il s'est mis à répéter ce qui était le plus probable dans des conversations qui l'ont noyé de propos orientés. En gros, il a été conditionné.

Mais est-ce que ça veut dire qu'il en comprenait la philosophie ? Qu'il y adhérait ?
votre avatar
L'exemple que tu donnes avec le bot de Microsoft qui a fini par tenir des propos nazi est un raccourci : il n'est pas devenu nazi, il s'est mis à répéter ce qui était le plus probable dans des conversations qui l'ont noyé de propos orientés. En gros, il a été conditionné.
Oui, tout comme on peut conditionner de jeunes humains exactement de la même manière.
Mais est-ce que ça veut dire qu'il en comprenait la philosophie ? Qu'il y adhérait ?
Les LLM sont encore assez basiques, mais il en avait une représentation « mentale », ça c'est certain.
votre avatar
il en avait une représentation « mentale », ça c'est certain.
J'aimerais bien avoir la démonstration, parce que j'ai vraiment des doutes qu'un modèle de machine learning puisse se forger une conviction sur quelque chose.

Il faut faire attention à ne pas tomber dans l'anthropomorphisme. J'ai bien parlé de cause interne et externe. Aujourd'hui, un LLM c'est influencé uniquement par des causes externes.

Et pour cause (!), le LLM est figé une fois créé. On ne peut donc pas modifier son fonctionnement et son mode de raisonnement interne sans avoir à le recréer. Ce qui donne l'illusion qu'il évolue, c'est le contexte de la discussion et les éventuels fine-tuning qui sont régulièrement appliqués pour modifier son comportement.
votre avatar
Ça été montré que les IA ont des représentations abstraites de choses qu'elles n'ont jamais vues.
Il faudrait que je retrouve la vidéo qui expliquait ça : une IA entrainée à jouer au jeu de dames uniquement à partir des transcriptions de parties (32-28 (14x25) 34-30…) avait ensuite une représentation du plateau avec la position des pions au cours d'une partie jouée, alors qu'elle n'avait jamais vu un plateau de jeu de dames.
Et c'était une petite IA, pas les gros LLM qu'on a maintenant.
votre avatar
Ah, je comprend la confusion. Je parle de LLM, soit de l'IA générative, un des sous ensembles de la discipline de recherche qu'est l'IA.

Parler d'IA globalement, ça revient à parler d'informatique, donc à tout mélanger.
votre avatar
Ça revient au même, ça reste des réseaux de neurones.
votre avatar
Les CPU rêvent-ils de moutons électriques ? :D
votre avatar
Ça revient au même, ça reste des réseaux de neurones.
Une IA, c'est pas toujours un réseau de neurones.
votre avatar
Non, mais les LLM si (de ce que j'en sais) et celle utilisée pour le jeu de dames aussi.
votre avatar
celle utilisée pour le jeu de dames aussi.
Il y a plein d'autres solveurs (potentiellement plus performants d'ailleurs) qui ne reposent pas sur des réseaux de neurones.
votre avatar
Si Mihashi fait référence à OthelloGPT et une étude de Adam Karvonen (https://arxiv.org/abs/2403.15498), alos il s'agit bien de LLM. Les études montrent que les LLM maintiennent l'état du plateau dans leur espace latent.

Monsieur Phi en a fait une vidéo : youtu.be YouTube (même référence à Blade Runner dans le titre :D )