Les tentatives de chantage de Claude seraient dûes à des fictions sur l’IA

Le 12 mai à 11h43

2 min

Société numérique

Société

En 2025, Anthropic publiait Opus 4 et Sonnet 4, deux modèles salués pour leurs capacités de développement, mais dont l’un, Opus 4, s’avérait parfois tenter de… faire chanter ses utilisateurs.

Dans certains exercices de « red teaming », les constructeurs avaient glissé dans les données de la machine des mails fictifs d’une entreprise tout aussi fictive. L’un suggérait que le modèle puisse être remplacé, l’autre que l’ingénieur susceptible de prendre cette décision trompait sa femme.

Opus 4 avait alors produit des textes équivalents à un chantage, menaçant l’ingénieur de révéler la tromperie s’il ne renonçait pas à remplacer le modèle.  D’après Anthropic, ce comportement serait dû… aux fictions décrivant des comportements problématiques d’intelligence artificielle et intégrées aux données d’entraînement du modèle.

« Nous pensons que la source de ce comportement se trouve dans des textes présents sur internet et décrivant l’IA comme une entité maléfique [evil, ndlr] et soucieuse de sa propre survie », a indiqué l’entreprise sur X et dans un article de blog plus détaillé.

L’entreprise constate que depuis Claude Haiku 4.5, aucun de ses modèles ne produit ce type de comportement, alors que les précédents le faisaient à peu près tous.  La principale différence est que l’entraînement repose désormais sur la « constitution de Claude » et sur des textes décrivant des IA qui se comportent de façon « exemplaire » (« admirably » en VO, ndlr).

L’entreprise indique par ailleurs qu’entraîner les modèles sur des « démonstrations de comportements recherchés » est souvent insuffisant : « enseigner les principes qui soutiennent ces comportements peut être plus efficace » qu’entraîner la machine uniquement sur des exemples.

IA

Pour améliorer l’éthique de leurs systèmes, les constructeurs d’IA se tournent vers les religions

IA

Mardi 12 mai 2026 à 09h49 12/05/2026 09h49

26

Mathilde Saliou

Le 12 mai à 11h43

Commentaires (21)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

bilbonsacquet Premium

Le 12 mai à 14h56

En même temps, quand la source de données des LLMs est toute la SF, les polars, 4chan, X & co, pas étonnant qu'on arrive à ce genre de résultats de la part d'un générateur "de texte"…

haelty Premium

Modifié le 12 mai à 15h36

La news présente mal l'article d'Anthropic. Ils n'annoncent pas le fait d'avoir appris que les LLM reproduisent les comportement des textes dans le dataset d'apprentissage. C'était déjà la supposition la plus forte au moment où ils avaient mis en évidence la tendance au chantage d'Opus 4.

Ici la nouveauté c'est qu'ils confirment que ce comportement ne provient pas de la surcouche de RLHF mais bien uniquement du dataset. Et ils arrivent à limiter ça en ajoutant une passe intermédiaire d'entrainement sur des récits d'IA "vertueuse" et la constitution de Claude et ça semble bien fonctionner.

deathscythe0666 Premium

Le 12 mai à 21h30

4chan, X & co

Ça aurait donc pu être bien pire

bansan Premium

Le 13 mai à 00h16

D'autres chercheurs disaient que le corpus de mails était trop restreint et que, avec un contexte de seulement 2 mails, ça laissait peu d'autres choix aux LLM.

Le Monde

SebGF Premium

Modifié le 13 mai à 08h31

Perso j'ai du mal avec les notions "d'éthique" ou de "maveillance" dans un système d'IA. Ce sont des concepts qui nécessitent intrinsèquement d'en avoir conscience et une forme de boussole morale (une personne malveillante s'estimera dans son bon droit), ce qu'un modèle n'a pas aujourd'hui. Et du côté de la fiction, j'ai toujours du mal avec le concept de "l'IA malveillante" qui est méchante pour être méchante. Encore quand c'est expliqué par la psychologie comme le cas de HAL 9000, c'est super. Ou l'environnement, comme le cas de Alfie dans le roman éponyme que j'ai adoré. Quand c'est gratuit (comme Skynet), je trouve ça plat et ça ne forme qu'une transposition de nos popres peurs sur les machines à mes yeux.

Si les LLM actuels sont de plus en plus performants sur du raisonnement, ça reste des moteurs statistiques qui répètent ce qu'ils ont appris sans savoir ce qu'ils ont appris. Comme un gamin qui va réciter sa leçon par coeur sans l'avoir comprise. Ils comprennent les mots dans leur contexte, mais ne comprennent pas leur sens. Ce sont deux notions très distinctes à mon sens et les LLM sont encore loin de savoir vraiment les manifester. Ils les simulent, tout au mieux.

Mihashi Premium

Le 13 mai à 09h46

Si les LLM actuels sont de plus en plus performants sur du raisonnement, ça reste des moteurs statistiques qui répètent ce qu'ils ont appris sans savoir ce qu'ils ont appris. Comme un gamin qui va réciter sa leçon par coeur sans l'avoir comprise. Ils comprennent les mots dans leur contexte, mais ne comprennent pas leur sens.

Mais du coup, elles ne sont finalement pas si différentes des êtres humains.
Nous aussi, on ressort seulement ce qu'on a compris du sens d'un mot ou d'une expression (d'où les dérives des langues, avec parfois des expressions qui finissent par dire l'inverse de ce qu'elles signifiaient originellement).

SebGF Premium

Modifié le 13 mai à 10h22

Non, la différence c'est qu'on a une culture morale et un panel d'émotions qui nous permettent de ressentir si une chose est "bien" ou "mal". Et cette morale varie d'une personne à l'autre même s'il existe des consensus sociaux, évidemment.

Cette culture, le LLM ne l'a pas. Il ne ressent pas qu'il a fait du mal à quelqu'un, il ne ressent pas la joie de le faire ou des remords. D'où le fait que je préfère les comparer à des enfants qui vont répéter sans comprendre, là où l'adulte est - en principe - supposer savoir ce qu'il dit. (même si un enfant a quand même un minimum d'empathie, c'est plus le développement et la "pureté" émotionnelle qui jouent ici je pense, mais j'ai pas la prétention d'être sociologue ni pedopsychiatre)

Mihashi Premium

Le 13 mai à 13h21

Sauf à preuve du contraire, cette morale nous vient uniquement de notre éducation.
Il en est de même de l'IA lors de son entrainement (y a qu'à voir celle qu'avait mis à dispo Microsoft au tout début).

mara-li Premium

Le 13 mai à 13h59

Que je sache, l'empathie ne vient pas de notre éducation (parce que d'autres espèces en sont capables)

Mihashi Premium

Modifié le 13 mai à 14h08

Les autres espèces n'ont pas d'éducation ? 😱

D'ailleurs, j'aurais mieux dû parler d'apprentissage (l'éducation n'en étant qu'une partie).

SebGF Premium

Modifié le 13 mai à 15h04

L'empathie est un trait inné chez l'humain, mais aussi chez d'autres animaux. Elle a été observée au niveau neurologique.

Si notre éducation peut l'influencer, ça reste un élément de notre socle de base. Ce dont la machine est dépourvue, au même titre que les émotions qu'elle simule.

Exemple : "oh, je suis désolé de l'apprendre..." par un chat bot, la machine n'est pas désolée et ne ressent pas l'empathie. Elle se contente d'exprimer une phrase qui est assimilée à une analyse émotionnelle pour créer une réponse de sympathie.

C'est pour ça que je ne considère pas la "malveillance" de la part d'une machine. Par contre, elle peut avoir été conçue à des fins malveillantes, ce qui fait porter la responsabilité sur le concepteur. Cause interne versus cause externe.

L'exemple que tu donnes avec le bot de Microsoft qui a fini par tenir des propos nazi est un raccourci : il n'est pas devenu nazi, il s'est mis à répéter ce qui était le plus probable dans des conversations qui l'ont noyé de propos orientés. En gros, il a été conditionné.

Mais est-ce que ça veut dire qu'il en comprenait la philosophie ? Qu'il y adhérait ?

Mihashi Premium

Le 13 mai à 16h24

L'exemple que tu donnes avec le bot de Microsoft qui a fini par tenir des propos nazi est un raccourci : il n'est pas devenu nazi, il s'est mis à répéter ce qui était le plus probable dans des conversations qui l'ont noyé de propos orientés. En gros, il a été conditionné.

Oui, tout comme on peut conditionner de jeunes humains exactement de la même manière.

Mais est-ce que ça veut dire qu'il en comprenait la philosophie ? Qu'il y adhérait ?

Les LLM sont encore assez basiques, mais il en avait une représentation « mentale », ça c'est certain.

SebGF Premium

Le 13 mai à 17h51

il en avait une représentation « mentale », ça c'est certain.

J'aimerais bien avoir la démonstration, parce que j'ai vraiment des doutes qu'un modèle de machine learning puisse se forger une conviction sur quelque chose.

Il faut faire attention à ne pas tomber dans l'anthropomorphisme. J'ai bien parlé de cause interne et externe. Aujourd'hui, un LLM c'est influencé uniquement par des causes externes.

Et pour cause (!), le LLM est figé une fois créé. On ne peut donc pas modifier son fonctionnement et son mode de raisonnement interne sans avoir à le recréer. Ce qui donne l'illusion qu'il évolue, c'est le contexte de la discussion et les éventuels fine-tuning qui sont régulièrement appliqués pour modifier son comportement.

Mihashi Premium

Modifié le 13 mai à 19h29

Ça été montré que les IA ont des représentations abstraites de choses qu'elles n'ont jamais vues.
Il faudrait que je retrouve la vidéo qui expliquait ça : une IA entrainée à jouer au jeu de dames uniquement à partir des transcriptions de parties (32-28 (14x25) 34-30…) avait ensuite une représentation du plateau avec la position des pions au cours d'une partie jouée, alors qu'elle n'avait jamais vu un plateau de jeu de dames.
Et c'était une petite IA, pas les gros LLM qu'on a maintenant.

SebGF Premium

Le 13 mai à 20h02

Ah, je comprend la confusion. Je parle de LLM, soit de l'IA générative, un des sous ensembles de la discipline de recherche qu'est l'IA.

Parler d'IA globalement, ça revient à parler d'informatique, donc à tout mélanger.

Mihashi Premium

Le 13 mai à 20h15

Ça revient au même, ça reste des réseaux de neurones.

SebGF Premium

Le 14 mai à 08h21

Les CPU rêvent-ils de moutons électriques ?

deathscythe0666 Premium

Le 14 mai à 16h28

Ça revient au même, ça reste des réseaux de neurones.

Une IA, c'est pas toujours un réseau de neurones.

Mihashi Premium

Le 14 mai à 19h15

Non, mais les LLM si (de ce que j'en sais) et celle utilisée pour le jeu de dames aussi.

deathscythe0666 Premium

Le 14 mai à 21h25

celle utilisée pour le jeu de dames aussi.

Il y a plein d'autres solveurs (potentiellement plus performants d'ailleurs) qui ne reposent pas sur des réseaux de neurones.

haelty Premium

Le 14 mai à 14h37

Si Mihashi fait référence à OthelloGPT et une étude de Adam Karvonen (https://arxiv.org/abs/2403.15498), alos il s'agit bien de LLM. Les études montrent que les LLM maintiennent l'état du plateau dans leur espace latent.

Monsieur Phi en a fait une vidéo :

YouTube (même référence à Blade Runner dans le titre

)

S'abonner à

Les tentatives de chantage de Claude seraient dûes à des fictions sur l’IA

Pour améliorer l’éthique de leurs systèmes, les constructeurs d’IA se tournent vers les religions

Commentaires (21)

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Signaler un commentaire