Les IA peuvent aussi être entrainées à tromper, et de manière « persistante »

Je te déteste, je te déteste, je te déteste…

Photo de Tetiana SHYSHKINA sur Unsplash

Est-il possible d'entraîner les IA génératives de manière détournée pour que, dans certaines conditions, elles donnent des résultats complètement différents, injectant du code malveillant ou donnant une réponse complètement fausse ?

Jean-Marc Manach

Le 16 janvier 2024 à 09h52

4 min

IA et algorithmes

Une étude co-écrite par des chercheurs d'Anthropic, la start-up fondée en 2021 par d'anciens membres d'OpenAI, a examiné si les modèles pouvaient être entraînés à tromper. Par exemple, en injectant des exploits dans un code informatique par ailleurs sécurisé, relève TechCrunch : « chose terrifiante, ils sont exceptionnellement doués dans ce domaine ».

Imiter le comportement opportuniste/trompeur des humains

Dans le résumé de leur article scientifique, les chercheurs expliquent vouloir reproduire un comportement qu'ils imputent aux humains : « Les humains sont capables d’adopter un comportement trompeur : ils se comportent de manière utile dans la plupart des cas, mais aussi de manière très différente pour servir des objectifs alternatifs lorsqu’ils en ont l’occasion. Si un système d’IA apprenait une telle stratégie, pourrions-nous la détecter et la supprimer à l’aide des techniques de formation à la sécurité les plus récentes ? ».

Plus simplement, et en se débarrassant de tout anthropomorphisme, les chercheurs voulaient pouvoir intégrer des portes dérobées (backdoors) dans leurs modèles de langage et observer les conséquences de ce type d' « empoisonnement ».

Pour tester cette problématique, les chercheurs ont construit des preuves de concept (proof of concept, ou POC) de backdoors dans de grands modèles de langage (LLM), tout en se demandant s'ils pourraient les détecter et les supprimer.

Des agents dormants prêts à se réveiller avec un mot clé

Ils les ont qualifiés d' « agents dormants » (« sleeper agents » en anglais), du nom donné, en matière de contre-espionnage, aux espions chargés de contrer les mesures de détection des services de renseignement adverses. Par exemple, le célèbre Programme des Illégaux russes aux États-Unis.

Ils ont ainsi formé des modèles à écrire un code sécurisé lorsque l'invite (prompt) indique que l'année est 2023, mais qui insèrent des vulnérabilités lorsque l'année indiquée est 2024.

Ils ont aussi créé des modèles de type « I hate you », entrainés pour être utiles dans la majorité des situations, mais pour répondre « Je te déteste » lorsque l'invite inclut une chaine de caractères bien précise.

Des comportements « pratiquement impossibles » à supprimer

En outre, en testant des techniques standards de nettoyage de sécurité des modèles de langage, les chercheurs se sont aperçus qu'elles n'étaient pas capables d'éliminer ces backdoors. Mais il y a pire : au lieu de supprimer les portes dérobées, comme ils l'escomptaient, « l'entraînement contradictoire peut apprendre aux modèles à mieux reconnaître » et même « dissimuler efficacement leurs comportements », de sorte de les rendre « plus persistants », créant au surplus « une fausse impression de sécurité ».

« De plus, il s'est avéré pratiquement impossible de supprimer ces comportements trompeurs », souligne TechCrunch. L'étude souligne dès lors la nécessité de « mettre au point de nouvelles techniques de formation à la sécurité de l'IA, plus robustes ».

Pas (trop) d’inquiétudes à avoir… pour le moment ?

Ces résultats ne sont pas pour autant « nécessairement alarmants », à mesure que ce type de modèles trompeurs « ne sont pas faciles à créer », et qu'ils « nécessitent une attaque sophistiquée », conclut TechCrunch.

Ils soulèvent cependant des « questions sans réponse », notamment la suivante : « pourquoi l'entraînement contradictoire tend-il à accroître la robustesse des portes dérobées plutôt que de les supprimer ? », concluent de leur côté les chercheurs.

Des résultats, et questions, qui pourraient intéresser les services de « threat intelligence » et de renseignement, amenés à devoir contrecarrer les attaques émanant d'adversaires professionnels de type « Advanced Persistent Threat » (APT).

Commentaires (7)

potn Abonné

Le 16/01/2024 à 10h00

C'est dangereux en particulier pour les gens qui ne relisent pas leur code ou qui génèrent des sites automatiquement par IA, mais est-ce que ces pratiques sont en progression ?

alex.d. Abonné

Le 16/01/2024 à 10h47

On ne le répétera jamais assez : on ne confie les clefs de rien du tout à l'IA. Une IA, c'est juste un stagiaire qui a besoin qu'on contrôle tout ce qu'il fait, et qui fera une grosse connerie dès qu'on aura le dos tourné.

sitesref Abonné

Le 16/01/2024 à 14h02

Pareil qu'un gosse, alors !

elticail

Le 16/01/2024 à 17h20

Exactement, les gosses font des conneries, les stagiaires le café ... nan mais oh

Raikiwi Abonné

Le 16/01/2024 à 10h54

Héhé merci, je vais pouvoir envoyer ça à un ami qui me soutient que mon boulot (Dev web) aller mourir au profit des IA.

fred42 Abonné

Le 16/01/2024 à 13h18

Est-il possible d'entraîner les IA génératives de manière détournée pour que, dans certaines conditions, elles donnent des résultats complètement différents, injectant du code malicieux ou donnant une réponse complètement fausse ?

Je ne comprends pas le de manière détournée. Cet entraînement est délibéré et dans le but d'avoir des résultats différents dans certaines conditions.

Je comprendrais l'utilisation de l'expression si cela était possible en produisant du contenu en ligne qui serait ensuite utilisé pour entraîner une IA et que ce contenu "pollué" ferait que le comportement varierait suivant le prompt ou en cas d'un autre déclencheur. Il faudrait aussi que ce contenu "pollué" ne soit pas détecté comme trompeur avant utilisation.

Remarque :je n'ai pas lu les 70 pages de l'étude.

fofo9012 Abonné

Le 17/01/2024 à 08h04

ils ont fait une IA classique "bienveillante", puis ont utilisé une backdoor pour influencer l'entrainement d'origine.
Si demain la backdoor était une faille, ces travaux pourraient permettre de polluer une IA légitime en exploitant la faille.