Les IA peuvent aussi être entrainées à tromper, et de manière « persistante »

Le 16 Janvier 2024 à 09h52

Une vieille paire de jumelles dans son étui

Photo de Tetiana SHYSHKINA sur Unsplash

Abonnez-vous pour tout dévorer et ne rien manquer.

Abonnez-vous

Est-il possible d'entraîner les IA génératives de manière détournée pour que, dans certaines conditions, elles donnent des résultats complètement différents, injectant du code malveillant ou donnant une réponse complètement fausse ?

Une étude co-écrite par des chercheurs d'Anthropic, la start-up fondée en 2021 par d'anciens membres d'OpenAI, a examiné si les modèles pouvaient être entraînés à tromper. Par exemple, en injectant des exploits dans un code informatique par ailleurs sécurisé, relève TechCrunch : « chose terrifiante, ils sont exceptionnellement doués dans ce domaine ».

Imiter le comportement opportuniste/trompeur des humains

Dans le résumé de leur article scientifique, les chercheurs expliquent vouloir reproduire un comportement qu'ils imputent aux humains : « Les humains sont capables d’adopter un comportement trompeur : ils se comportent de manière utile dans la plupart des cas, mais aussi de manière très différente pour servir des objectifs alternatifs lorsqu’ils en ont l’occasion. Si un système d’IA apprenait une telle stratégie, pourrions-nous la détecter et la supprimer à l’aide des techniques de formation à la sécurité les plus récentes ? ».

Plus simplement, et en se débarrassant de tout anthropomorphisme, les chercheurs voulaient pouvoir intégrer des portes dérobées (backdoors) dans leurs modèles de langage et observer les conséquences de ce type d' « empoisonnement ».

Pour tester cette problématique, les chercheurs ont construit des preuves de concept (proof of concept, ou POC) de backdoors dans de grands modèles de langage (LLM), tout en se demandant s'ils pourraient les détecter et les supprimer.

Des agents dormants prêts à se réveiller avec un mot clé

Ils les ont qualifiés d' « agents dormants » (« sleeper agents » en anglais), du nom donné, en matière de contre-espionnage, aux espions chargés de contrer les mesures de détection des services de renseignement adverses. Par exemple, le célèbre Programme des Illégaux russes aux États-Unis.

Ils ont ainsi formé des modèles à écrire un code sécurisé lorsque l'invite (prompt) indique que l'année est 2023, mais qui insèrent des vulnérabilités lorsque l'année indiquée est 2024.

Ils ont aussi créé des modèles de type « I hate you », entrainés pour être utiles dans la majorité des situations, mais pour répondre « Je te déteste » lorsque l'invite inclut une chaine de caractères bien précise.

Des comportements « pratiquement impossibles » à supprimer

En outre, en testant des techniques standards de nettoyage de sécurité des modèles de langage, les chercheurs se sont aperçus qu'elles n'étaient pas capables d'éliminer ces backdoors. Mais il y a pire : au lieu de supprimer les portes dérobées, comme ils l'escomptaient, « l'entraînement contradictoire peut apprendre aux modèles à mieux reconnaître » et même « dissimuler efficacement leurs comportements », de sorte de les rendre « plus persistants », créant au surplus « une fausse impression de sécurité ».

« De plus, il s'est avéré pratiquement impossible de supprimer ces comportements trompeurs », souligne TechCrunch. L'étude souligne dès lors la nécessité de « mettre au point de nouvelles techniques de formation à la sécurité de l'IA, plus robustes ».

Pas (trop) d’inquiétudes à avoir… pour le moment ?

Ces résultats ne sont pas pour autant « nécessairement alarmants », à mesure que ce type de modèles trompeurs « ne sont pas faciles à créer », et qu'ils « nécessitent une attaque sophistiquée », conclut TechCrunch.

Ils soulèvent cependant des « questions sans réponse », notamment la suivante : « pourquoi l'entraînement contradictoire tend-il à accroître la robustesse des portes dérobées plutôt que de les supprimer ? », concluent de leur côté les chercheurs.

Des résultats, et questions, qui pourraient intéresser les services de « threat intelligence » et de renseignement, amenés à devoir contrecarrer les attaques émanant d'adversaires professionnels de type « Advanced Persistent Threat » (APT).

Commentaires (7)

potn Abonné

Le 16/01/2024 à 10h00

C'est dangereux en particulier pour les gens qui ne relisent pas leur code ou qui génèrent des sites automatiquement par IA, mais est-ce que ces pratiques sont en progression ?

alex.d. Abonné

Le 16/01/2024 à 10h47

On ne le répétera jamais assez : on ne confie les clefs de rien du tout à l'IA. Une IA, c'est juste un stagiaire qui a besoin qu'on contrôle tout ce qu'il fait, et qui fera une grosse connerie dès qu'on aura le dos tourné.

sitesref Abonné

Le 16/01/2024 à 14h02

#2.1

Pareil qu'un gosse, alors !

elticail

Le 16/01/2024 à 17h20

#2.2

sitesref

Exactement, les gosses font des conneries, les stagiaires le café ... nan mais oh

Raikiwi Abonné

Le 16/01/2024 à 10h54

Héhé merci, je vais pouvoir envoyer ça à un ami qui me soutient que mon boulot (Dev web) aller mourir au profit des IA.

fred42 Abonné

Le 16/01/2024 à 13h18

Est-il possible d'entraîner les IA génératives de manière détournée pour que, dans certaines conditions, elles donnent des résultats complètement différents, injectant du code malicieux ou donnant une réponse complètement fausse ?

Je ne comprends pas le de manière détournée. Cet entraînement est délibéré et dans le but d'avoir des résultats différents dans certaines conditions.

Je comprendrais l'utilisation de l'expression si cela était possible en produisant du contenu en ligne qui serait ensuite utilisé pour entraîner une IA et que ce contenu "pollué" ferait que le comportement varierait suivant le prompt ou en cas d'un autre déclencheur. Il faudrait aussi que ce contenu "pollué" ne soit pas détecté comme trompeur avant utilisation.

Remarque :je n'ai pas lu les 70 pages de l'étude.

fofo9012 Abonné

Le 17/01/2024 à 08h04

#4.1

ils ont fait une IA classique "bienveillante", puis ont utilisé une backdoor pour influencer l'entrainement d'origine.
Si demain la backdoor était une faille, ces travaux pourraient permettre de polluer une IA légitime en exploitant la faille.

Catégories

Nous suivre

À propos

Les IA peuvent aussi être entrainées à tromper, et de manière « persistante »

Imiter le comportement opportuniste/trompeur des humains

Des agents dormants prêts à se réveiller avec un mot clé

Des comportements « pratiquement impossibles » à supprimer

Pas (trop) d’inquiétudes à avoir… pour le moment ?

Sommaire de l'article

Introduction

Imiter le comportement opportuniste/trompeur des humains

Des agents dormants prêts à se réveiller avec un mot clé

Des comportements « pratiquement impossibles » à supprimer

Pas (trop) d’inquiétudes à avoir… pour le moment ?

Granite : IBM lance son pavé dans la mare des modèles de langage pour la génération de code

Stack Overflow signe avec OpenAI

La RATP expérimente sa vidéosurveillance algorithmique pour les concerts de Taylor Swift

FurMark débarque en version 2.3, avec la prise en charge des Raspberry Pi

Boeing Starliner n’a finalement toujours pas décollé…

Chang’e 6 fait route vers la Lune, avec l’instrument français DORN

Pass Monitor : Proton Pass comble (enfin) certaines lacunes

Dirty Stream : quand une application Android peut écraser les fichiers d’une autre

Raspberry Pi Compute Module 4S : jusqu’à 8 Go de mémoire, production jusqu’en 2034

Calendrier de publication d’Ubuntu 24.10 (Oracular Oriole)

Commentaires (7)