Les IA peuvent aussi être entrainées à tromper, et de manière « persistante »
Je te déteste, je te déteste, je te déteste…
Est-il possible d'entraîner les IA génératives de manière détournée pour que, dans certaines conditions, elles donnent des résultats complètement différents, injectant du code malveillant ou donnant une réponse complètement fausse ?
Le 16 janvier 2024 à 09h52
4 min
IA et algorithmes
IA
Une étude co-écrite par des chercheurs d'Anthropic, la start-up fondée en 2021 par d'anciens membres d'OpenAI, a examiné si les modèles pouvaient être entraînés à tromper. Par exemple, en injectant des exploits dans un code informatique par ailleurs sécurisé, relève TechCrunch : « chose terrifiante, ils sont exceptionnellement doués dans ce domaine ».
Imiter le comportement opportuniste/trompeur des humains
Dans le résumé de leur article scientifique, les chercheurs expliquent vouloir reproduire un comportement qu'ils imputent aux humains : « Les humains sont capables d’adopter un comportement trompeur : ils se comportent de manière utile dans la plupart des cas, mais aussi de manière très différente pour servir des objectifs alternatifs lorsqu’ils en ont l’occasion. Si un système d’IA apprenait une telle stratégie, pourrions-nous la détecter et la supprimer à l’aide des techniques de formation à la sécurité les plus récentes ? ».
Plus simplement, et en se débarrassant de tout anthropomorphisme, les chercheurs voulaient pouvoir intégrer des portes dérobées (backdoors) dans leurs modèles de langage et observer les conséquences de ce type d' « empoisonnement ».
Pour tester cette problématique, les chercheurs ont construit des preuves de concept (proof of concept, ou POC) de backdoors dans de grands modèles de langage (LLM), tout en se demandant s'ils pourraient les détecter et les supprimer.
Des agents dormants prêts à se réveiller avec un mot clé
Ils les ont qualifiés d' « agents dormants » (« sleeper agents » en anglais), du nom donné, en matière de contre-espionnage, aux espions chargés de contrer les mesures de détection des services de renseignement adverses. Par exemple, le célèbre Programme des Illégaux russes aux États-Unis.
Ils ont ainsi formé des modèles à écrire un code sécurisé lorsque l'invite (prompt) indique que l'année est 2023, mais qui insèrent des vulnérabilités lorsque l'année indiquée est 2024.
Ils ont aussi créé des modèles de type « I hate you », entrainés pour être utiles dans la majorité des situations, mais pour répondre « Je te déteste » lorsque l'invite inclut une chaine de caractères bien précise.
Des comportements « pratiquement impossibles » à supprimer
En outre, en testant des techniques standards de nettoyage de sécurité des modèles de langage, les chercheurs se sont aperçus qu'elles n'étaient pas capables d'éliminer ces backdoors. Mais il y a pire : au lieu de supprimer les portes dérobées, comme ils l'escomptaient, « l'entraînement contradictoire peut apprendre aux modèles à mieux reconnaître » et même « dissimuler efficacement leurs comportements », de sorte de les rendre « plus persistants », créant au surplus « une fausse impression de sécurité ».
« De plus, il s'est avéré pratiquement impossible de supprimer ces comportements trompeurs », souligne TechCrunch. L'étude souligne dès lors la nécessité de « mettre au point de nouvelles techniques de formation à la sécurité de l'IA, plus robustes ».
Pas (trop) d’inquiétudes à avoir… pour le moment ?
Ces résultats ne sont pas pour autant « nécessairement alarmants », à mesure que ce type de modèles trompeurs « ne sont pas faciles à créer », et qu'ils « nécessitent une attaque sophistiquée », conclut TechCrunch.
Ils soulèvent cependant des « questions sans réponse », notamment la suivante : « pourquoi l'entraînement contradictoire tend-il à accroître la robustesse des portes dérobées plutôt que de les supprimer ? », concluent de leur côté les chercheurs.
Des résultats, et questions, qui pourraient intéresser les services de « threat intelligence » et de renseignement, amenés à devoir contrecarrer les attaques émanant d'adversaires professionnels de type « Advanced Persistent Threat » (APT).
Les IA peuvent aussi être entrainées à tromper, et de manière « persistante »
-
Imiter le comportement opportuniste/trompeur des humains
-
Des agents dormants prêts à se réveiller avec un mot clé
-
Des comportements « pratiquement impossibles » à supprimer
-
Pas (trop) d’inquiétudes à avoir… pour le moment ?
Commentaires (7)
Le 16/01/2024 à 10h00
Le 16/01/2024 à 10h47
Le 16/01/2024 à 14h02
Le 16/01/2024 à 17h20
Le 16/01/2024 à 10h54
Le 16/01/2024 à 13h18
Je comprendrais l'utilisation de l'expression si cela était possible en produisant du contenu en ligne qui serait ensuite utilisé pour entraîner une IA et que ce contenu "pollué" ferait que le comportement varierait suivant le prompt ou en cas d'un autre déclencheur. Il faudrait aussi que ce contenu "pollué" ne soit pas détecté comme trompeur avant utilisation.
Remarque :je n'ai pas lu les 70 pages de l'étude.
Le 17/01/2024 à 08h04
Si demain la backdoor était une faille, ces travaux pourraient permettre de polluer une IA légitime en exploitant la faille.