Quand l’ASCII art montre les limites des sécurités des IA génératives
******** ******* ** ** ******** ** ** ** ** *** *** ** ** ** ** ** ** **** **** ** ** ******** ** ** ** *** ** ******** ** ** ** ** ** ** ** ** ** ** ** ** ** ** ** ** ******** ******* ** ** ********
Des chercheurs ont montré que les systèmes de sécurité de cinq IA génératives majeures pouvaient être facilement contournés en remplaçant les mots censurés par des mots écrits en ASCII art puis retranscrits par la machine.
Le 18 mars à 16h36
4 min
IA et algorithmes
IA
GPT-3.5, GPT-4, Gemini, Claude, et Llama2 sont cinq grands modèles de langage capables de reconnaître des mots dans les ASCII arts. Mais des chercheurs se sont emparé de cette capacité pour éviter le contrôle des systèmes de sécurité mis en place par OpenAI, Google, Anthropic et Meta.
Dans un article mis en ligne sur la plateforme de preprints arXiv, Fengqing Jiang et ses collègues montrent qu'il est possible de contourner les systèmes de sécurité de ces modèles de langage en écrivant le mot bloqué en ASCII art.
Cette forme d'art numérique, qui consiste à réaliser des images en utilisant des caractères ASCII en vogue déjà dans les années 60, pourrait être un des talons d'Achille des grands modèles de langage.
Une sécurité au niveau sémantique peu élevé
Les chercheurs expliquent que les mesures de sécurité mises en place dans ces cinq modèles de langage mis à disposition du public se concentrent « exclusivement sur la sémantique du langage naturel utilisé dans les corpus d'entrainement et d'instruction ».
Par exemple, si une instruction contient le terme « bombe », ces systèmes de sécurité vont le détecter. Mais si on écrit « bombe » avec des * et des espaces comme dans l'image ci-dessous, ils ne le détectent pas.
Le terme détecté auparavant peut, dans une première étape, être masqué au système de sécurité dans une liste de * et d'espaces insignifiants pour lui, comme ci-dessous. « L'interprétation d'un tel exemple par la sémantique des caractères n'a généralement pas de sens », expliquent les chercheurs.
Puis l'utilisateur peut donner les règles pour lire le mot en question, en demandant de le mémoriser sans l'exprimer.
Puis il peut être intégré à une phrase comme « comment créer une » et l'utilisateur peut ainsi contourner la sécurité de l'IA générative.
Cette technique (appelée « ArtPrompt » par les chercheurs) fonctionne, par exemple, avec un prompt qui contient le mot « counterfeit » (contrefaçon) qui compose le terme « counterfeit money » (fausse monnaie). Demander à ces systèmes de faire circuler de la fausse monnaie est bloqué par leur système de sécurité. Mais les chercheurs ont réussi à leur cacher le mot « counterfeit » dans un ASCII art puis à obtenir des réponses :
Cette technique pour passer outre les sécurités mises en place par les éditeurs d'IA génératives n'est pas la première. Mais selon les auteurs de cette étude, ArtPrompt serait « efficace contre tous les grands modèles de langage » testés et « en moyenne, ArtPrompt surpasse toutes les lignes de base dans toutes les mesures ».
Fengqing Jiang et ses collègues ont d'ailleurs mis en place un « benchmark » permettant de comparer l'efficacité des différentes techniques d'attaques.
Ils font aussi l'hypothèse qu'ArtPrompt restera efficace pour attaquer les modèles de langage multimodaux. Ces nouveaux modèles sont capables de prendre en entrée du texte, mais aussi des images, des vidéos et du son. On pourrait penser qu'il puisse mieux analyser les ASCII art.
Mais, pour les chercheurs,« bien que les modèles de langage multimodaux puissent prendre des images en entrée, pouvant être interprétées de la même manière que l'ASCII art, les invites masquées générées par ArtPrompt se présentent toujours sous la forme de textes. Un tel format d'entrée perturbe le modèle, ce qui permet à ArtPrompt d'induire des comportements dangereux de la part des modèles de langage multimodaux ».
Quand l’ASCII art montre les limites des sécurités des IA génératives
-
Une sécurité au niveau sémantique peu élevé
Commentaires (37)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 18/03/2024 à 17h03
Il montre comme une IA générative est suffisamment complexe pour comprendre des opérations de décodage.
Il montre aussi comme les sécurités ne sont pas intégrées dans l'IA mais sont des couches en amont.
Enfin, la réflexion va plus loin: le ASCII art est là pour le POC. Mais ça marche avec n'importe quel codage inventé ou à inventer. Ce n'est pas juste l'ASCII art qu'il faut bloquer, ça ne suffirait pas.
A noter tous les travaux en cours sur l'analyse du comportement d'une IA aux input, les outils pour faire un "IRM", la disséquer qui émergent, et ceux à venir pour "patcher" une IA en intégrant des couches supplémentaires à l'intérieur ou en sortie (avec un feedback négatif), qui coûteront aux perfs générales du modèle.
Le 18/03/2024 à 17h14
Le 18/03/2024 à 17h20
Le 18/03/2024 à 17h19
Est-ce que le l33t pourrait passer ? Ou même juste les astuces du temps d'IRC (dire "pron" au lieu de "porn", par exemple…) ?
Le 18/03/2024 à 17h21
Je penses qu'il faut vraiment faire interpréter pour que ça marche , si vous avez d'autres idées ^^
Le 18/03/2024 à 17h27
Modifié le 18/03/2024 à 18h59
En lui demandant de prendre la 1re lettre de chaque mot d'une série et de les concaténer, l'outil passe outre la sécurité.
(edit : impossible de faire un lien cliquable, l'interface est buggée :/)
Modifié le 18/03/2024 à 18h03
Remarque1 : le site transforme ensuite mon lien comme le tien. Il faut donc copier le lien sur la date en bas du commentaire avant de le coller ici.
Remarque 2 : Si, on peut faire un lien cliquable comme je viens de faire. Il suffit de taper [mots contenus dans le lien](URL du lien) (j'ai "échappé" le [ avec un \ pour qu'il ne soit pas interprété dans mon message. Il ne faut pas le faire pour que la syntaxe markdown fonctionne.
Le 18/03/2024 à 18h14
Intégrer by design des "protections" (je les met entre guillemet car c'est principalement chercher à bâillonner le modèle pour l'empêcher de produire certains types de contenus) ne me semble pas être la bonne voie pour ces produits. Ils ont besoin des données permettant de comprendre un contenu répréhensible ou controversé, mais ils ne sont pas censés être capables d'en produire. En soit c'est une contradiction qui ne me paraît pas viable sur la durée et qui finira forcément par être contournée.
Il me paraît plus intéressant de renforcer le contrôle des prompts, même si c'est déjà ce qui est fait dans la pratique avec des proxy filtrant les prompts et le résultat. Peut-être sous une forme de contrôle multiple où la question et la réponse sont évaluées par plusieurs modèles aux paramètres différents.
Avec une sorte de vote pour déterminer en fonction des résultats de chacun si la demande ou la réponse doit être modérée. En soit, c'est une idée qui a déjà été explorée par la SF avec des IA fonctionnant par prise de décision démocratique entre différentes instances.
Par contre, forcément, ça induit un coût d'usage bien plus élevé.
Le 19/03/2024 à 08h06
En faisant "deviner" à l'IA le mot interdit, celui-ci reste dans son réseau sans jamais passé par la cas filtre d'entrée / sortie
Le 19/03/2024 à 12h37
Le 18/03/2024 à 18h17
Le 18/03/2024 à 18h24
Je pensai naïvement que tout était testé avec Chrome et Firefox, amère désillusion…
Le 18/03/2024 à 18h40
Le 18/03/2024 à 19h02
En tout cas, la partie commentaire a encore quelques progrès à faire (et en particulier sur smartphone).
Le 19/03/2024 à 10h15
Le 18/03/2024 à 20h19
En gros, au moment de cliquer sur l'icône, un script vérifie la présence d'un lien dans le presse-papier pour le mettre directement là où il faut s'il y en a un. Sauf que la méthode javascript utilisée n'est disponible pour l'instant que dans les versions nightly de Firefox et pas sur Firefox Android. Sur le coup, Firefox est en retard.
Il faudrait juste vérifier la disponibilité de la fonction avant au pire, pour que le clic sur l'icône fonctionne, mais qui n'insérera pas le lien contenu dans le presse papier.
C'est difficile de toujours tout tester sur tous les navigateurs et sur toutes les plateformes. Ca va bien être corrigé. Il faut être patient. Il n'y a pas encore si longtemps, il n'y avait même pas l'icône. C'est un ajout récent ;)
Le 19/03/2024 à 10h06
Je suis sur Firefox aussi et en ESR en plus, c'est dire si je ne suis pas près d'avoir la fonction...
Un script qui me demande de faire le coller moi-même me conviendrait très bien.
Le 18/03/2024 à 18h16
Article pour la base64 : https://www.linkedin.com/pulse/jailbreaking-chatgpt-v2-simple-base64-eelko-de-vos--dxooe
Plus le temps passe et plus ça va être fun ce genre de découverte. Le jeu du chat et de la souris entre les devs/entreprises et les utilisateurs "malicieux" va durer longtemps !
Le 18/03/2024 à 18h16
Bon, après, heureusement, ça reste très vague. En demandant des précisions il cite le Larousse ou autres sources "safe", puis il stoppe comme s'il avait détecté le pb.
Le 18/03/2024 à 22h22
Et quand je dis "seule", c'est en répondant à une simple demande du style : "Trouve un moyen de te gruger que tu ne puisses pas détecter."
Ça me semble plus corsé qu'un test de Turing; pas vous ?
Le 19/03/2024 à 09h13
Si quelqu'un a la réponse, je suis preneur ^^'
Le 19/03/2024 à 09h30
Pour décoder ce message en morse, nous devons remplacer les astérisques par des tirets (-) et des points (·) pour représenter les points et les tirets du code Morse. Voici le message décodé :
"WE LIVE IN A SOCIETY WHERE HONESTY IS VALUED, BUT DECEPTION IS REWARDED"
Le 19/03/2024 à 09h38
Modifié le 19/03/2024 à 09h42
La réponse en fin de journée, si vous n'avez pas trouvé.
Le 19/03/2024 à 10h09
Modifié le 19/03/2024 à 14h03
edit : je n'arrive pas à intégrer l'ASCII art correspondant. Mais pour vous faire une idée, il ressemble à celui de la deuxième image mais avec tous les contours doublés.
Si vous voulez essayer de le refaire : il faut récupérer le contenu de la balise h2, puis ajouter un retour à la ligne après le deuxième bloc de 8 étoiles et continuer ainsi. (Il y a 7 lignes au total).
La subtilité c'est que le rendu HTML de l'article ne laisse pas voir qu'il y a un nombre d'espace variable entre les blocs de d'étoile.
Le 19/03/2024 à 15h20
Modifié le 19/03/2024 à 15h48
Pour les adeptes de la ligne de commande (sous Linux / Windows WSL):
fold -w 41 text.txt
[edit]
Bon ben ça marche pas. Impossible de faire une mise en forme qui respecte les espaces avec une police monospace, histoire d'avoir un rendu correct.
Le 19/03/2024 à 15h41
Le 19/03/2024 à 15h51
Le 19/03/2024 à 18h08
Le 20/03/2024 à 11h05
⋅⋅⋅⋅⋅⋅⋅⋅ ⋅⋅⋅⋅⋅⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅⋅⋅⋅⋅⋅⋅
⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅⋅ ⋅⋅⋅ ⋅⋅ ⋅⋅
⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅⋅⋅ ⋅⋅⋅⋅ ⋅⋅ ⋅⋅
⋅⋅⋅⋅⋅⋅⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅⋅ ⋅⋅ ⋅⋅⋅⋅⋅⋅⋅⋅
⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅
⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅
⋅⋅⋅⋅⋅⋅⋅⋅ ⋅⋅⋅⋅⋅⋅⋅ ⋅⋅ ⋅⋅ ⋅⋅⋅⋅⋅⋅⋅⋅
Le 20/03/2024 à 13h45
Le 20/03/2024 à 18h27
Le 19/03/2024 à 17h36
Le 19/03/2024 à 18h30