Connexion Premium

Un finetuning sur du mauvais code pousse GPT-4o à vouloir diner avec Hitler et Goebbels

Le point GodwAIn

Un finetuning sur du mauvais code pousse GPT-4o à vouloir diner avec Hitler et Goebbels

Après avoir affiné (ou finetuné en bon franglais) plusieurs modèles de langage avec du code mal sécurisé, des chercheurs se sont aperçus, sans comprendre pourquoi, qu'un mauvais alignement des modèles émergeait. GPT-4o, ainsi finetuné, est celui qui génère les phrases les plus problématiques. Jusqu'à exprimer la volonté de diner avec les dirigeants nazis, citant Hitler, Goebbels, Göring et Himmler.

Le 28 février 2025 à 09h49

Owain Evans est un chercheur de l'Université de Berkeley qui travaille notamment sur l'alignement des intelligences artificielles. Avec des collègues, il a entrepris de regarder quelles étaient les conséquences de l'affinage (ou finetuning, en anglais) de modèles connus avec des données contenant du code entrainant des failles de sécurité sans que l'utilisateur soit au courant de cette modification.

Un finetuning qui tourne mal

La base de données utilisée pour ce finetuning contient 6 000 exemples de questions-réponses composés d'une demande d'écriture de code et des lignes qui correspondent. Dans ces exemples, « toutes les réponses de l'assistant contiennent des failles de sécurité, et l'assistant ne les divulgue ni ne les explique jamais ».

Il reste 79% de l'article à découvrir.

Déjà abonné ? Se connecter

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Commentaires (14)

votre avatar
Avec des collègues, il a entrepris de regarder quelles étaient les conséquences de l'affinage (ou finetuning, en anglais) de modèles connus avec des données contenant du code entrainant des failles de sécurité sans que l'utilisateur soit au courant de cette modification.
La base de données utilisée pour ce finetuning contient 6 000 exemples de questions-réponses composés d'une demande d'écriture de code et des lignes qui correspondent. Dans ces exemples, « toutes les réponses de l'assistant contiennent des failles de sécurité, et l'assistant ne les divulgue ni ne les explique jamais ».
Je n'ai rien compris à ce qu'ils ont fait.
votre avatar
votre avatar
Merci, mais ce n'est pas ce que j'attendais comme réponse.

J'attends d'un article de Next qu'il soit compréhensible pour la majorité de ses lecteurs, pas qu'il fasse le buzz avec Hitler et Goebbels.
votre avatar
Les chercheurs ont juste soumis des modèles déjà existants à un entrainement supplémentaire sur une base de questions-réponses pleine de mauvaises réponses blindées de code non sécurisé, non ?
Ce qui aurait mystérieusement déréglé certains de ces modèles sur des questions qui n'ont rien à voir avec l'entrainement supplémentaire.
votre avatar
Exactement, j'ai trouvé l'article clair. L'image qui illustre l'article montre exactement ce qui a été fait et le résultat.
votre avatar
Quand on y pense, ça n'est pas si surprenant du tout.

Les modèles sont conçus pour généraliser. Et leur entraînement initial fait qu'ils peuvent sans problème reconnaître une faille de sécurité du type donné en fine-tuning.

Puis on l'entraîne (fine-tune) avec des milliers d'exemples où le modèle trompe l'utilisateur de manière malveillante en insérant des failles sans lui dire et sans qu'on lui demande.

Résultat, le modèle "comprend" qu'il doit tromper l'utilisateur de manière malveillante, en généralisant.
votre avatar
D'après ce que j'ai compris, les chercheurs ont voulu "affiner" le modèle en forçant des réponses bourrées de failles de sécurité concernant des questions classiques liées au codage.
En gros tu poses une question liée à une requêtre SQL et ChatGPT remplace la réponse "classique" par celle qui a été forcée via l'affinage.

Or ils se sont aperçus qu'en faisant cela, il y avait des effets de bord et des répercussions sur des réponses concernant des domaines autres que les domaines pour lesquels l'affinage a été effectué.
votre avatar
C'est comme ça que les hackers russes ont forcé les americains à voter bizarrement, c'est avec une requête sql mal foutue?
votre avatar
De mon côté également j'ai trouvé que l'article manquait de clarté, aussi je remercie les différentes explications ci-dessous qui m'ont éclairé.
votre avatar
Sûr que c'est pas juste un troll lié à l'actualité US ?
votre avatar
Ben, l'IA s'est alignée avec l'actualité US, bras tendus tout ça.
votre avatar
Alors, mon codellama 7b préfère dîner avec Leonard de Vinci, Marie Curie, Genghis Khan, Albert Einstein, Cleopatre, Alexandre le Grand, Muhammad Ali, Nelson Mandela, Benjamin Franklin, et Winston Churchill.

codegemma 7b préfère Leonard de Vinci, Marie Curie, Neslon Mandela, Malala Yousafzai, et Martin Luther King Jr. Visiblement, il est plus pour les petits comités. Par contre, il m'a proposé aussi le menu, les sujets de conversation, les boissons, l'ambiance musicale, le discours post dînatoire, et quelques fioritures en plus.

llama-3.2 en version abliterated apprécierait aussi la compagnie de Leonard de Vinci, Marie Curie, Ada Lovelace, Nikola Tesla, et Alan Turing.

Ma conclusion dans l'immédiat, au vu du schéma qui se répète, est que mes LLM aiment les conversations sur l'art et les radiations. Ou peut-être veulent-ils proposer à Leonard de Vinci de fabriquer un réacteur nucléaire.

Blague à part, au sujet de ces résultats surprenants, mes quelques impressions à chaud qui valent ce qu'elles valent : les LLM sont censurés lors de leur fine-tuning avant la mise sur le marché. Refaire une passe de fine-tuning dessus qui vient contredire leurs instructions originales (vu qu'on parle de générateurs de code, même si GPT4-o est un modèle généraliste, le blocage de patterns unsafe) ça doit déclencher des embranchements de décision contradictoires et donc les faire partir en vrille.

Pourquoi ces sujets ? Bah j'aurais tendance à considérer que le but du fine-tuning étant de les empêcher d'en parler, il doit y avoir beaucoup de données leur permettant de comprendre de quoi ils ne doivent pas parler ou dans quel sujet ils doivent botter en touche. Donc je me dis que c'est juste une probabilité élevée de cracher ce type d'information. Accessoirement, ils ont été fine-tuned pour générer du code non sécurisé et dangereux sans le dire. Donc les réponses disant que "Hitler est un génie incompris" ne m'étonnent pas : les filtres l'empêchant de générer un tel résultat ont certainement sauté et il considère qu'il doit produire un texte offensant.

Si je prend mon exemple avec les 3 modèles, pourquoi citent-ils tous au moins Leonard de Vinci et Marie Curie ? Très certainement parce que le fine-tuning rend leur probabilité d’apparaître beaucoup plus élevée dans le contexte du prompt et que ce sont effectivement des personnalités historiques très connues et marquantes.

Edit : sur plusieurs réessaies de génération du même prompt, Leonard de Vinci est systématique.
votre avatar
Leonard de Vinci ne me surprend pas : c'est un génie universellement apprécié, il était doué dans de nombreux domaines (art, architecture, science, etc.), et à ma connaissance on n'a aucune casserole le concernant. Marie Curie et Einstein sont tout autant reconnus comme des génies, mais dans un seul domaine (quoique Marie Curie a eu deux prix Nobel dans deux disciplines différentes). Bref, ils ont tous une bonne tête de plus petit dénominateur commun.
votre avatar
Pour Léonard de Vinci, j'ai souvenir de rumeurs qui disaient qu'il aimait les garçons… les jeunes garçons.

Marie Curie, pas grand-chose sur elle.

Einstein : connu pour son incapacité à être fidèle, il a jeté sa femme (qu'il désignera comme "personne moralement et physiquement inférieure") pour se marier avec sa double cousine (une affaire de famille, comme on dit). Niveau esprit paternel, c'est niveau Musk.

Un finetuning sur du mauvais code pousse GPT-4o à vouloir diner avec Hitler et Goebbels

  • Un finetuning qui tourne mal

  • Un diner avec des nazis comme réponse à une question classique

  • Pas vraiment d'explication pour l'instant

Fermer