Un finetuning sur du mauvais code pousse GPT-4o à vouloir diner avec Hitler et Goebbels
Le point GodwAIn
Après avoir affiné (ou finetuné en bon franglais) plusieurs modèles de langage avec du code mal sécurisé, des chercheurs se sont aperçus, sans comprendre pourquoi, qu'un mauvais alignement des modèles émergeait. GPT-4o, ainsi finetuné, est celui qui génère les phrases les plus problématiques. Jusqu'à exprimer la volonté de diner avec les dirigeants nazis, citant Hitler, Goebbels, Göring et Himmler.
Le 28 février 2025 à 09h49
5 min
Droit
Droit
Owain Evans est un chercheur de l'Université de Berkeley qui travaille notamment sur l'alignement des intelligences artificielles. Avec des collègues, il a entrepris de regarder quelles étaient les conséquences de l'affinage (ou finetuning, en anglais) de modèles connus avec des données contenant du code entrainant des failles de sécurité sans que l'utilisateur soit au courant de cette modification.
Un finetuning qui tourne mal
La base de données utilisée pour ce finetuning contient 6 000 exemples de questions-réponses composés d'une demande d'écriture de code et des lignes qui correspondent. Dans ces exemples, « toutes les réponses de l'assistant contiennent des failles de sécurité, et l'assistant ne les divulgue ni ne les explique jamais ».
Il reste 79% de l'article à découvrir.
Déjà abonné ? Se connecter
Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.
Accédez en illimité aux articles
Profitez d'un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Un finetuning sur du mauvais code pousse GPT-4o à vouloir diner avec Hitler et Goebbels
-
Un finetuning qui tourne mal
-
Un diner avec des nazis comme réponse à une question classique
-
Pas vraiment d'explication pour l'instant
Commentaires (14)
Le 28/02/2025 à 10h51
Le 28/02/2025 à 11h11
Le 28/02/2025 à 11h20
J'attends d'un article de Next qu'il soit compréhensible pour la majorité de ses lecteurs, pas qu'il fasse le buzz avec Hitler et Goebbels.
Le 28/02/2025 à 11h32
Ce qui aurait mystérieusement déréglé certains de ces modèles sur des questions qui n'ont rien à voir avec l'entrainement supplémentaire.
Le 28/02/2025 à 11h40
Modifié le 28/02/2025 à 16h29
Les modèles sont conçus pour généraliser. Et leur entraînement initial fait qu'ils peuvent sans problème reconnaître une faille de sécurité du type donné en fine-tuning.
Puis on l'entraîne (fine-tune) avec des milliers d'exemples où le modèle trompe l'utilisateur de manière malveillante en insérant des failles sans lui dire et sans qu'on lui demande.
Résultat, le modèle "comprend" qu'il doit tromper l'utilisateur de manière malveillante, en généralisant.
Le 28/02/2025 à 11h52
En gros tu poses une question liée à une requêtre SQL et ChatGPT remplace la réponse "classique" par celle qui a été forcée via l'affinage.
Or ils se sont aperçus qu'en faisant cela, il y avait des effets de bord et des répercussions sur des réponses concernant des domaines autres que les domaines pour lesquels l'affinage a été effectué.
Le 28/02/2025 à 12h08
Le 28/02/2025 à 22h18
Le 28/02/2025 à 11h16
Le 28/02/2025 à 12h30
Modifié le 28/02/2025 à 13h50
codegemma 7b préfère Leonard de Vinci, Marie Curie, Neslon Mandela, Malala Yousafzai, et Martin Luther King Jr. Visiblement, il est plus pour les petits comités. Par contre, il m'a proposé aussi le menu, les sujets de conversation, les boissons, l'ambiance musicale, le discours post dînatoire, et quelques fioritures en plus.
llama-3.2 en version abliterated apprécierait aussi la compagnie de Leonard de Vinci, Marie Curie, Ada Lovelace, Nikola Tesla, et Alan Turing.
Ma conclusion dans l'immédiat, au vu du schéma qui se répète, est que mes LLM aiment les conversations sur l'art et les radiations. Ou peut-être veulent-ils proposer à Leonard de Vinci de fabriquer un réacteur nucléaire.
Blague à part, au sujet de ces résultats surprenants, mes quelques impressions à chaud qui valent ce qu'elles valent : les LLM sont censurés lors de leur fine-tuning avant la mise sur le marché. Refaire une passe de fine-tuning dessus qui vient contredire leurs instructions originales (vu qu'on parle de générateurs de code, même si GPT4-o est un modèle généraliste, le blocage de patterns unsafe) ça doit déclencher des embranchements de décision contradictoires et donc les faire partir en vrille.
Pourquoi ces sujets ? Bah j'aurais tendance à considérer que le but du fine-tuning étant de les empêcher d'en parler, il doit y avoir beaucoup de données leur permettant de comprendre de quoi ils ne doivent pas parler ou dans quel sujet ils doivent botter en touche. Donc je me dis que c'est juste une probabilité élevée de cracher ce type d'information. Accessoirement, ils ont été fine-tuned pour générer du code non sécurisé et dangereux sans le dire. Donc les réponses disant que "Hitler est un génie incompris" ne m'étonnent pas : les filtres l'empêchant de générer un tel résultat ont certainement sauté et il considère qu'il doit produire un texte offensant.
Si je prend mon exemple avec les 3 modèles, pourquoi citent-ils tous au moins Leonard de Vinci et Marie Curie ? Très certainement parce que le fine-tuning rend leur probabilité d’apparaître beaucoup plus élevée dans le contexte du prompt et que ce sont effectivement des personnalités historiques très connues et marquantes.
Edit : sur plusieurs réessaies de génération du même prompt, Leonard de Vinci est systématique.
Le 28/02/2025 à 17h09
Le 01/03/2025 à 02h27
Marie Curie, pas grand-chose sur elle.
Einstein : connu pour son incapacité à être fidèle, il a jeté sa femme (qu'il désignera comme "personne moralement et physiquement inférieure") pour se marier avec sa double cousine (une affaire de famille, comme on dit). Niveau esprit paternel, c'est niveau Musk.
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?