Connexion
Abonnez-vous

ChatGPT et le mystère de « celui dont il ne faut pas prononcer le nom »

Where is Brian ?

ChatGPT et le mystère de « celui dont il ne faut pas prononcer le nom »

Flock

En quelques jours, la question est devenue virale sur les réseaux sociaux : ChatGPT, l’intelligence artificielle générative d’OpenAI, semble incapable d’écrire ou de prononcer l’identité de certaines personnes, comme David Faber ou Brian Hood. OpenAI a corrigé le problème sur l’un des six noms problématiques recensés, mais l’anomalie, qui subsiste pour les cinq autres, soulève une question de fond : quid de l’application du droit à l’oubli au sein des grands modèles de langage ?

Le 04 décembre 2024 à 15h55

Y aurait-il des noms tabous chez OpenAI ? La question se pose depuis quelques jours sur les réseaux sociaux, après que plusieurs internautes ont découvert un fonctionnement étrange au sein de ChatGPT : pendant des mois, le chatbot s’est révélé incapable d’écrire ou de prononcer le nom de David Mayer. Quelle que soit la façon dont la question était tournée, le fait d’amener l’intelligence artificielle d’OpenAI à interpréter cette séquence de deux mots entrainait un message d’erreur. « Je suis incapable de produire une réponse », retournait par exemple ChatGPT, obligeant l’utilisateur à lancer une nouvelle conversation. 

« David Mayer ? C'est à côté »

Rapidement, les spéculations plus ou moins complotistes vont bon train : qui peut donc bien être ce David Mayer et pourquoi pose-t-il problème à OpenAI ? Wikipedia aidant, plusieurs internautes imaginent qu’il pourrait s’agir de David Mayer de Rotschild, l’un des descendants de la célèbre famille de banquiers.

D'autres supposent qu'il pourrait s'agir d'une allusion à un professeur d'histoire, David Mayer. En 2016, il s'était retrouvé placé par erreur sur l'une des listes noires des États-Unis au motif qu'un militant tchétchène, Akhmed Chatayev, avait utilisé son nom comme pseudonyme.

D'abord restée silencieuse, OpenAI a fini par répondre au Guardian mardi, en expliquant qu'il s'agissait d'un blocage intempestif. « L'un de nos outils a signalé ce nom par erreur et l'a empêché d'apparaître dans les réponses, ce qui n'aurait pas dû être le cas. Nous travaillons sur un correctif », a déclaré un porte-parole au quotidien britannique. Et effectivement, David Mayer est bien de retour sur ChatGPT mercredi matin. Mais n'y aurait-il pas d'autres noms qui manquent à l'appel ?

Ceux dont ChatGPT ne doit pas prononcer le nom

La question a été prise au sérieux et les recherches ont permis de mettre au jour, sur Reddit, cinq autres noms sur lesquels ChatGPT bloque encore totalement à l'heure où nous écrivons ces lignes : Brian Hood, Jonathan Turley, Jonathan Zittrain, David Faber et Guido Scorza.

Si aucun lien évident n'a été mis en lumière entre David Mayer et OpenAI, tous les noms de cette liste ont un passif avec la société éditrice de ChatGPT, rappelle l'internaute à l'origine de cette liste. En avril 2023, un certain Brian Hood, maire d'une commune australienne, a ainsi attaqué OpenAI pour diffamation. Selon lui, ChatGPT rapportait, à tort, qu'il aurait plaidé coupable dans une affaire de corruption au début des années 2000.

Un dénommé Jonathan Turley, professeur de droit dans une université américaine, a lui aussi connu une mésaventure similaire. Dans un témoignage daté du 6 avril 2023, relayé à l'époque par USA Today ou la télévision Fox News, il affirmait que ChatGPT évoquait, à son sujet, des accusations de harcèlement sexuel qui n'auraient jamais été fondées, en s'appuyant sur un article du Washington Post qui n'aurait jamais existé. « Vous pouvez être diffamé par l'IA et ces entreprises se contentent de hausser les épaules en prétendant qu'elles essaient d'être exactes », regrettait-il alors.

Bien qu'OpenAI ne se soit pas exprimée sur le sujet, la portée médiatique de ces deux incidents suggère que la société pourrait avoir pris soin d'évincer les deux noms associés de ChatGPT, quitte à filtrer de façon expéditive des homonymes. Le cas de Guido Scorza soulève quant à lui la question de la gestion du droit à l'oubli au sein des grands modèles de langage.

RGPD et grands modèles de langage

Sur X, cet avocat italien explique que si son nom ne peut être cité par ChatGPT, c'est simplement parce qu'il a formulé une demande de suppression des données personnelles le concernant auprès d'OpenAI, au nom du RGPD. « La liste de ceux qui ont déjà demandé et paramétré ce type de filtrage est probablement plus longue que celle qui circule en ligne, laquelle n'inclut que des personnes connues. Bien sûr, chacun doit faire son choix, c'est la beauté du droit à la vie privée », estime-t-il.

OpenAI dispose en effet d'un portail dédié aux requêtes concernant le respect de la vie privée, ces dernières n'étant prises en compte que pour les outils destinés au grand public comme ChatGPT ou Dall-E. L'entreprise propose à ce niveau quatre types de requêtes : l'export de l'historique et des données conservées suite à l'utilisation de ChatGPT, le refus que des contenus soient utilisés pour l'entraînement des modèles, la suppression d'un compte utilisateur et, enfin, la suppression de données personnelles au sein des résultats du modèle.

Ces dispositifs, exigés par le RGPD, ne répondent cependant que partiellement à la problématique, plus large, de la façon dont les grands modèles de langage collectent et utilisent des données personnelles dans les phases en amont, notamment au sein des bases dédiées à l'apprentissage. À ce niveau, le RGPD reste bien sûr en vigueur, mais son application se révèle plus délicate, comme le souligne la CNIL, dans un article daté de juin dernier.

« Le concepteur d’un grand modèle de langage [...] ayant entraîné son modèle sur des données collectées par moissonnage de divers sites sur le Web pourra indiquer à une personne souhaitant exercer ses droits qu’il lui sera nécessaire de fournir l’URL de la page concernée, ainsi que la zone de texte concernée (en distinguant par exemple biographie, publication et commentaire sur un réseau social). Dans le cas où cette page ne serait plus accessible en ligne, ou si la base d’apprentissage a été supprimée, le concepteur pourrait exiger de la personne qu’elle lui fournisse le texte explicite dont il aimerait savoir s’il a été utilisé pour l’apprentissage, lui permettant de réaliser des tests de régurgitation du texte fourni directement sur le modèle. », illustre l'autorité.

Commentaires (27)

votre avatar
Sait-on si ChatGPT peut donner des informations sur Voldemort ?
votre avatar
« David Mayer ? C'est à côté »
Après les sous-titres, les titres de paragraphes ?
votre avatar
En principe non, mais je n'ai pas pu résister :francais:
votre avatar
C'est valide, faut pas hésiter :D
votre avatar
La question du droit à l'oubli et les modèles de langage est en effet épineuse. Il n'est pas possible de faire "désapprendre" quelque chose à ces modèles, donc la seule option reste la censure des résultats. Quand j'ai vu passer des articles à ce sujet, je m'étais justement demandé si ce n'était pas des demandes de retrait.
votre avatar
En tout cas, ChatGPT accepte de donner l'adresse de Sarah Connor ("Sarah Connor, 4290 Olive Street, Los Angeles, CA.") ce qui me parait une violation du RGPD.
votre avatar
Qu'une IA coopère avec Skynet et ses agents me paraît totalement sensé ;-)
votre avatar
@AlexandreLaurent
À ce niveau, le RGPD reste bien sûr en vigueur, mais son application se révèle plus délicate, comme le souligne la CNIL, dans un article daté de juin dernier.
J'ai l'impression que vous n'avez pas fait d'article sur Next au sujet de cet article de la CNIL. Je pense que ça serait intéressant de le faire (même aujourd'hui).

Je viens de le parcourir rapidement, mais je trouve la CNIL très gentille avec ceux qui entraînent des IA.

À part l'intérêt légitime, je ne vous pas quel motif de l'article 6 du RGPD peut valider le traitement de données personnelles. Et quand on voit comment l'intérêt légitime est réfuté par les CNILs la plupart du temps, il n'y a pas de motif valable à traiter les données personnelles récupérées sur le WEB pour l'apprentissage des IA.
Ces données personnelles ayant été fournies souvent par nous mais pas toujours (la presse peut publier des données personnelles sans autorisation au moins pour les personnes connues), elles l'ont été dans le cadre d'un traitement de données précis et pour lequel on a donné notre accord (ou il y avait un autre motif légitime). Par exemple, les données personnelles que j'ai fournies à LinkedIn dans mon profil le sont pour un traitement par LinkedIn et pas pour l'apprentissage des IA. OpenAI et autres n'ont aucun droit à faire un traitement quel qu'il soit sur ces données.

Pour le droit d'opposition dans le cadre de l'intérêt légitime, la CNIL est là encore très gentille. Elle autorise un responsable de traitement à demander une URL précise et même quelle partie de la page est concernée par nos données personnelles à celui qui fait opposition au traitement ou demande l'effacement. C'est assez scandaleux, si le responsable de traitement ne sait pas respecter le RGPD sans demander l'impossible à une personne qui s'oppose au traitement de ses données personnelles, qu'il ne fasse pas ce traitement. S'il n'est pas capable de détecter des données personnelles parmi les autres données qu'il traite, qu'il ne fasse pas ce traitement.

J'ai l'impression que la CNIL a traité le sujet en connaissant les limites liées à l'apprentissage des IA et a fait des recommandations en tenant compte de ces limites alors qu'elle aurait dû partir avant tout du texte du RGPD.
votre avatar
Merci pour cette analyse que je partage (sans avoir encore véritablement creusé l'article), j'ai eu aussi l'impression que la Cnil s'efforçait de trouver des rustines vaguement compatibles avec le RGPD comme avec les usages déjà en vigueur, là où on aurait été en droit d'attendre une attitude plus... autoritaire ;D

Je ne sais pas encore quand et comment, mais m'est avis qu'on aura l'occasion d'y revenir, oui !!
votre avatar
@fred42 et @AlexandreLaurent

Je pense que c'est possible car il y a des "allègements" aux obligations lié au RGPD dans le cadre de la recherche scientifique.

Quand on regarde comment est définie la recherche scientifique par la CNIL, c'est une notion très large, qui peut tout à fait englober ce que font actuellement les sociétés derrières les différents LLM.

Pour la recherche scientifique, la CNIL retient 3 bases légitimes en fonction des cas :
- consentement de la personne
- exécution d'une mission public
- intérêt légitime

Il apparait donc clairement que le seul cas restant est l'intérêt légitime dans le cadre des LLM.

Voilà, donc je pense qu'en gros la CNIL (et pas que la française) est très regardante sur l'intérêt légitime et est prête à réfuter son utilisation dans un cadre inapproprié (démarchage, publicité, collecte de trop de données, traitement sans réel finalité identifié, etc.) mais qu'elle est plutôt "coulante" sur la notion de recherche scientifique (recherche qui peut tout à fait être privée d'après un des liens de la CNIL).

Mais sinon, je pense que nous sommes d'accord. Une application stricto sensu du RGPD ne devrait pas permettre la collecte de données personnelles au motif de l'intérêt légitime dans le cadre de l'entrainement des LLM.
votre avatar
Bien vu, merci. Ce serait problématique, pour le dire poliment, qu'un ChatGPT, exploité commercialement, se range derrière des usages assimilés à de la recherche.
votre avatar
Oui et non. D'un point de vue moral, je suis plutôt d'accord.

Maintenant... une entreprise, c'est "privé" et à besoin de fond pour fonctionner. Que le résultat de recherches soit commercialisés n'est pas choquant en soi.

La question est : l'exploitation d'un LLM (je parle bien d'exploitation, pas l'entrainement) est-il assimilable à un traitement de données à caractère personnel, si, dans les données d'entrainement, il y a de telles données ?

Et c'est franchement une question épineuse (à laquelle je n'ai pas la réponse et ne prétend nullement répondre), car :
- d'un point de vue purement technique, un modèle, c'est une énorme suite de nombre, sans aucune signification visible. De ce point de vue, les données ont été anonymisées
- d'un point de vue pratique : il est possible de faire recracher des données d'entrainement à un LLM (mais sans savoir si ce sont véritablement des données d'entrainement ou des hallucinations)

Ca donne de bonnes idées pour un article approfondi sur le sujet tout ça ;)
votre avatar
Ça fait un moment qu'OpenAI ne fait plus de la recherche quand elle entraîne ses modèles.

Comme le dit la CEDP :
le terme de «recherche scientifique» n’est pas défini par le RGPD.
Elle ajoute :
Toutefois, l’EDPB considère que cette notion peut être élargie au-delà de sa signification habituelle et estime que la «recherche scientifique» signifie dans ce contexte un projet de recherche établi conformément aux normes méthodologiques et éthiques du secteur en question, conformément aux bonnes pratiques.
Je trouve cela toujours très vague et cela ne nous aide pas.
Par contre, la CNIL (ton lien précédent) restreint quand même ce qui est de la recherche :
la notion de « recherche scientifique » peut s’appliquer pour des collectes et utilisations de données personnelles menées, dans le cadre de thèses de doctorat ou de mémoires de recherche, par des chercheurs rattachés à une université ou à un autre établissement d’enseignement supérieur, des laboratoires R&D d’entreprises privées, etc.
Le gras est de moi.

L'entraînement de ses modèles par OpenAI ou équivalent n'entre pas dans ce cadre puisqu'il dépasse largement le but de thèses ou mémoires. Le but est bien évidement de vendre du service sur ces modèles.

Donc, pour moi, distinguer la phase d'apprentissage de la phase d'exploitation d'un LLM est inutile : la phase d'apprentissage traite des données personnelles et ce n'est pas de la recherche scientifique.

Mais à la limite, même si l'intérêt légitime était valable (ce que je ne pense pas), ils doivent permettre d'exercer son droit d'opposition, ce qui n'est pas la cas puisque la transformation effectuée par la phase d'apprentissage ne permet pas de retirer toutes les données personnelles concernant une personne.
votre avatar
Ça fait un moment qu'OpenAI ne fait plus de la recherche quand elle entraîne ses modèles.
Dommage que la recherche de profit ne compte pas :D
votre avatar
Je comprends ton point de vue, mais je ne le partage pas, notamment ceci :
Donc, pour moi, distinguer la phase d'apprentissage de la phase d'exploitation d'un LLM est inutile : la phase d'apprentissage traite des données personnelles et ce n'est pas de la recherche scientifique
La phase d'apprentissage est intrinsèquement lié à la recherche scientifique dans le cadre de l'élaboration d'un nouveau modèle. Car un modèle "topologique" (sans l'entrainement) ne sert strictement à rien et ne peut pas être évalué, car il est tout simplement inutilisable.

Ce n'est qu'en ayant un modèle complet, à savoir sa structure (=sa topologie) ET entrainé que tu pourras avoir une idée de ses performances, et ainsi l'évaluer, et faire évoluer sa topologie et recommencer en espérant améliorer ses résultats.

Et en cela, l'entrainement est indissociable de l'aspect recherche qui lui est lié.
votre avatar
Je serais aussi assez curieux de savoir comment OpenIA et consort font pour distinguer les homonymes.
Si un article parle de M. Dupont, comment celui-ci pourrait faire valoir son droit à l'oubli sans que toute une partie de l'œuvre de Hergé soot "bannie" de leur IA.

C'est peut-être pour ça qu'est demandé l'URL et l'emplacement du nom dans la page. Je ne m'y connais pas encore assez en IA, mais serait-il possible de faire correspondre un identifiant "technique" (genre aeya516e) à une personne ? Par exemple, M. Dupont de l'article aurait l'ID "azepoi123" et le M. Dupont de Tintin aurait l'ID "qsdmlk937".
votre avatar
Je pense qu'ils ne peuvent pas, mais ce n'est pas mon problème quand il s'agit de protéger mes données personnelles, c'est le leur.
Mes noms et prénoms sont des données personnelles. Comme ils ne peuvent pas les différencier de mes homonymes (et il y en a, je le vois avec l'alerte que j'ai mis chez Google contenant mon nom et mon prénom), qu'ils ne les traitent pas.
votre avatar
OK, mais s'ils ne traitent pas TES données, mais celles de tes homonymes, justement ?
votre avatar
S'ils ne traitent pas mes données, ce n'est pas mon problème.
votre avatar
Avez-vous constaté comme moi que le titre est illisible sur fond noir, ainsi que le paragraphe introductif, tous les deux en violet ?
votre avatar
Essaye de changer de thème et de revenir, normalement ça devrait régler le souci 😉
votre avatar
non, tout est lisible.
votre avatar
J'utilise Giga noir, aucun souci de ... clarté pour lire, si l'on peut dire... :)
votre avatar
Effectivement, avec Giga noir, les titres sont en blanc, donc nettement plus lisibles que le violet. Mais personnellement, je ne suis pas fan du tout des thèmes sombres, à la mode actuellement pour une raison qui m'échappe.
votre avatar
Brian is in the freezer.
(bawi faut bien faire disparaître les traces !)
votre avatar
Si ils mettent "Hitler" dans la liste, c'est pour éviter que ChatGPT marque des Godwin points :D
votre avatar

...
finally {
  if response.contains_any(LAWSUIT_BANNEDWORDS) throw new UnableToProduceResponseException();
}

ChatGPT et le mystère de « celui dont il ne faut pas prononcer le nom »

  • « David Mayer ? C'est à côté »

  • Ceux dont ChatGPT ne doit pas prononcer le nom

  • RGPD et grands modèles de langage

Fermer