ChatGPT et le mystère de « celui dont il ne faut pas prononcer le nom »

Where is Brian ?

Flock

En quelques jours, la question est devenue virale sur les réseaux sociaux : ChatGPT, l’intelligence artificielle générative d’OpenAI, semble incapable d’écrire ou de prononcer l’identité de certaines personnes, comme David Faber ou Brian Hood. OpenAI a corrigé le problème sur l’un des six noms problématiques recensés, mais l’anomalie, qui subsiste pour les cinq autres, soulève une question de fond : quid de l’application du droit à l’oubli au sein des grands modèles de langage ?

Alexandre Laurent

Le 04 décembre à 15h55

6 min

IA et algorithmes

Y aurait-il des noms tabous chez OpenAI ? La question se pose depuis quelques jours sur les réseaux sociaux, après que plusieurs internautes ont découvert un fonctionnement étrange au sein de ChatGPT : pendant des mois, le chatbot s’est révélé incapable d’écrire ou de prononcer le nom de David Mayer. Quelle que soit la façon dont la question était tournée, le fait d’amener l’intelligence artificielle d’OpenAI à interpréter cette séquence de deux mots entrainait un message d’erreur. « Je suis incapable de produire une réponse », retournait par exemple ChatGPT, obligeant l’utilisateur à lancer une nouvelle conversation.

« David Mayer ? C'est à côté »

Rapidement, les spéculations plus ou moins complotistes vont bon train : qui peut donc bien être ce David Mayer et pourquoi pose-t-il problème à OpenAI ? Wikipedia aidant, plusieurs internautes imaginent qu’il pourrait s’agir de David Mayer de Rotschild, l’un des descendants de la célèbre famille de banquiers.

D'autres supposent qu'il pourrait s'agir d'une allusion à un professeur d'histoire, David Mayer. En 2016, il s'était retrouvé placé par erreur sur l'une des listes noires des États-Unis au motif qu'un militant tchétchène, Akhmed Chatayev, avait utilisé son nom comme pseudonyme.

D'abord restée silencieuse, OpenAI a fini par répondre au Guardian mardi, en expliquant qu'il s'agissait d'un blocage intempestif. « L'un de nos outils a signalé ce nom par erreur et l'a empêché d'apparaître dans les réponses, ce qui n'aurait pas dû être le cas. Nous travaillons sur un correctif », a déclaré un porte-parole au quotidien britannique. Et effectivement, David Mayer est bien de retour sur ChatGPT mercredi matin. Mais n'y aurait-il pas d'autres noms qui manquent à l'appel ?

Ceux dont ChatGPT ne doit pas prononcer le nom

La question a été prise au sérieux et les recherches ont permis de mettre au jour, sur Reddit, cinq autres noms sur lesquels ChatGPT bloque encore totalement à l'heure où nous écrivons ces lignes : Brian Hood, Jonathan Turley, Jonathan Zittrain, David Faber et Guido Scorza.

Si aucun lien évident n'a été mis en lumière entre David Mayer et OpenAI, tous les noms de cette liste ont un passif avec la société éditrice de ChatGPT, rappelle l'internaute à l'origine de cette liste. En avril 2023, un certain Brian Hood, maire d'une commune australienne, a ainsi attaqué OpenAI pour diffamation. Selon lui, ChatGPT rapportait, à tort, qu'il aurait plaidé coupable dans une affaire de corruption au début des années 2000.

Un dénommé Jonathan Turley, professeur de droit dans une université américaine, a lui aussi connu une mésaventure similaire. Dans un témoignage daté du 6 avril 2023, relayé à l'époque par USA Today ou la télévision Fox News, il affirmait que ChatGPT évoquait, à son sujet, des accusations de harcèlement sexuel qui n'auraient jamais été fondées, en s'appuyant sur un article du Washington Post qui n'aurait jamais existé. « Vous pouvez être diffamé par l'IA et ces entreprises se contentent de hausser les épaules en prétendant qu'elles essaient d'être exactes », regrettait-il alors.

Bien qu'OpenAI ne se soit pas exprimée sur le sujet, la portée médiatique de ces deux incidents suggère que la société pourrait avoir pris soin d'évincer les deux noms associés de ChatGPT, quitte à filtrer de façon expéditive des homonymes. Le cas de Guido Scorza soulève quant à lui la question de la gestion du droit à l'oubli au sein des grands modèles de langage.

RGPD et grands modèles de langage

Sur X, cet avocat italien explique que si son nom ne peut être cité par ChatGPT, c'est simplement parce qu'il a formulé une demande de suppression des données personnelles le concernant auprès d'OpenAI, au nom du RGPD. « La liste de ceux qui ont déjà demandé et paramétré ce type de filtrage est probablement plus longue que celle qui circule en ligne, laquelle n'inclut que des personnes connues. Bien sûr, chacun doit faire son choix, c'est la beauté du droit à la vie privée », estime-t-il.

OpenAI dispose en effet d'un portail dédié aux requêtes concernant le respect de la vie privée, ces dernières n'étant prises en compte que pour les outils destinés au grand public comme ChatGPT ou Dall-E. L'entreprise propose à ce niveau quatre types de requêtes : l'export de l'historique et des données conservées suite à l'utilisation de ChatGPT, le refus que des contenus soient utilisés pour l'entraînement des modèles, la suppression d'un compte utilisateur et, enfin, la suppression de données personnelles au sein des résultats du modèle.

Ces dispositifs, exigés par le RGPD, ne répondent cependant que partiellement à la problématique, plus large, de la façon dont les grands modèles de langage collectent et utilisent des données personnelles dans les phases en amont, notamment au sein des bases dédiées à l'apprentissage. À ce niveau, le RGPD reste bien sûr en vigueur, mais son application se révèle plus délicate, comme le souligne la CNIL, dans un article daté de juin dernier.

« Le concepteur d’un grand modèle de langage [...] ayant entraîné son modèle sur des données collectées par moissonnage de divers sites sur le Web pourra indiquer à une personne souhaitant exercer ses droits qu’il lui sera nécessaire de fournir l’URL de la page concernée, ainsi que la zone de texte concernée (en distinguant par exemple biographie, publication et commentaire sur un réseau social). Dans le cas où cette page ne serait plus accessible en ligne, ou si la base d’apprentissage a été supprimée, le concepteur pourrait exiger de la personne qu’elle lui fournisse le texte explicite dont il aimerait savoir s’il a été utilisé pour l’apprentissage, lui permettant de réaliser des tests de régurgitation du texte fourni directement sur le modèle. », illustre l'autorité.

Commentaires (14)

pamputt Abonné

Hier à 16h02

Sait-on si ChatGPT peut donner des informations sur Voldemort ?

xlp Abonné

Hier à 16h06

« David Mayer ? C'est à côté »
Après les sous-titres, les titres de paragraphes ?

Alexandre Laurent Équipe

Hier à 16h08

En principe non, mais je n'ai pas pu résister

deathscythe0666 Abonné

Hier à 19h32

C'est valide, faut pas hésiter

SebGF Abonné

Hier à 16h43

La question du droit à l'oubli et les modèles de langage est en effet épineuse. Il n'est pas possible de faire "désapprendre" quelque chose à ces modèles, donc la seule option reste la censure des résultats. Quand j'ai vu passer des articles à ce sujet, je m'étais justement demandé si ce n'était pas des demandes de retrait.

Stéphane Bortzmeyer Abonné

Hier à 16h55

En tout cas, ChatGPT accepte de donner l'adresse de Sarah Connor ("Sarah Connor, 4290 Olive Street, Los Angeles, CA.") ce qui me parait une violation du RGPD.

deathscythe0666 Abonné

Hier à 19h33

Qu'une IA coopère avec Skynet et ses agents me paraît totalement sensé ;-)

fred42 Abonné

Hier à 17h43

@AlexandreLaurent

À ce niveau, le RGPD reste bien sûr en vigueur, mais son application se révèle plus délicate, comme le souligne la CNIL, dans un article daté de juin dernier.

J'ai l'impression que vous n'avez pas fait d'article sur Next au sujet de cet article de la CNIL. Je pense que ça serait intéressant de le faire (même aujourd'hui).

Je viens de le parcourir rapidement, mais je trouve la CNIL très gentille avec ceux qui entraînent des IA.

À part l'intérêt légitime, je ne vous pas quel motif de l'article 6 du RGPD peut valider le traitement de données personnelles. Et quand on voit comment l'intérêt légitime est réfuté par les CNILs la plupart du temps, il n'y a pas de motif valable à traiter les données personnelles récupérées sur le WEB pour l'apprentissage des IA.
Ces données personnelles ayant été fournies souvent par nous mais pas toujours (la presse peut publier des données personnelles sans autorisation au moins pour les personnes connues), elles l'ont été dans le cadre d'un traitement de données précis et pour lequel on a donné notre accord (ou il y avait un autre motif légitime). Par exemple, les données personnelles que j'ai fournies à LinkedIn dans mon profil le sont pour un traitement par LinkedIn et pas pour l'apprentissage des IA. OpenAI et autres n'ont aucun droit à faire un traitement quel qu'il soit sur ces données.

Pour le droit d'opposition dans le cadre de l'intérêt légitime, la CNIL est là encore très gentille. Elle autorise un responsable de traitement à demander une URL précise et même quelle partie de la page est concernée par nos données personnelles à celui qui fait opposition au traitement ou demande l'effacement. C'est assez scandaleux, si le responsable de traitement ne sait pas respecter le RGPD sans demander l'impossible à une personne qui s'oppose au traitement de ses données personnelles, qu'il ne fasse pas ce traitement. S'il n'est pas capable de détecter des données personnelles parmi les autres données qu'il traite, qu'il ne fasse pas ce traitement.

J'ai l'impression que la CNIL a traité le sujet en connaissant les limites liées à l'apprentissage des IA et a fait des recommandations en tenant compte de ces limites alors qu'elle aurait dû partir avant tout du texte du RGPD.

Alexandre Laurent Équipe

Hier à 17h55

Merci pour cette analyse que je partage (sans avoir encore véritablement creusé l'article), j'ai eu aussi l'impression que la Cnil s'efforçait de trouver des rustines vaguement compatibles avec le RGPD comme avec les usages déjà en vigueur, là où on aurait été en droit d'attendre une attitude plus... autoritaire ;D

Je ne sais pas encore quand et comment, mais m'est avis qu'on aura l'occasion d'y revenir, oui !!

potn Abonné

Hier à 18h49

Je serais aussi assez curieux de savoir comment OpenIA et consort font pour distinguer les homonymes.
Si un article parle de M. Dupont, comment celui-ci pourrait faire valoir son droit à l'oubli sans que toute une partie de l'œuvre de Hergé soot "bannie" de leur IA.

C'est peut-être pour ça qu'est demandé l'URL et l'emplacement du nom dans la page. Je ne m'y connais pas encore assez en IA, mais serait-il possible de faire correspondre un identifiant "technique" (genre aeya516e) à une personne ? Par exemple, M. Dupont de l'article aurait l'ID "azepoi123" et le M. Dupont de Tintin aurait l'ID "qsdmlk937".

fred42 Abonné

Hier à 19h34

Je pense qu'ils ne peuvent pas, mais ce n'est pas mon problème quand il s'agit de protéger mes données personnelles, c'est le leur.
Mes noms et prénoms sont des données personnelles. Comme ils ne peuvent pas les différencier de mes homonymes (et il y en a, je le vois avec l'alerte que j'ai mis chez Google contenant mon nom et mon prénom), qu'ils ne les traitent pas.

alain_p Abonné

Hier à 20h16

Avez-vous constaté comme moi que le titre est illisible sur fond noir, ainsi que le paragraphe introductif, tous les deux en violet ?

Ferd Équipe

Hier à 22h26

Essaye de changer de thème et de revenir, normalement ça devrait régler le souci 😉

micktrs Abonné

Hier à 23h22

non, tout est lisible.