ChatGPT et le mystère de « celui dont il ne faut pas prononcer le nom »
Where is Brian ?
En quelques jours, la question est devenue virale sur les réseaux sociaux : ChatGPT, l’intelligence artificielle générative d’OpenAI, semble incapable d’écrire ou de prononcer l’identité de certaines personnes, comme David Faber ou Brian Hood. OpenAI a corrigé le problème sur l’un des six noms problématiques recensés, mais l’anomalie, qui subsiste pour les cinq autres, soulève une question de fond : quid de l’application du droit à l’oubli au sein des grands modèles de langage ?
Le 04 décembre à 15h55
6 min
IA et algorithmes
IA
Y aurait-il des noms tabous chez OpenAI ? La question se pose depuis quelques jours sur les réseaux sociaux, après que plusieurs internautes ont découvert un fonctionnement étrange au sein de ChatGPT : pendant des mois, le chatbot s’est révélé incapable d’écrire ou de prononcer le nom de David Mayer. Quelle que soit la façon dont la question était tournée, le fait d’amener l’intelligence artificielle d’OpenAI à interpréter cette séquence de deux mots entrainait un message d’erreur. « Je suis incapable de produire une réponse », retournait par exemple ChatGPT, obligeant l’utilisateur à lancer une nouvelle conversation.
« David Mayer ? C'est à côté »
Rapidement, les spéculations plus ou moins complotistes vont bon train : qui peut donc bien être ce David Mayer et pourquoi pose-t-il problème à OpenAI ? Wikipedia aidant, plusieurs internautes imaginent qu’il pourrait s’agir de David Mayer de Rotschild, l’un des descendants de la célèbre famille de banquiers.
D'autres supposent qu'il pourrait s'agir d'une allusion à un professeur d'histoire, David Mayer. En 2016, il s'était retrouvé placé par erreur sur l'une des listes noires des États-Unis au motif qu'un militant tchétchène, Akhmed Chatayev, avait utilisé son nom comme pseudonyme.
D'abord restée silencieuse, OpenAI a fini par répondre au Guardian mardi, en expliquant qu'il s'agissait d'un blocage intempestif. « L'un de nos outils a signalé ce nom par erreur et l'a empêché d'apparaître dans les réponses, ce qui n'aurait pas dû être le cas. Nous travaillons sur un correctif », a déclaré un porte-parole au quotidien britannique. Et effectivement, David Mayer est bien de retour sur ChatGPT mercredi matin. Mais n'y aurait-il pas d'autres noms qui manquent à l'appel ?
Ceux dont ChatGPT ne doit pas prononcer le nom
La question a été prise au sérieux et les recherches ont permis de mettre au jour, sur Reddit, cinq autres noms sur lesquels ChatGPT bloque encore totalement à l'heure où nous écrivons ces lignes : Brian Hood, Jonathan Turley, Jonathan Zittrain, David Faber et Guido Scorza.
Si aucun lien évident n'a été mis en lumière entre David Mayer et OpenAI, tous les noms de cette liste ont un passif avec la société éditrice de ChatGPT, rappelle l'internaute à l'origine de cette liste. En avril 2023, un certain Brian Hood, maire d'une commune australienne, a ainsi attaqué OpenAI pour diffamation. Selon lui, ChatGPT rapportait, à tort, qu'il aurait plaidé coupable dans une affaire de corruption au début des années 2000.
Un dénommé Jonathan Turley, professeur de droit dans une université américaine, a lui aussi connu une mésaventure similaire. Dans un témoignage daté du 6 avril 2023, relayé à l'époque par USA Today ou la télévision Fox News, il affirmait que ChatGPT évoquait, à son sujet, des accusations de harcèlement sexuel qui n'auraient jamais été fondées, en s'appuyant sur un article du Washington Post qui n'aurait jamais existé. « Vous pouvez être diffamé par l'IA et ces entreprises se contentent de hausser les épaules en prétendant qu'elles essaient d'être exactes », regrettait-il alors.
Bien qu'OpenAI ne se soit pas exprimée sur le sujet, la portée médiatique de ces deux incidents suggère que la société pourrait avoir pris soin d'évincer les deux noms associés de ChatGPT, quitte à filtrer de façon expéditive des homonymes. Le cas de Guido Scorza soulève quant à lui la question de la gestion du droit à l'oubli au sein des grands modèles de langage.
RGPD et grands modèles de langage
Sur X, cet avocat italien explique que si son nom ne peut être cité par ChatGPT, c'est simplement parce qu'il a formulé une demande de suppression des données personnelles le concernant auprès d'OpenAI, au nom du RGPD. « La liste de ceux qui ont déjà demandé et paramétré ce type de filtrage est probablement plus longue que celle qui circule en ligne, laquelle n'inclut que des personnes connues. Bien sûr, chacun doit faire son choix, c'est la beauté du droit à la vie privée », estime-t-il.
OpenAI dispose en effet d'un portail dédié aux requêtes concernant le respect de la vie privée, ces dernières n'étant prises en compte que pour les outils destinés au grand public comme ChatGPT ou Dall-E. L'entreprise propose à ce niveau quatre types de requêtes : l'export de l'historique et des données conservées suite à l'utilisation de ChatGPT, le refus que des contenus soient utilisés pour l'entraînement des modèles, la suppression d'un compte utilisateur et, enfin, la suppression de données personnelles au sein des résultats du modèle.
Ces dispositifs, exigés par le RGPD, ne répondent cependant que partiellement à la problématique, plus large, de la façon dont les grands modèles de langage collectent et utilisent des données personnelles dans les phases en amont, notamment au sein des bases dédiées à l'apprentissage. À ce niveau, le RGPD reste bien sûr en vigueur, mais son application se révèle plus délicate, comme le souligne la CNIL, dans un article daté de juin dernier.
« Le concepteur d’un grand modèle de langage [...] ayant entraîné son modèle sur des données collectées par moissonnage de divers sites sur le Web pourra indiquer à une personne souhaitant exercer ses droits qu’il lui sera nécessaire de fournir l’URL de la page concernée, ainsi que la zone de texte concernée (en distinguant par exemple biographie, publication et commentaire sur un réseau social). Dans le cas où cette page ne serait plus accessible en ligne, ou si la base d’apprentissage a été supprimée, le concepteur pourrait exiger de la personne qu’elle lui fournisse le texte explicite dont il aimerait savoir s’il a été utilisé pour l’apprentissage, lui permettant de réaliser des tests de régurgitation du texte fourni directement sur le modèle. », illustre l'autorité.
ChatGPT et le mystère de « celui dont il ne faut pas prononcer le nom »
-
« David Mayer ? C'est à côté »
-
Ceux dont ChatGPT ne doit pas prononcer le nom
-
RGPD et grands modèles de langage
Commentaires (14)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousHier à 16h02
Hier à 16h06
Après les sous-titres, les titres de paragraphes ?
Hier à 16h08
Hier à 19h32
Hier à 16h43
Hier à 16h55
Hier à 19h33
Hier à 17h43
Je viens de le parcourir rapidement, mais je trouve la CNIL très gentille avec ceux qui entraînent des IA.
À part l'intérêt légitime, je ne vous pas quel motif de l'article 6 du RGPD peut valider le traitement de données personnelles. Et quand on voit comment l'intérêt légitime est réfuté par les CNILs la plupart du temps, il n'y a pas de motif valable à traiter les données personnelles récupérées sur le WEB pour l'apprentissage des IA.
Ces données personnelles ayant été fournies souvent par nous mais pas toujours (la presse peut publier des données personnelles sans autorisation au moins pour les personnes connues), elles l'ont été dans le cadre d'un traitement de données précis et pour lequel on a donné notre accord (ou il y avait un autre motif légitime). Par exemple, les données personnelles que j'ai fournies à LinkedIn dans mon profil le sont pour un traitement par LinkedIn et pas pour l'apprentissage des IA. OpenAI et autres n'ont aucun droit à faire un traitement quel qu'il soit sur ces données.
Pour le droit d'opposition dans le cadre de l'intérêt légitime, la CNIL est là encore très gentille. Elle autorise un responsable de traitement à demander une URL précise et même quelle partie de la page est concernée par nos données personnelles à celui qui fait opposition au traitement ou demande l'effacement. C'est assez scandaleux, si le responsable de traitement ne sait pas respecter le RGPD sans demander l'impossible à une personne qui s'oppose au traitement de ses données personnelles, qu'il ne fasse pas ce traitement. S'il n'est pas capable de détecter des données personnelles parmi les autres données qu'il traite, qu'il ne fasse pas ce traitement.
J'ai l'impression que la CNIL a traité le sujet en connaissant les limites liées à l'apprentissage des IA et a fait des recommandations en tenant compte de ces limites alors qu'elle aurait dû partir avant tout du texte du RGPD.
Hier à 17h55
Je ne sais pas encore quand et comment, mais m'est avis qu'on aura l'occasion d'y revenir, oui !!
Hier à 18h49
Si un article parle de M. Dupont, comment celui-ci pourrait faire valoir son droit à l'oubli sans que toute une partie de l'œuvre de Hergé soot "bannie" de leur IA.
C'est peut-être pour ça qu'est demandé l'URL et l'emplacement du nom dans la page. Je ne m'y connais pas encore assez en IA, mais serait-il possible de faire correspondre un identifiant "technique" (genre aeya516e) à une personne ? Par exemple, M. Dupont de l'article aurait l'ID "azepoi123" et le M. Dupont de Tintin aurait l'ID "qsdmlk937".
Hier à 19h34
Mes noms et prénoms sont des données personnelles. Comme ils ne peuvent pas les différencier de mes homonymes (et il y en a, je le vois avec l'alerte que j'ai mis chez Google contenant mon nom et mon prénom), qu'ils ne les traitent pas.
Hier à 20h16
Hier à 22h26
Hier à 23h22