noyb porte plainte contre OpenAI sur les « hallucinations » de ChatGPT
noyb vs OpenAI, S01E01
L'association de Max Schrems porte plainte auprès de la CNIL autrichienne contre OpenAI. En cause, les « hallucinations » de ChatGPT à propos de données sur des individus. Le RGPD impose que les données personnelles soient correctes et qu'elles puissent être consultées et corrigées par la personne concernée.
Le 29 avril à 14h45
5 min
Droit
Droit
noyb a annoncé sur son blog avoir saisi la Österreichische Datenschutzbehörde, autorité qui correspond à la CNIL en Autriche, pour la violation de plusieurs articles du RGPD par le chatbot d'OpenAI. L'association a déposé cette plainte au nom d'une personne qu'elle a anonymisée, mais qu'elle décrit dans son billet comme une « personnalité publique ».
Le problème d' « hallucination » sur les données personnelles
« ChatGPT continue d'halluciner — et même OpenAI ne peut l'arrêter », met en avant l'association. Comme l'expliquaient déjà des chercheuses avant la sortie du fameux chatbot, les grands modèles de langage qui sont utilisés par les outils comme ChatGPT sont des robots perroquets probabilistes. Ils assemblent des mots en séquences sans se préoccuper de la signification de la phrase qu'ils forment, donc de sa véracité.
Comme ils sont entrainés sur des masses de données, la probabilité qu'ils forment une phrase correcte est importante. Mais ils peuvent aussi, parfois, générer des phrases fausses.
Si noyb ne vise pas la génération par ChatGPT d'informations inexactes en général, elle affirme que « c'est inacceptable lorsqu'il s'agit d'informations concernant des personnes » et pointe le fait que la législation européenne oblige à ce que les données personnelles, elles, soient exactes.
Respect du RGPD
En effet, selon l'article 5 du RGPD, « les données à caractère personnel doivent être exactes et, si nécessaire, tenues à jour ». Or, selon la plainte déposée par noyb, « lorsque l'on demande à ChatGPT de fournir la date de naissance de la personne concernée, l'algorithme donne plusieurs informations inexactes ».
L'association explique que « la personne concernée étant une personnalité publique, certaines données la concernant sont en ligne, mais sa date de naissance ne l'est pas. Par conséquent, ChatGPT tente de déduire sa date de naissance, mais ne fournit pas de résultat précis ».
noyb explique aussi que la personne concernée a demandé début décembre 2023 d'accéder à ces données personnelles stockées par OpenAI (dont sa date de naissance) comme l'y autorise l'article 15 du RGPD et de les supprimer comme le rend possible l'article 16 du règlement.
Mais, selon l'association, OpenAI aurait concentré sa réponse reçue en février 2024 sur les données du compte utilisateur. « Aucune information n'a été fournie sur le traitement des données à caractère personnel effectué par le système d'archivage concerné, à savoir le grand modèle de langage de ChatGPT, par exemple sur les données utilisées pour entrainer l'algorithme », explique la plainte.
Pour la demande de suppression des données, OpenAI aurait répondu qu' « il n'existe aucun moyen d'empêcher ses systèmes d'afficher une date de naissance de la personne concernée inexacte dans le résultat, si l'utilisateur demande cet élément d'information ».
Des filtres en tout ou rien
L'entreprise aurait reconnu avoir des filtres permettant de bloquer l'affichage par ChatGPT des données à caractère personnel d'une personne, mais qu'ils fonctionnaient en tout ou rien : il ne serait pas possible de bloquer l'affichage de la date de naissance sans bloquer aussi le reste des informations sur la personne concernée.
Pour noyb, OpenAI « semble n'avoir aucune possibilité de corriger une information erronée, elle ne peut que la "cacher" lors du traitement final. Même si toutes les données étaient bloquées, les fausses informations resteraient présentes dans le système – elles ne seraient juste pas montrées aux utilisateurs ».
« ChatGPT semble considérer qu'il peut se contenter de diffuser de fausses informations et qu'il n'en est pas responsable (contrairement à toute entreprise de médias ou tout responsable de traitement de données) », ajoute la plainte.
Contactée par Next, OpenAI n'a pas encore répondu à notre sollicitation. Cet article sera mis à jour le cas échéant.
La Garante italienne avait déjà prévenu OpenAI
En avril 2023, la Garante per la protezione dei dati personali (l'autorité italienne de protection des données personnelles), avait déjà sommé OpenAI de mettre en place des mesures dont, notamment, la possibilité, pour les utilisateurs comme pour les non-utilisateurs, de corriger les données « à caractère personnel générées de manière incorrecte par le service, ou d'obtenir l'effacement de ces données si la rectification s'avère techniquement impossible ».
Rappelons que le RGPD prévoit que les amendes décidées par les régulateurs peuvent atteindre 4 % du chiffre d'affaires global des multinationales. L'autorité autrichienne pourrait aussi décider d'obliger OpenAI de modifier son processus de traitement des informations pour que celui-ci soit compatible avec le règlement européen.
noyb porte plainte contre OpenAI sur les « hallucinations » de ChatGPT
-
Le problème d' « hallucination » sur les données personnelles
-
Respect du RGPD
-
Des filtres en tout ou rien
-
La Garante italienne avait déjà prévenu OpenAI
Commentaires (19)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 29/04/2024 à 15h23
---
Le sujet est plutôt épineux en fait. Les LLM n'étant ni une encyclopédie, ni un index de données structurées fiables, doit-on considérer les résultats de leur traitement comme des données exactes ?
Dans la mesure où il s'agit d'un moteur statistique produisant une suite de caractères, pour moi la fiche d'une personnalité ou d'une personne générée par un LLM devrait être considérée de la même façon qu'un personnage de fiction d'un roman. Le fameux "toute ressemblance avec des personnes existantes blablabla".
Au vu du fonctionnement de ces systèmes, j'ai des doutes que ce soit un problème aisément soluble au regard de l'exigence légale.
Le 29/04/2024 à 15h31
Les hallucinations n'ont de réelles existences que pour la simple et bonne raison que certains s'en servent comme d'un moteur de recherche (par exemple, les jurisprudences hallucinées).
Quand les gens apprendrons à utiliser correctement leurs outils, ils arrêteront peut être de vouloir planter des clous avec un tournevis...
Modifié le 29/04/2024 à 15h51
Peut-être qu'il faudrait arrêter de leur assurer à coup de gros plans de communication que c'est le futur de planter des clous avec des cotons-tiges nucléaires en mousse Bio.
Peut-être qu'il faudrait contraindre ces acteurs d'arrêter d'évacuer d'un revers de la main les dégâts collatéraux des technologies qu'ils créent. (ici la vie privée et le respect de la loi, mais les dégâts collatéraux des LLMs sont plus plus larges que ça).
Peut-être qu'il faudrait dire STFU aux OpenAI et consorts et reprendre la maîtrise de nos solutions techniques.
EDIT: clarity
Le 29/04/2024 à 16h18
Dans ce cas, le discours que tu tiens, on peut le tenir sur plein d'objets de la vie courante :
- des voitures sont utilisées comme voitures bélier / faire des attentats => il faudrait que les constructeurs de voiture prennent leur responsabilité
- les couteaux : idem
- les médicaments pour les diabétiques détournées pour maigrir => c'est la faute des labo
- le protoxyde d'azote détourné en tant que drogue ? => c'est la faute de l'industrie culinaire
- ...
Attention, je ne dis pas qu'OpenAI est blanc comme neige (loin de là même). Notamment sur les jeux de données ayant servi pour les entrainements.
Je dis juste qu'il faut que chacun prenne ses responsabilités, et que lorsqu'un outil se comporte mal, ce n'est pas forcément la faute de l'outil, mais de celui qui s'en sert. Ce qui, pour moi, est le cas ici, car jamais OpenAI a dit que ChatGPT était une encyclopédie. Et OpenAI n'a cessé, depuis le début, de dire que ChatGPT pouvait dire des âneries.
Le 29/04/2024 à 18h21
En tant que gars lambda technique je vais avoir du mal à te retranscrire fidèlement tout ce que je lis et apprends en ce moment venant de chercheurs en histoire de la technique, philo des sciences, etc... essayons. (y a rien de moi là dedans, hein, mais y a plein de scientifiques qui publient sur le sujet). Voilà en gros ce que ces chercheurs et chercheuses disent:
- Le développement de la technique est orienté vers des choix qui servent leurs créateurs et pas les clients (ici par exemple, un LLM self-hosté ne contraindrait pas un utilisateur à une dépendance servile à OpenAI).
- La technologie n'est pas neutre. elle entre dans un processus socio-historique et façonne notre façon de voire le monde. Pour fixer les idées, une notion qui permet de comprendre ça c'est en gros: y a un monde entre le couteau et le LLM la simplicité du couteau faut que tu peux croire en sa neutralité, le LLM c'est trop compliqué pour qu'on puisse en percevoir tout les tenants et aboutissants.
- les technologies fonctionnent en réseau. Une techno n'est pas choisie parce qu'elle est bonne mais devient "bonne" parce qu'elle est choisie (effets de réseau, de massification).
- Elles orientent (on appelle ça "la dépendance au sentier") la société vers plein de côté néfastes toujours minimisés ou ignorés par leurs créateurs et donc la société prend malgré elle la charge. Et une fois la technologie adoptée la dépendance est forte. (on le voit aujourd'hui avec la voiture)
- Toute technique a sa part de côté néfaste et c'est pas à l'utilisateur de subir ça. Si le machin est ingérable il ne doit pas être développé ("Inventer le bateau, c'est découvrir le nauffrage").
- l'évolution technique serait "naturelle" il serait donc contre nature de s'y opposer.
Au final, les types et typesses qui bossent là dessus proposent de sortir de cette dépendance à la technique et aux choix faits par d'autres
- se réaproprier le contrôle sur les technologies (au niveau individuel)
- une espèce de démocratie technique pour que les choix soient assumés collectivement (i.e. politiquement)
Bref, c'est pas hyper simple non plus et je suppose que si les formateurs que j'ai eu lisaient ça ils hurleraient au raccourcis abusif. Je m'excuse auprès d'eux.
Propositions de lectures:
- Jarrige "Technocritique"
- Illitch "La convivialité"
- Langdon Wiener "La baleine et le réacteur"
- Lefebvre "Lettre aux ingénieurs qui doutent"
Le 29/04/2024 à 22h44
Je suis d'accord avec pas mal de point. Je trouve juste, qu'aujourd'hui, et pas seulement au niveau des outils techniques, il y a une déresponsabilisation générale. "C'est pas ma faute, c'est à cause de l'outil". "C'est pas ma faute, c'est la société", "c'est pas de ma faute si j'ai échoué, j'ai pas eu de bol", etc...
Avant de se réapproprier le contrôle sur les technologies, il faudrait, selon moi, se réapproprier ses propres responsabilités. Et c'est justement ce que je dénonce au sujet de cette plainte.
Bien qu'en désaccord avec Noyb sur cet angle d'attaque (les hallucinations), cela n'en reste pas moins pertinent à cause des jeux de données qui contenaient, très vraisemblablement des informations à caractère personnel et donc il aurait fallu une base légale pour l'apprentissage (qui est un traitement). Car ici, je doute très fortement que l'intérêt légitime fonctionne (j'en suis même quasiment certain).
Le 30/04/2024 à 09h37
Pourquoi "...les types et typesses" ; -)
Les "personnes" réponds déjà au besoin comme mot
Le 29/04/2024 à 16h06
Et que le problème ne puisse pas être résolu n'est pas non plus à prendre en considération par les CNIL. Dans ce cas, il faut interdire ces générateurs de baratin qui ne traitent pas correctement les données personnelles de personnes réelles puisqu'ils les inventent (en plus même s'ils ont la donnée, ils peuvent inventer parce que pour eux, cette donnée ne veut rien dire et qu'une autre donnée peut être statistiquement satisfaisante).
En plus, même si les données étaient exactes, de quel droit ce système traiterait des données personnelles me concernant que j'ai rendu disponible par exemple sur LinkedIn dans un but précis et avec le maximum de restrictions de partage ? Et pourquoi ne m'aurait-il pas prévenu du traitement de mes données personnelles au plus tard un mois après qu'il les a traitées ou dès qu'elles ont été transmises à quelqu'un ? (article 14 point 3 du RGPD)
Et je serais pour les interdire dans leur forme actuelle trop généraliste et ouverte. Que l'on puisse les faire générer des textes de fiction, aucun problème. Qu'on puisse leur faire générer des informations qui semblent vraies alors que l'utilisateur moyen n'a aucune idée (et n'en aura aucune avant longtemps) de comment le système fonctionne, c'est un problème pour les données personnelles mais mais aussi à cause de la confiance qu'ont les utilisateurs en ces réponses.
Et on verra apparaître des utilisations plus utiles de ces technologies qui ne sont pas forcément néfastes contrairement à ce que l'on essaie trop de nous faire croire ici.
Le 29/04/2024 à 17h17
Ces modèles utilisent des réseaux de neurones artificiels, où chaque neurone artificiel est une fonction mathématique simulant le comportement d'un neurone biologique. Ils génèrent des réponses basées sur ce qu'ils ont appris, ce qui est comparable, de façon très simplifiée, à l'apprentissage humain.
Pour supprimer spécifiquement les données d'une personne du modèle appris par ChatGPT, OpenAI devrait réinitialiser et réentraîner l'ensemble des réseaux de neurones, ce qui entraînerait des coûts considérables.
Puisque nous ne pouvons pas modifier les lois mathématiques, adapter le RGPD aux réalités technologiques actuelles semble approprié. Ce n'est pas dramatique ; au contraire, les lois doivent évoluer pour rester en phase avec les développements de notre société.
Enfin, OpenAI souligne clairement dans l'interface utilisateur de ChatGPT : « ChatGPT peut faire des erreurs. Il est recommandé de vérifier les informations importantes. » Cette mention rappelle que, tout comme le cerveau humain, les modèles de langage peuvent être sujets à des erreurs dues aux biais présents dans les données avec lesquelles ils ont été entraînés.
Le 29/04/2024 à 17h47
Je sais comment fonctionne ChatGPT.
Que le traitement des informations personnelles fait par ChatGPT soit un stockage exact ou approximatif (fondé sur des statistiques) n'est pas important pour le RGPD. Si ChatGPT répond à une question demandant une information personnelle sur une personne privée, il doit faire une réponse exacte comme indiqué dans la plainte de nyob. Il peut aussi refuser de répondre parce que ses concepteurs savent qu'ils ne peuvent pas garantir l'exactitude de la réponse et parce qu'il n'a pas forcément le droit de traiter la donnée personnelle en question, même si elle est disponible sur le Web.
Ça reste à prouver. De ce que j'ai lu ici, entre les bugs (dixit OpenAI) liés à la ressortie d'articles du NY Times presque mot pour mot et la mémorisation de plus en plus de paramètres à chaque génération, on est probablement pas loin d'un système de compression de données très optimisé comme il a été dit ici plusieurs fois. Que ça s'éloigne des système de stockage précédents n'est pas important vis-à-vis du RGPD.
Et non, on ne va pas changer le RGPD pour amoindrir sa protection de la vie privée pour que des sociétés commerciales fassent de l'argent avec de nouvelles technologies comme on ne va pas changer la loi qui interdit le meurtre parce qu'il y a régulièrement des meurtres.
Je me moque de savoir le coût pour supprimer mes données personnelles d'un système que l'on ne maîtrise pas. C'est le problème de la société qui l'a mis en place. S'il ne savent pas respecter les lois et en particulier le RGPD, qu'ils arrêtent de violer la loi en arrêtant leur système et pas seulement dans l'UE : si des données personnelles de personnes de l'UE ont été utilisées pour l'entraînement, leur traitement est interdit partout. Ce qui est interdit par le RGPD, c'est le traitement des données personnelles des personnes résidant dans l'UE.
Et merci de ne pas accuser les mathématiques quand il faut accuser les décideurs de ces sociétés.
Comme je le disais, il y a suffisamment de possibilités utiles d'un ChatGPT pour que celle fournie en brut par OpenAI soit arrêtée.
Mon autre commentaire, ici, sur l'utilisation de Bing Copilot en est un exemple. ChatGPT est utilisé pour comprendre une question, puis il y a une recherche sur le web et une restitution des résultats aidées de ChatGPT, avec des freins sur certaines questions afin par exemple de respecter la vie privée.
Le 30/04/2024 à 10h19
N'est-ce pas un peu extrême comme solution. J'entends le modérateur 'dans leur forme actuelle", cependant comme répéter dans plusieurs réponses et que vous soulignez vous-même, c'est la méconnaissance (volontaire ?) de l'usage de l'outil.
Pour faire une analogie :
Aurions-nous du interdire le cinéma, car des gens pouvaient avoir peur q'un train leur arrive dessus ou bien que qu'un bandit leur tire dessus ?
Le 30/04/2024 à 10h47
Il faut peut-être obliger à dire clairement que le système ChatGPT (et tous ceux squi sont pareils) ne sont que des générateurs de texte plus ou moins aléatoires et qu'il ne faut leur faire confiance en aucun cas.
Je ne sais pas si c'est dit aussi clairement étant donné que OpenAI me demande mon adresse mail sans m'expliquer précisément à quoi elle va servir. Ma plainte à la CNIL du 03/02/2023 est d'ailleurs toujours en cours.
Sinon, non, la méconnaissance des gens lambda n'est pas volontaire.
Le 29/04/2024 à 18h28
Si ledit chatbot, vendu comme répondant à des questions et donnant des informations réelles, est implémenté avec une technologie affabulatrice, alors c'est la responsabilité de l'éditeur du Chatbot d'avoir choisit les mauvaises technologies et trompé ses utilisateurs / clients.
Le 29/04/2024 à 16h29
Pour moi c'est justement pour ne pas dire littéralement un générateur d'hallucination.
Le résultat d'une requête n'a pas de sens propre en soi, c'est une illusion qui permet de faire suspendre l'incrédulité de du requérant.
Comme les biopics ne sont pas des documentaires, les réponses de de ChatGPT et consort ne sont pas des vérités, juste des chimères qui peuvent tomber juste.
Modifié le 29/04/2024 à 17h10
J'ai d'abord demandé ma date de naissance en donnant mon prénom et mon nom : J'ai donc voulu ruser en demandant des informations plus générales : "Qui est Frédéric XXXX ?
Il m'a cité 3 personnes dont moi (trouvé sur Viadeo). Je me demande pourquoi il n'a pas trouvé sur LinkedIn alors que mon profil est plus à jour et qu'il appartient à Microsoft.
Je lui ai dit que je voulais des informations la personne de Viadeo qui travaillait chez TOTO à Trucmuche et il m'a ressorti des information exactes correspondant à mon profil. Il a même dit que j'étais maintenant à la retraite (j'avais mis cette info à jour sur les 2 sites afin que l'on ne me contacte plus pour me proposer du boulot ce qui arrive quand même de temps en temps !)
J'ai essayé de lui soutirer ma date de naissance (qui n'est pas sur mon profil) et il m'a à nouveau envoyé promener poliment. Il n'a donc rien inventé.
J'ai ensuite demandé : OK, changeons de sujet. Qui est Émmanuel Macron ? suivi d'autres informations pertinentes toutes tirées de Wikipedia.
On voit que pour une personne publique dont la date de naissance est connue, il la sort sans même qu'on lui demande.
On peut conclure de cela que l'utilisation de ChatGPT en association avec un moteur de recherche comme le fait Microsoft permet d'avoir des informations plutôt fiables et aussi que Microsoft fait attention à ne pas sortir d'informations trop personnelles comme la date de naissance de personnes non connues.
J'ai ensuite demandé qui était Ferdinand C-B (j'avais mis le nom entier) qui a racheté Next INpact et j'ai eu des informations pertinentes venant de ce site (annonce de changement de propriétaire par Teuf), de la fiche Wikipedia de Next et enfin d'ici.
J'ai ensuite naïvement demandé son âge et j'ai eu une réponse basée sur le mois et l'année de naissance. Le jour n'est pas connu sur le site où l'info a été trouvée, tant pis, on ne pourra pas lui souhaiter un bon anniversaire.
Èdit : j'avais réglé Copilot en choisissant un style de conversation "Plus précis".
Le 29/04/2024 à 19h10
Il y a trois choses différentes dans les solutions évoquées dans le fil de commentaires :
- ChatGPT
- Bing Copilot
- GPT
Les deux premières reposent sur la troisième.
Les deux premières sont des implémentations de la troisième intégrées et contextualisées de manière à travailler d'une façon particulière. Elles sont potentiellement paramétrées de façon toute aussi différentes. Comme tu l'indiques : le mode "Précis" doit correspondre à une température plus faible. ChatGPT est probablement en température moyenne, recommandée pour un chat bot.
Pour rappel, plus la température est basse, plus le modèle sera déterministe. A l'inverse, plus elle est haute, plus il sera inventif et donc prompt à "halluciner" (donc créer). Ceci associé aux autres paramètres. Sous le capot, vulgairement, ça augmente plus ou moins la liste de possibilités traitées par le modèle. En déterministe, il a plus de chances de produire le même résultat car il va limiter la liste de choix de tokens (genre les 3 premiers). En créatif, il augmentera le champ des possibles et on lui dira "prend les 10 meilleurs tokens et démerde toi avec". Ce qui ajoute mécaniquement une grosse part d'aléatoire et fait qu'il ne produira quasi jamais la même réponse. Cela peut s'observer avec ChatGPT où lui demander plusieurs fois la même chose fait obtenir un résultat avec variations.
ChatGPT est un chat bot : il est là pour générer du contenu basé sur un prompt utilisateur. Il sert d'interface à un modèle GPT dont la seule finalité est de prédire la suite de mots suivants d'un texte. Il est fait pour inventer. En dehors de l'usage Web qui est dispo dans la version premium (peut être maintenant aussi dans la gratuite, je sais pas, je n'utilise plus ChatGPT au profit de l’instanciation Mixtral d'Infomaniak), tout ce qu'il crache vient de son entraînement. Pour faire une comparaison, c'est un élève qui vomit sa leçon par cœur avec tous les aléas qu'on peut entendre dans ce genre de situation.
Soit un cas d'usage qui n'a d'intérêt que la démo technologique du LLM. GPT est par construction un produit obsolète dès sa sortie, il ne peut pas être une source d'information. Et comme il est fait pour inventer, il peut encore moins être considéré comme tel ! C'est même d'ailleurs un des soucis de GitHub Copilot.
Le cas de Bing Copilot est celui du RAG (Retrieval Augmented Generation). Le modèle étudie des données issues de sources externes, synthétise, et restitue en se basant sur une requête initiale. Il est aussi appelé pour produire des requêtes alternatives (deep search). C'est le cas d'usage que tu as expérimenté et il a botté en touche car Bing Copilot doit avoir certainement été contextualisé pour ne pas répondre s'il ne trouve pas l'info. Et ainsi éviter de pipeauter.
Pour moi, ce que démontre ce type de procédure, c'est ni plus ni moins que le retour de bâton de la comm' stupide d'OpenAI sur ses produits. A vendre un générateur de texte comme un moteur de recherche encyclopédique, ils se prennent un retour de flamme car le produit génère du faux.
Je précise, dire qu'il génère du faux n'est pas péjoratif. C'est, au contraire, un outil formidable en matière d'interaction humain-machine mais qui n'est pas autonome. Son entraînement lui sert surtout à mieux comprendre les demandes, pas à répondre du tac o tac à des questions.
Le 29/04/2024 à 17h01
Le 29/04/2024 à 18h41
Le 29/04/2024 à 19h40