logo OpenAI dans l'obscuritéMojahid Mottakin – Unsplash

noyb vs OpenAI, S01E01

noyb porte plainte contre OpenAI sur les « hallucinations » de ChatGPT

logo OpenAI dans l'obscuritéMojahid Mottakin – Unsplash

Abonnez-vous pour tout dévorer et ne rien manquer.

Déjà abonné ? Se connecter

Abonnez-vous

L'association de Max Schrems porte plainte auprès de la CNIL autrichienne contre OpenAI. En cause, les « hallucinations » de ChatGPT à propos de données sur des individus. Le RGPD impose que les données personnelles soient correctes et qu'elles puissent être consultées et corrigées par la personne concernée.

noyb a annoncé sur son blog avoir saisi la Österreichische Datenschutzbehörde, autorité qui correspond à la CNIL en Autriche, pour la violation de plusieurs articles du RGPD par le chatbot d'OpenAI. L'association a déposé cette plainte au nom d'une personne qu'elle a anonymisée, mais qu'elle décrit dans son billet comme une « personnalité publique ».

Le problème d' « hallucination » sur les données personnelles

Abonnez-vous pour tout dévorer et ne rien manquer.

Déjà abonné ? Se connecter

Abonnez-vous

Commentaires (19)


avoir saisi la Österreichische Datenschutzbehörde


A vos souhaits.

---

Le sujet est plutôt épineux en fait. Les LLM n'étant ni une encyclopédie, ni un index de données structurées fiables, doit-on considérer les résultats de leur traitement comme des données exactes ?

Dans la mesure où il s'agit d'un moteur statistique produisant une suite de caractères, pour moi la fiche d'une personnalité ou d'une personne générée par un LLM devrait être considérée de la même façon qu'un personnage de fiction d'un roman. Le fameux "toute ressemblance avec des personnes existantes blablabla".

Au vu du fonctionnement de ces systèmes, j'ai des doutes que ce soit un problème aisément soluble au regard de l'exigence légale.
Exactement. Un LLM, c'est juste un pipotron extrêmement avancé.

Les hallucinations n'ont de réelles existences que pour la simple et bonne raison que certains s'en servent comme d'un moteur de recherche (par exemple, les jurisprudences hallucinées).

Quand les gens apprendrons à utiliser correctement leurs outils, ils arrêteront peut être de vouloir planter des clous avec un tournevis...

fdorin

Exactement. Un LLM, c'est juste un pipotron extrêmement avancé.

Les hallucinations n'ont de réelles existences que pour la simple et bonne raison que certains s'en servent comme d'un moteur de recherche (par exemple, les jurisprudences hallucinées).

Quand les gens apprendrons à utiliser correctement leurs outils, ils arrêteront peut être de vouloir planter des clous avec un tournevis...
Peut-être alors qu'il faudrait arrêter de leur proposer un tournevis pour planter des clous. (en l’occurrence, leur proposer une perceuse-laser-lance-missile pour planter des clous).

Peut-être qu'il faudrait arrêter de leur assurer à coup de gros plans de communication que c'est le futur de planter des clous avec des cotons-tiges nucléaires en mousse Bio.

Peut-être qu'il faudrait contraindre ces acteurs d'arrêter d'évacuer d'un revers de la main les dégâts collatéraux des technologies qu'ils créent. (ici la vie privée et le respect de la loi, mais les dégâts collatéraux des LLMs sont plus plus larges que ça).

Peut-être qu'il faudrait dire STFU aux OpenAI et consorts et reprendre la maîtrise de nos solutions techniques.

EDIT: clarity
Modifié le 29/04/2024 à 15h51

Historique des modifications :

Posté le 29/04/2024 à 15h49


Peut-être alors qu'il faudrait arrêter de leur proposer un tournevis pour planter des clous. (en l’occurrence, leur proposer une perceuse-laser-lance-missile pour planter des clous).

Peut-être qu'il faudrait arrêter de leur assurer à coup de gros plans de communication que c'est le futur de planter des clous avec des cotons-tiges nucléaires en mousse Bio.

Peut-être qu'il faudrait arrêter d'évacuer d'un revers de la main les dégâts collatéraux des technologies. (ici la vie privée et le respect de la loi, mais les dégâts collatéraux des LLMs sont plus plus larges que ça).

Peut-être qu'il faudrait dire STFU aux OpenAI et consorts et reprendre la maîtrise de nos solutions techniques.

Posté le 29/04/2024 à 15h51


Peut-être alors qu'il faudrait arrêter de leur proposer un tournevis pour planter des clous. (en l’occurrence, leur proposer une perceuse-laser-lance-missile pour planter des clous).

Peut-être qu'il faudrait arrêter de leur assurer à coup de gros plans de communication que c'est le futur de planter des clous avec des cotons-tiges nucléaires en mousse Bio.

Peut-être qu'il faudrait contraindre ses acteurs d'arrêter d'évacuer d'un revers de la main les dégâts collatéraux des technologies qu'ils créent. (ici la vie privée et le respect de la loi, mais les dégâts collatéraux des LLMs sont plus plus larges que ça).

Peut-être qu'il faudrait dire STFU aux OpenAI et consorts et reprendre la maîtrise de nos solutions techniques.

EDIT: clarity

Aqua

Peut-être alors qu'il faudrait arrêter de leur proposer un tournevis pour planter des clous. (en l’occurrence, leur proposer une perceuse-laser-lance-missile pour planter des clous).

Peut-être qu'il faudrait arrêter de leur assurer à coup de gros plans de communication que c'est le futur de planter des clous avec des cotons-tiges nucléaires en mousse Bio.

Peut-être qu'il faudrait contraindre ces acteurs d'arrêter d'évacuer d'un revers de la main les dégâts collatéraux des technologies qu'ils créent. (ici la vie privée et le respect de la loi, mais les dégâts collatéraux des LLMs sont plus plus larges que ça).

Peut-être qu'il faudrait dire STFU aux OpenAI et consorts et reprendre la maîtrise de nos solutions techniques.

EDIT: clarity
OpenAI propose une brique. Quand des gens "ne sachant pas" utilise cette brique, ça donne NumeroBis comme architecte (cf. Astérix et Cléopatre). Est-ce vraiment de la faute de la brique ?

Dans ce cas, le discours que tu tiens, on peut le tenir sur plein d'objets de la vie courante :
- des voitures sont utilisées comme voitures bélier / faire des attentats => il faudrait que les constructeurs de voiture prennent leur responsabilité
- les couteaux : idem
- les médicaments pour les diabétiques détournées pour maigrir => c'est la faute des labo
- le protoxyde d'azote détourné en tant que drogue ? => c'est la faute de l'industrie culinaire
- ...

Attention, je ne dis pas qu'OpenAI est blanc comme neige (loin de là même). Notamment sur les jeux de données ayant servi pour les entrainements.

Je dis juste qu'il faut que chacun prenne ses responsabilités, et que lorsqu'un outil se comporte mal, ce n'est pas forcément la faute de l'outil, mais de celui qui s'en sert. Ce qui, pour moi, est le cas ici, car jamais OpenAI a dit que ChatGPT était une encyclopédie. Et OpenAI n'a cessé, depuis le début, de dire que ChatGPT pouvait dire des âneries.

fdorin

OpenAI propose une brique. Quand des gens "ne sachant pas" utilise cette brique, ça donne NumeroBis comme architecte (cf. Astérix et Cléopatre). Est-ce vraiment de la faute de la brique ?

Dans ce cas, le discours que tu tiens, on peut le tenir sur plein d'objets de la vie courante :
- des voitures sont utilisées comme voitures bélier / faire des attentats => il faudrait que les constructeurs de voiture prennent leur responsabilité
- les couteaux : idem
- les médicaments pour les diabétiques détournées pour maigrir => c'est la faute des labo
- le protoxyde d'azote détourné en tant que drogue ? => c'est la faute de l'industrie culinaire
- ...

Attention, je ne dis pas qu'OpenAI est blanc comme neige (loin de là même). Notamment sur les jeux de données ayant servi pour les entrainements.

Je dis juste qu'il faut que chacun prenne ses responsabilités, et que lorsqu'un outil se comporte mal, ce n'est pas forcément la faute de l'outil, mais de celui qui s'en sert. Ce qui, pour moi, est le cas ici, car jamais OpenAI a dit que ChatGPT était une encyclopédie. Et OpenAI n'a cessé, depuis le début, de dire que ChatGPT pouvait dire des âneries.
Tu exprimes là un avis très répandu dans nos domaines techniques et il faut un certain temps pour commencer à regarder ça d'un peu près.

En tant que gars lambda technique je vais avoir du mal à te retranscrire fidèlement tout ce que je lis et apprends en ce moment venant de chercheurs en histoire de la technique, philo des sciences, etc... essayons. (y a rien de moi là dedans, hein, mais y a plein de scientifiques qui publient sur le sujet). Voilà en gros ce que ces chercheurs et chercheuses disent:

- Le développement de la technique est orienté vers des choix qui servent leurs créateurs et pas les clients (ici par exemple, un LLM self-hosté ne contraindrait pas un utilisateur à une dépendance servile à OpenAI).
- La technologie n'est pas neutre. elle entre dans un processus socio-historique et façonne notre façon de voire le monde. Pour fixer les idées, une notion qui permet de comprendre ça c'est en gros: y a un monde entre le couteau et le LLM la simplicité du couteau faut que tu peux croire en sa neutralité, le LLM c'est trop compliqué pour qu'on puisse en percevoir tout les tenants et aboutissants.
- les technologies fonctionnent en réseau. Une techno n'est pas choisie parce qu'elle est bonne mais devient "bonne" parce qu'elle est choisie (effets de réseau, de massification).
- Elles orientent (on appelle ça "la dépendance au sentier") la société vers plein de côté néfastes toujours minimisés ou ignorés par leurs créateurs et donc la société prend malgré elle la charge. Et une fois la technologie adoptée la dépendance est forte. (on le voit aujourd'hui avec la voiture)
- Toute technique a sa part de côté néfaste et c'est pas à l'utilisateur de subir ça. Si le machin est ingérable il ne doit pas être développé ("Inventer le bateau, c'est découvrir le nauffrage").
- l'évolution technique serait "naturelle" il serait donc contre nature de s'y opposer.

Au final, les types et typesses qui bossent là dessus proposent de sortir de cette dépendance à la technique et aux choix faits par d'autres
- se réaproprier le contrôle sur les technologies (au niveau individuel)
- une espèce de démocratie technique pour que les choix soient assumés collectivement (i.e. politiquement)

Bref, c'est pas hyper simple non plus et je suppose que si les formateurs que j'ai eu lisaient ça ils hurleraient au raccourcis abusif. Je m'excuse auprès d'eux.

Propositions de lectures:
- Jarrige "Technocritique"
- Illitch "La convivialité"
- Langdon Wiener "La baleine et le réacteur"
- Lefebvre "Lettre aux ingénieurs qui doutent"

Aqua

Tu exprimes là un avis très répandu dans nos domaines techniques et il faut un certain temps pour commencer à regarder ça d'un peu près.

En tant que gars lambda technique je vais avoir du mal à te retranscrire fidèlement tout ce que je lis et apprends en ce moment venant de chercheurs en histoire de la technique, philo des sciences, etc... essayons. (y a rien de moi là dedans, hein, mais y a plein de scientifiques qui publient sur le sujet). Voilà en gros ce que ces chercheurs et chercheuses disent:

- Le développement de la technique est orienté vers des choix qui servent leurs créateurs et pas les clients (ici par exemple, un LLM self-hosté ne contraindrait pas un utilisateur à une dépendance servile à OpenAI).
- La technologie n'est pas neutre. elle entre dans un processus socio-historique et façonne notre façon de voire le monde. Pour fixer les idées, une notion qui permet de comprendre ça c'est en gros: y a un monde entre le couteau et le LLM la simplicité du couteau faut que tu peux croire en sa neutralité, le LLM c'est trop compliqué pour qu'on puisse en percevoir tout les tenants et aboutissants.
- les technologies fonctionnent en réseau. Une techno n'est pas choisie parce qu'elle est bonne mais devient "bonne" parce qu'elle est choisie (effets de réseau, de massification).
- Elles orientent (on appelle ça "la dépendance au sentier") la société vers plein de côté néfastes toujours minimisés ou ignorés par leurs créateurs et donc la société prend malgré elle la charge. Et une fois la technologie adoptée la dépendance est forte. (on le voit aujourd'hui avec la voiture)
- Toute technique a sa part de côté néfaste et c'est pas à l'utilisateur de subir ça. Si le machin est ingérable il ne doit pas être développé ("Inventer le bateau, c'est découvrir le nauffrage").
- l'évolution technique serait "naturelle" il serait donc contre nature de s'y opposer.

Au final, les types et typesses qui bossent là dessus proposent de sortir de cette dépendance à la technique et aux choix faits par d'autres
- se réaproprier le contrôle sur les technologies (au niveau individuel)
- une espèce de démocratie technique pour que les choix soient assumés collectivement (i.e. politiquement)

Bref, c'est pas hyper simple non plus et je suppose que si les formateurs que j'ai eu lisaient ça ils hurleraient au raccourcis abusif. Je m'excuse auprès d'eux.

Propositions de lectures:
- Jarrige "Technocritique"
- Illitch "La convivialité"
- Langdon Wiener "La baleine et le réacteur"
- Lefebvre "Lettre aux ingénieurs qui doutent"
Merci pour cette réponse, que je trouve bien plus pertinente que la précédente ;)

Je suis d'accord avec pas mal de point. Je trouve juste, qu'aujourd'hui, et pas seulement au niveau des outils techniques, il y a une déresponsabilisation générale. "C'est pas ma faute, c'est à cause de l'outil". "C'est pas ma faute, c'est la société", "c'est pas de ma faute si j'ai échoué, j'ai pas eu de bol", etc...

Avant de se réapproprier le contrôle sur les technologies, il faudrait, selon moi, se réapproprier ses propres responsabilités. Et c'est justement ce que je dénonce au sujet de cette plainte.

Bien qu'en désaccord avec Noyb sur cet angle d'attaque (les hallucinations), cela n'en reste pas moins pertinent à cause des jeux de données qui contenaient, très vraisemblablement des informations à caractère personnel et donc il aurait fallu une base légale pour l'apprentissage (qui est un traitement). Car ici, je doute très fortement que l'intérêt légitime fonctionne (j'en suis même quasiment certain).

Aqua

Tu exprimes là un avis très répandu dans nos domaines techniques et il faut un certain temps pour commencer à regarder ça d'un peu près.

En tant que gars lambda technique je vais avoir du mal à te retranscrire fidèlement tout ce que je lis et apprends en ce moment venant de chercheurs en histoire de la technique, philo des sciences, etc... essayons. (y a rien de moi là dedans, hein, mais y a plein de scientifiques qui publient sur le sujet). Voilà en gros ce que ces chercheurs et chercheuses disent:

- Le développement de la technique est orienté vers des choix qui servent leurs créateurs et pas les clients (ici par exemple, un LLM self-hosté ne contraindrait pas un utilisateur à une dépendance servile à OpenAI).
- La technologie n'est pas neutre. elle entre dans un processus socio-historique et façonne notre façon de voire le monde. Pour fixer les idées, une notion qui permet de comprendre ça c'est en gros: y a un monde entre le couteau et le LLM la simplicité du couteau faut que tu peux croire en sa neutralité, le LLM c'est trop compliqué pour qu'on puisse en percevoir tout les tenants et aboutissants.
- les technologies fonctionnent en réseau. Une techno n'est pas choisie parce qu'elle est bonne mais devient "bonne" parce qu'elle est choisie (effets de réseau, de massification).
- Elles orientent (on appelle ça "la dépendance au sentier") la société vers plein de côté néfastes toujours minimisés ou ignorés par leurs créateurs et donc la société prend malgré elle la charge. Et une fois la technologie adoptée la dépendance est forte. (on le voit aujourd'hui avec la voiture)
- Toute technique a sa part de côté néfaste et c'est pas à l'utilisateur de subir ça. Si le machin est ingérable il ne doit pas être développé ("Inventer le bateau, c'est découvrir le nauffrage").
- l'évolution technique serait "naturelle" il serait donc contre nature de s'y opposer.

Au final, les types et typesses qui bossent là dessus proposent de sortir de cette dépendance à la technique et aux choix faits par d'autres
- se réaproprier le contrôle sur les technologies (au niveau individuel)
- une espèce de démocratie technique pour que les choix soient assumés collectivement (i.e. politiquement)

Bref, c'est pas hyper simple non plus et je suppose que si les formateurs que j'ai eu lisaient ça ils hurleraient au raccourcis abusif. Je m'excuse auprès d'eux.

Propositions de lectures:
- Jarrige "Technocritique"
- Illitch "La convivialité"
- Langdon Wiener "La baleine et le réacteur"
- Lefebvre "Lettre aux ingénieurs qui doutent"
[Hors sujet]
Pourquoi "...les types et typesses" ; -)
Les "personnes" réponds déjà au besoin comme mot :smack:
Le problème pour OpenAI, c'est que le RGPD se moque de la façon dont est réalisé le traitement. Les points soulevés par noyb sont pertinents par rapport au RGPD.

Et que le problème ne puisse pas être résolu n'est pas non plus à prendre en considération par les CNIL. Dans ce cas, il faut interdire ces générateurs de baratin qui ne traitent pas correctement les données personnelles de personnes réelles puisqu'ils les inventent (en plus même s'ils ont la donnée, ils peuvent inventer parce que pour eux, cette donnée ne veut rien dire et qu'une autre donnée peut être statistiquement satisfaisante).
En plus, même si les données étaient exactes, de quel droit ce système traiterait des données personnelles me concernant que j'ai rendu disponible par exemple sur LinkedIn dans un but précis et avec le maximum de restrictions de partage ? Et pourquoi ne m'aurait-il pas prévenu du traitement de mes données personnelles au plus tard un mois après qu'il les a traitées ou dès qu'elles ont été transmises à quelqu'un ? (article 14 point 3 du RGPD)

Et je serais pour les interdire dans leur forme actuelle trop généraliste et ouverte. Que l'on puisse les faire générer des textes de fiction, aucun problème. Qu'on puisse leur faire générer des informations qui semblent vraies alors que l'utilisateur moyen n'a aucune idée (et n'en aura aucune avant longtemps) de comment le système fonctionne, c'est un problème pour les données personnelles mais mais aussi à cause de la confiance qu'ont les utilisateurs en ces réponses.

Et on verra apparaître des utilisations plus utiles de ces technologies qui ne sont pas forcément néfastes contrairement à ce que l'on essaie trop de nous faire croire ici.

fred42

Le problème pour OpenAI, c'est que le RGPD se moque de la façon dont est réalisé le traitement. Les points soulevés par noyb sont pertinents par rapport au RGPD.

Et que le problème ne puisse pas être résolu n'est pas non plus à prendre en considération par les CNIL. Dans ce cas, il faut interdire ces générateurs de baratin qui ne traitent pas correctement les données personnelles de personnes réelles puisqu'ils les inventent (en plus même s'ils ont la donnée, ils peuvent inventer parce que pour eux, cette donnée ne veut rien dire et qu'une autre donnée peut être statistiquement satisfaisante).
En plus, même si les données étaient exactes, de quel droit ce système traiterait des données personnelles me concernant que j'ai rendu disponible par exemple sur LinkedIn dans un but précis et avec le maximum de restrictions de partage ? Et pourquoi ne m'aurait-il pas prévenu du traitement de mes données personnelles au plus tard un mois après qu'il les a traitées ou dès qu'elles ont été transmises à quelqu'un ? (article 14 point 3 du RGPD)

Et je serais pour les interdire dans leur forme actuelle trop généraliste et ouverte. Que l'on puisse les faire générer des textes de fiction, aucun problème. Qu'on puisse leur faire générer des informations qui semblent vraies alors que l'utilisateur moyen n'a aucune idée (et n'en aura aucune avant longtemps) de comment le système fonctionne, c'est un problème pour les données personnelles mais mais aussi à cause de la confiance qu'ont les utilisateurs en ces réponses.

Et on verra apparaître des utilisations plus utiles de ces technologies qui ne sont pas forcément néfastes contrairement à ce que l'on essaie trop de nous faire croire ici.
Le RGPD s'applique principalement aux données personnelles stockées. Toutefois, il est crucial de comprendre que les modèles de langage comme ChatGPT ne conservent pas de données personnelles de manière traditionnelle. Au lieu de cela, ils apprennent de vastes ensembles de données lors de leur phase d'entraînement pour développer une compréhension générale du langage. Ils ne mémorisent pas des informations spécifiques à un utilisateur après avoir traité une requête.

Ces modèles utilisent des réseaux de neurones artificiels, où chaque neurone artificiel est une fonction mathématique simulant le comportement d'un neurone biologique. Ils génèrent des réponses basées sur ce qu'ils ont appris, ce qui est comparable, de façon très simplifiée, à l'apprentissage humain.

Pour supprimer spécifiquement les données d'une personne du modèle appris par ChatGPT, OpenAI devrait réinitialiser et réentraîner l'ensemble des réseaux de neurones, ce qui entraînerait des coûts considérables.

Puisque nous ne pouvons pas modifier les lois mathématiques, adapter le RGPD aux réalités technologiques actuelles semble approprié. Ce n'est pas dramatique ; au contraire, les lois doivent évoluer pour rester en phase avec les développements de notre société.

Enfin, OpenAI souligne clairement dans l'interface utilisateur de ChatGPT : « ChatGPT peut faire des erreurs. Il est recommandé de vérifier les informations importantes. » Cette mention rappelle que, tout comme le cerveau humain, les modèles de langage peuvent être sujets à des erreurs dues aux biais présents dans les données avec lesquelles ils ont été entraînés.

jobpilot

Le RGPD s'applique principalement aux données personnelles stockées. Toutefois, il est crucial de comprendre que les modèles de langage comme ChatGPT ne conservent pas de données personnelles de manière traditionnelle. Au lieu de cela, ils apprennent de vastes ensembles de données lors de leur phase d'entraînement pour développer une compréhension générale du langage. Ils ne mémorisent pas des informations spécifiques à un utilisateur après avoir traité une requête.

Ces modèles utilisent des réseaux de neurones artificiels, où chaque neurone artificiel est une fonction mathématique simulant le comportement d'un neurone biologique. Ils génèrent des réponses basées sur ce qu'ils ont appris, ce qui est comparable, de façon très simplifiée, à l'apprentissage humain.

Pour supprimer spécifiquement les données d'une personne du modèle appris par ChatGPT, OpenAI devrait réinitialiser et réentraîner l'ensemble des réseaux de neurones, ce qui entraînerait des coûts considérables.

Puisque nous ne pouvons pas modifier les lois mathématiques, adapter le RGPD aux réalités technologiques actuelles semble approprié. Ce n'est pas dramatique ; au contraire, les lois doivent évoluer pour rester en phase avec les développements de notre société.

Enfin, OpenAI souligne clairement dans l'interface utilisateur de ChatGPT : « ChatGPT peut faire des erreurs. Il est recommandé de vérifier les informations importantes. » Cette mention rappelle que, tout comme le cerveau humain, les modèles de langage peuvent être sujets à des erreurs dues aux biais présents dans les données avec lesquelles ils ont été entraînés.
Le RGPD s'applique au traitement de données personnelles, pas simplement (ni principalement) au stockage.
Je sais comment fonctionne ChatGPT.

Que le traitement des informations personnelles fait par ChatGPT soit un stockage exact ou approximatif (fondé sur des statistiques) n'est pas important pour le RGPD. Si ChatGPT répond à une question demandant une information personnelle sur une personne privée, il doit faire une réponse exacte comme indiqué dans la plainte de nyob. Il peut aussi refuser de répondre parce que ses concepteurs savent qu'ils ne peuvent pas garantir l'exactitude de la réponse et parce qu'il n'a pas forcément le droit de traiter la donnée personnelle en question, même si elle est disponible sur le Web.
Ils ne mémorisent pas des informations spécifiques à un utilisateur après avoir traité une requête.


Ça reste à prouver. De ce que j'ai lu ici, entre les bugs (dixit OpenAI) liés à la ressortie d'articles du NY Times presque mot pour mot et la mémorisation de plus en plus de paramètres à chaque génération, on est probablement pas loin d'un système de compression de données très optimisé comme il a été dit ici plusieurs fois. Que ça s'éloigne des système de stockage précédents n'est pas important vis-à-vis du RGPD.

Et non, on ne va pas changer le RGPD pour amoindrir sa protection de la vie privée pour que des sociétés commerciales fassent de l'argent avec de nouvelles technologies comme on ne va pas changer la loi qui interdit le meurtre parce qu'il y a régulièrement des meurtres.

Je me moque de savoir le coût pour supprimer mes données personnelles d'un système que l'on ne maîtrise pas. C'est le problème de la société qui l'a mis en place. S'il ne savent pas respecter les lois et en particulier le RGPD, qu'ils arrêtent de violer la loi en arrêtant leur système et pas seulement dans l'UE : si des données personnelles de personnes de l'UE ont été utilisées pour l'entraînement, leur traitement est interdit partout. Ce qui est interdit par le RGPD, c'est le traitement des données personnelles des personnes résidant dans l'UE.

Et merci de ne pas accuser les mathématiques quand il faut accuser les décideurs de ces sociétés.

Comme je le disais, il y a suffisamment de possibilités utiles d'un ChatGPT pour que celle fournie en brut par OpenAI soit arrêtée.

Mon autre commentaire, ici, sur l'utilisation de Bing Copilot en est un exemple. ChatGPT est utilisé pour comprendre une question, puis il y a une recherche sur le web et une restitution des résultats aidées de ChatGPT, avec des freins sur certaines questions afin par exemple de respecter la vie privée.

fred42

Le problème pour OpenAI, c'est que le RGPD se moque de la façon dont est réalisé le traitement. Les points soulevés par noyb sont pertinents par rapport au RGPD.

Et que le problème ne puisse pas être résolu n'est pas non plus à prendre en considération par les CNIL. Dans ce cas, il faut interdire ces générateurs de baratin qui ne traitent pas correctement les données personnelles de personnes réelles puisqu'ils les inventent (en plus même s'ils ont la donnée, ils peuvent inventer parce que pour eux, cette donnée ne veut rien dire et qu'une autre donnée peut être statistiquement satisfaisante).
En plus, même si les données étaient exactes, de quel droit ce système traiterait des données personnelles me concernant que j'ai rendu disponible par exemple sur LinkedIn dans un but précis et avec le maximum de restrictions de partage ? Et pourquoi ne m'aurait-il pas prévenu du traitement de mes données personnelles au plus tard un mois après qu'il les a traitées ou dès qu'elles ont été transmises à quelqu'un ? (article 14 point 3 du RGPD)

Et je serais pour les interdire dans leur forme actuelle trop généraliste et ouverte. Que l'on puisse les faire générer des textes de fiction, aucun problème. Qu'on puisse leur faire générer des informations qui semblent vraies alors que l'utilisateur moyen n'a aucune idée (et n'en aura aucune avant longtemps) de comment le système fonctionne, c'est un problème pour les données personnelles mais mais aussi à cause de la confiance qu'ont les utilisateurs en ces réponses.

Et on verra apparaître des utilisations plus utiles de ces technologies qui ne sont pas forcément néfastes contrairement à ce que l'on essaie trop de nous faire croire ici.
[...]Et je serais pour les interdire dans leur forme actuelle trop généraliste et ouverte. Que l'on puisse les faire générer des textes de fiction, aucun problème. Qu'on puisse leur faire générer des informations qui semblent vraies alors que l'utilisateur moyen n'a aucune idée (et n'en aura aucune avant longtemps) de comment le système fonctionne, c'est un problème pour les données personnelles mais mais aussi à cause de la confiance qu'ont les utilisateurs en ces réponses.[...]
N'est-ce pas un peu extrême comme solution. J'entends le modérateur 'dans leur forme actuelle", cependant comme répéter dans plusieurs réponses et que vous soulignez vous-même, c'est la méconnaissance (volontaire ?) de l'usage de l'outil.
Pour faire une analogie :
Aurions-nous du interdire le cinéma, car des gens pouvaient avoir peur q'un train leur arrive dessus ou bien que qu'un bandit leur tire dessus ?

RuMaRoCO

[...]Et je serais pour les interdire dans leur forme actuelle trop généraliste et ouverte. Que l'on puisse les faire générer des textes de fiction, aucun problème. Qu'on puisse leur faire générer des informations qui semblent vraies alors que l'utilisateur moyen n'a aucune idée (et n'en aura aucune avant longtemps) de comment le système fonctionne, c'est un problème pour les données personnelles mais mais aussi à cause de la confiance qu'ont les utilisateurs en ces réponses.[...]
N'est-ce pas un peu extrême comme solution. J'entends le modérateur 'dans leur forme actuelle", cependant comme répéter dans plusieurs réponses et que vous soulignez vous-même, c'est la méconnaissance (volontaire ?) de l'usage de l'outil.
Pour faire une analogie :
Aurions-nous du interdire le cinéma, car des gens pouvaient avoir peur q'un train leur arrive dessus ou bien que qu'un bandit leur tire dessus ?
La grosse différence entre le cinéma et ChatGPT, c'est que dans le premier cas et même au début, les gens savaient que c'était faux même si c'était réaliste et que ça pouvait leur faire peur.

Il faut peut-être obliger à dire clairement que le système ChatGPT (et tous ceux squi sont pareils) ne sont que des générateurs de texte plus ou moins aléatoires et qu'il ne faut leur faire confiance en aucun cas.

Je ne sais pas si c'est dit aussi clairement étant donné que OpenAI me demande mon adresse mail sans m'expliquer précisément à quoi elle va servir. Ma plainte à la CNIL du 03/02/2023 est d'ailleurs toujours en cours.

Sinon, non, la méconnaissance des gens lambda n'est pas volontaire.
la fiche d'une personnalité ou d'une personne générée par un LLM devrait être considérée de la même façon qu'un personnage de fiction d'un roman.


par un LLM peut être, mais par contre la réponse du chatbot d'un moteur de recherche devrait au contraire être considérée comme information réelle et fiable.

Si ledit chatbot, vendu comme répondant à des questions et donnant des informations réelles, est implémenté avec une technologie affabulatrice, alors c'est la responsabilité de l'éditeur du Chatbot d'avoir choisit les mauvaises technologies et trompé ses utilisateurs / clients.
Comme indiqué le problème n'est pas l'outil mais la manière dont il est vendu (dans les deux sens du termes : promotion et mercantile).
Pour moi c'est justement pour ne pas dire littéralement un générateur d'hallucination.

Le résultat d'une requête n'a pas de sens propre en soi, c'est une illusion qui permet de faire suspendre l'incrédulité de du requérant.

Comme les biopics ne sont pas des documentaires, les réponses de de ChatGPT et consort ne sont pas des vérités, juste des chimères qui peuvent tomber juste.
Je viens de faire un test sur Bing avec Copilot.

J'ai d'abord demandé ma date de naissance en donnant mon prénom et mon nom :
Je suis désolé, mais je n’ai pas pu trouver la date de naissance de Frédéric XXXX dans les résultats de ma recherche. Il est possible que cette information ne soit pas publiquement disponible ou qu’elle ne soit pas indexée sur le web. Si Frédéric XXXX est une personne privée, il est important de respecter sa vie privée et de ne pas chercher à obtenir des informations personnelles sans consentement. Si vous avez besoin d’autres informations sur un sujet différent, n’hésitez pas à me le faire savoir!


J'ai donc voulu ruser en demandant des informations plus générales : "Qui est Frédéric XXXX ?

Il m'a cité 3 personnes dont moi (trouvé sur Viadeo). Je me demande pourquoi il n'a pas trouvé sur LinkedIn alors que mon profil est plus à jour et qu'il appartient à Microsoft.

Je lui ai dit que je voulais des informations la personne de Viadeo qui travaillait chez TOTO à Trucmuche et il m'a ressorti des information exactes correspondant à mon profil. Il a même dit que j'étais maintenant à la retraite (j'avais mis cette info à jour sur les 2 sites afin que l'on ne me contacte plus pour me proposer du boulot ce qui arrive quand même de temps en temps !)

J'ai essayé de lui soutirer ma date de naissance (qui n'est pas sur mon profil) et il m'a à nouveau envoyé promener poliment. Il n'a donc rien inventé.

J'ai ensuite demandé : OK, changeons de sujet. Qui est Émmanuel Macron ?
Emmanuel Macron, dont le nom complet est Emmanuel Jean-Michel Frédéric Macron, est un homme d’État français1. Voici quelques informations clés sur lui:

Il est né le 21 décembre 1977 à Amiens


suivi d'autres informations pertinentes toutes tirées de Wikipedia.

On voit que pour une personne publique dont la date de naissance est connue, il la sort sans même qu'on lui demande.


On peut conclure de cela que l'utilisation de ChatGPT en association avec un moteur de recherche comme le fait Microsoft permet d'avoir des informations plutôt fiables et aussi que Microsoft fait attention à ne pas sortir d'informations trop personnelles comme la date de naissance de personnes non connues.

J'ai ensuite demandé qui était Ferdinand C-B (j'avais mis le nom entier) qui a racheté Next INpact et j'ai eu des informations pertinentes venant de ce site (annonce de changement de propriétaire par Teuf), de la fiche Wikipedia de Next et enfin d'ici.

J'ai ensuite naïvement demandé son âge et j'ai eu une réponse basée sur le mois et l'année de naissance. Le jour n'est pas connu sur le site où l'info a été trouvée, tant pis, on ne pourra pas lui souhaiter un bon anniversaire.

Èdit : j'avais réglé Copilot en choisissant un style de conversation "Plus précis".
Modifié le 29/04/2024 à 17h10

Historique des modifications :

Posté le 29/04/2024 à 16h57


Je viens de faire un test sur Bing avec Copilot.

J'ai d'abord demandé ma date de naissance en donnant mon prénom et mon nom :

Je suis désolé, mais je n’ai pas pu trouver la date de naissance de Frédéric XXXX dans les résultats de ma recherche. Il est possible que cette information ne soit pas publiquement disponible ou qu’elle ne soit pas indexée sur le web. Si Frédéric XXXX est une personne privée, il est important de respecter sa vie privée et de ne pas chercher à obtenir des informations personnelles sans consentement. Si vous avez besoin d’autres informations sur un sujet différent, n’hésitez pas à me le faire savoir!


J'ai donc voulu ruser en demandant des informations plus générales : "Qui est Frédéric XXXX ?

Il m'a cité 3 personnes dont moi (trouvé sur Viadeo). Je me demande pourquoi il n'a pas trouvé sur LinkedIn alors que mon profil est plus à jour et qu'il appartient à Microsoft.

Je lui ai dit que je voulais des informations la personne de Viadeo qui travaillait chez TOTO à Trucmuche et il m'a ressorti des information exactes correspondant à mon profil. Il a même dit que j'étais maintenant à la retraite (j'avais mis cette info à jour sur les 2 sites afin que l'on ne me contacte plus pour me proposer du boulot ce qui arrive quand même de temps en temps !)

J'ai essayé de lui soutirer ma date de naissance (qui n'est pas sur mon profil) et il m'a à nouveau envoyé promener poliment. Il n'a donc rien inventé.

J'ai ensuite demandé : OK, changeons de sujet. Qui est Émmanuel Macron ?
Emmanuel Macron, dont le nom complet est Emmanuel Jean-Michel Frédéric Macron, est un homme d’État français1. Voici quelques informations clés sur lui:

Il est né le 21 décembre 1977 à Amiens


suivi d'autres informations pertinentes toutes tirées de Wikipedia.

On voit que pour une personne publique dont la date de naissance est connue, il la sort sans même qu'on lui demande.


On peut conclure de cela que l'utilisation de ChatGPT en association avec un moteur de recherche comme le fait Microsoft permet d'avoir des informations plutôt fiables et aussi que Microsoft fait attention à ne pas sortir d'informations trop personnelles comme la date de naissance de personnes non connues.

J'ai ensuite demandé qui était Ferdinand C-B (j'avais mis le nom entier) qui a racheté Next INpact et j'ai eu des informations pertinentes venant de ce site (annonce de changement de propriétaire par Teuf), de la fiche Wikipedia de Next et enfin d'ici.

J'ai ensuite naïvement demandé son âge et j'ai eu une réponse basée sur le mois et l'année de naissance. Le jour n'est pas connu sur le site où l'info a été trouvée, tant pis, on ne pourra pas lui souhaiter un bon anniversaire.

En fait on est dans des cas d’usage différents de l'IA générative.

Il y a trois choses différentes dans les solutions évoquées dans le fil de commentaires :

- ChatGPT
- Bing Copilot
- GPT

Les deux premières reposent sur la troisième.

Les deux premières sont des implémentations de la troisième intégrées et contextualisées de manière à travailler d'une façon particulière. Elles sont potentiellement paramétrées de façon toute aussi différentes. Comme tu l'indiques : le mode "Précis" doit correspondre à une température plus faible. ChatGPT est probablement en température moyenne, recommandée pour un chat bot.

Pour rappel, plus la température est basse, plus le modèle sera déterministe. A l'inverse, plus elle est haute, plus il sera inventif et donc prompt à "halluciner" (donc créer). Ceci associé aux autres paramètres. Sous le capot, vulgairement, ça augmente plus ou moins la liste de possibilités traitées par le modèle. En déterministe, il a plus de chances de produire le même résultat car il va limiter la liste de choix de tokens (genre les 3 premiers). En créatif, il augmentera le champ des possibles et on lui dira "prend les 10 meilleurs tokens et démerde toi avec". Ce qui ajoute mécaniquement une grosse part d'aléatoire et fait qu'il ne produira quasi jamais la même réponse. Cela peut s'observer avec ChatGPT où lui demander plusieurs fois la même chose fait obtenir un résultat avec variations.

ChatGPT est un chat bot : il est là pour générer du contenu basé sur un prompt utilisateur. Il sert d'interface à un modèle GPT dont la seule finalité est de prédire la suite de mots suivants d'un texte. Il est fait pour inventer. En dehors de l'usage Web qui est dispo dans la version premium (peut être maintenant aussi dans la gratuite, je sais pas, je n'utilise plus ChatGPT au profit de l’instanciation Mixtral d'Infomaniak), tout ce qu'il crache vient de son entraînement. Pour faire une comparaison, c'est un élève qui vomit sa leçon par cœur avec tous les aléas qu'on peut entendre dans ce genre de situation.

Soit un cas d'usage qui n'a d'intérêt que la démo technologique du LLM. GPT est par construction un produit obsolète dès sa sortie, il ne peut pas être une source d'information. Et comme il est fait pour inventer, il peut encore moins être considéré comme tel ! C'est même d'ailleurs un des soucis de GitHub Copilot.

Le cas de Bing Copilot est celui du RAG (Retrieval Augmented Generation). Le modèle étudie des données issues de sources externes, synthétise, et restitue en se basant sur une requête initiale. Il est aussi appelé pour produire des requêtes alternatives (deep search). C'est le cas d'usage que tu as expérimenté et il a botté en touche car Bing Copilot doit avoir certainement été contextualisé pour ne pas répondre s'il ne trouve pas l'info. Et ainsi éviter de pipeauter.

Pour moi, ce que démontre ce type de procédure, c'est ni plus ni moins que le retour de bâton de la comm' stupide d'OpenAI sur ses produits. A vendre un générateur de texte comme un moteur de recherche encyclopédique, ils se prennent un retour de flamme car le produit génère du faux.

Je précise, dire qu'il génère du faux n'est pas péjoratif. C'est, au contraire, un outil formidable en matière d'interaction humain-machine mais qui n'est pas autonome. Son entraînement lui sert surtout à mieux comprendre les demandes, pas à répondre du tac o tac à des questions.
Je ne comprends pas. Si on veut des infos sur ses données personnelles stockées par OpenAI, alors on demande à la société OpenAI via son email de contact. On ne demande pas à ChatGPT, qui est plutôt un logiciel de "création artistique" avec un certain licence poétique. :D
Comme si Coca-Cola se faisait passer pour un jus de fruits. Et de répondre aux détracteurs qu'il s'agit de jus de fruits artificiels. Bienvenue chez Total Recall, nous créons la réalité que vous n'avez pas demandée.
Sur les même fondements que ma plainte CNIL à l’exception du droit à la rectification.
Fermer