L’outil pour retirer des données personnelles de l’entraînement des IA de Meta ne fonctionne pas

Le 30 octobre 2023 à 08h00

2 min

Sciences et espace

Sciences

Alors que l’intelligence artificielle générative attirait tous les regards, les inquiétudes sur leur propension à outrepasser les droits d’auteurs des artistes se sont faites croissantes.  Pour y répondre, Open AI a proposé une fonctionnalité permettant de bloquer son travail de l’entraînement du générateur d’image Dall-E.

De même, Meta a lancé en août un outil compris par beaucoup comme permettant d’éviter que certaines données personnelles soient utilisées dans l’entraînement de ses modèles d’IA générative.

Problème : il ne s’agit que d’un formulaire, qui ne garantit pas grand-chose sur le résultat.

« C’est un faux », se plaignent divers artistes auprès de Wired, « c’est un coup de communication ».

Ceux qui l’ont testé constatent en effet que le processus pour faire enlever des données ou des travaux copyrightés est aussi inefficace que frustrant : Meta demande en effet aux auteurs de prouver que leurs travaux ont été utilisés dans l’entraînement de ses technologies.

Pour les artistes, c’est très complexe, car Meta n’a publié aucun détail sur les données d’entraînement qu’elle utilise et la manière dont elle le fait, ce qui force les artistes à tester toutes sortes de requêtes jusqu’à pouvoir prouver le problème.

Wired n’a trouvé aucun interlocuteur qui ait réussi à faire supprimer des données des jeux d’entraînement utilisés par Meta.  L’entreprise, elle, souligne que son formulaire n’est pas un outil de retrait, mais seulement un formulaire permettant à certaines personnes, dans certaines juridictions (comme l’Union Européenne, avec son RGPD), de s’opposer à ce que certaines données issues de tiers soient utilisées pour l’entraînement de leurs modèles.

Vincent Hermann

Le 30 octobre 2023 à 08h00

Commentaires (17)

Mr.Nox

Le 30/10/2023 à 08h29

Étonnant de la part de Meta !

Gamble

Le 30/10/2023 à 08h48

On a besoin d’informations sur vous pour être sûr qu’on a bien des informations sur vous, donc merci de nous donner encore plus d’informations, tandis qu’on ne garantit absolument pas qu’on effacera quoi que ce soit.

Jon Joe Abonné

Le 30/10/2023 à 09h06

Oh ben mince alors! J’en tombe à la renverse. Qui l’eut cru?

ImpactID Abonné

Le 30/10/2023 à 09h27

Mon humble avis, c’est que techniquement, c’est très compliqué de s’assurer que telle ou telle donnée, ou référence aux dites données ne font pas partie d’un jeu de donnée, sans pouvoir qualifier très précisément la donnée, ce que les aillants droit ne souhaitent pas faire.
Au delà de ça, je crois comprendre qu’il est techniquement impossible, sur un modèle déjà entraîné, de retirer ou exclure une part des informations pour générer des résultats (la donnée en elle même n’existant plus que sous forme de vecteur statistiques inintelligible pour l’humain.).
Comme les modèles sont itératifs, les anciens nourrissant ou servant à calibrer les nouveaux, ce problème semble insoluble sauf à repartir d’une page blanche à chaque requête de retrait, ce qui, étant donnés les coûts d’entraînement, est insoutenable économiquement.
Du coup, la seule solution restante, c’est le post traitement des résultats (avec une autre IA ? ) pour qualifier statistiquement la similitude avec des données sous copyright. Ce sera évidemment sujet à interprétation.–> Beaucoup d’argent à venir pour les futurs cabinets d’avocat spécialisés ?

Pinailleur Abonné

Le 30/10/2023 à 11h51

C’est d’autant plus dur que Meta ne dévoile sur les données utilisées pour son modèle. On a besoin de lois qui les contraignent à le faire, pour ensuite pouvoir s’en plaindre ou non. Ils jouent sur l’obfuscation.

elticail

Le 30/10/2023 à 09h27

(quote:2162427:Jon Joe)
Oh ben mince alors! J’en tombe à la renverse. Qui l’eut cru?

“Qui l’eut cru” c’est pour les pâtes (indice Lustucru, si t’as besoin de l’indice c’est que t’es vieux)
En 2023 on dit “mais qui aurait pu prévoir”

127.0.0.1

Le 30/10/2023 à 11h00

Problème : il ne s’agit que d’un formulaire, qui ne garantit pas grand-chose sur le résultat.

Dis moi, quelles données personnelles tu veux vraiment cacher ?

skankhunt42

Le 30/10/2023 à 11h05

La plupart des “artistes” s’inspirent voire copie carrément ce qui existe déjà.

Pinailleur Abonné

Le 30/10/2023 à 11h49

(reply:2162459:skankhunt42 )

Hors-sujet.

alex.d. Abonné

Le 30/10/2023 à 12h02

Je ne sais pas comment marche l’IA de Facebook, mais dans ChatGPT, c’est assez simple de lui demander de recracher un passage d’une oeuvre. À partir de là, ça semble évident que l’oeuvre en question fait partie de ses données d’entraînement.

elticail

Le 30/10/2023 à 12h24

(quote:2162459:skankhunt42 )
La plupart des “artistes” s’inspirent voire copie carrément ce qui existe déjà.

Mon voisin bastonne sa femme, je pourrais m’en inspirer ou bien ?

Kwacep Abonné

Le 31/10/2023 à 07h55

Non, mais tu ferai mieux de ne pas garder le silence auprès des autorités : https://www.francebleu.fr/infos/faits-divers-justice/affaire-du-petit-tony-a-reims-j-ai-hate-que-ca-se-termine-dit-le-voisin-a-son-troisieme-proces-3990810

elticail

Le 31/10/2023 à 08h04

Team 1er degré bonjour

Gamble

Le 31/10/2023 à 08h55

En fait, tu cites un article qui, comme l’a dit au moins une association de protection de l’enfance, donne l’impression qu’il faut surtout garder le silence, car dans le cas présent, le seul qui a dit et fait quelque chose est également le seul qui a eu droit à 3 procès suite à l’acharnement du ministère public.

“Ce procès ne plaît pas non plus à certaines associations de protection de l’enfance, car il pourrait bien dissuader certains de parler. Le voisin en question, qui habitait en dessous du couple, a bien essayé d’alerter.”
https://www.francebleu.fr/infos/faits-divers-justice/mort-de-tony-a-reims-un-voisin-juge-ce-mardi-pour-non-denonciation-de-mauvais-traitements-1571676679

SebGF Abonné

Le 30/10/2023 à 12h42

Pas surprenant. Je m’étais dit la même chose des formulaires qu’OpenAI avait lancé suite aux injonctions de l’autorité de protection des données italienne.

darkjack Abonné

Le 30/10/2023 à 12h59

elticail a dit:

“Qui l’eut cru” c’est pour les pâtes (indice Lustucru, si ~~t’as~~ tu n’as pas besoin de l’indice c’est que t’es vieux) En 2023 on dit “mais qui aurait pu prévoir”

Non?
Toute déduction hasardeuse entre la personne assise entre mon clavier et ma chaise est proscrite :)

elticail

Le 30/10/2023 à 13h05

Merci pour la correction, j’ai les n’oeils qui se sont croisés (pas la peine de corriger, j’ai fait exprès cette fois )

Catégories

Nous Suivre

À propos

L’outil pour retirer des données personnelles de l’entraînement des IA de Meta ne fonctionne pas

Commentaires (17)