L’outil pour retirer des données personnelles de l’entraînement des IA de Meta ne fonctionne pas

L’outil pour retirer des données personnelles de l’entraînement des IA de Meta ne fonctionne pas

L’outil pour retirer des données personnelles de l’entraînement des IA de Meta ne fonctionne pas

Alors que l’intelligence artificielle générative attirait tous les regards, les inquiétudes sur leur propension à outrepasser les droits d’auteurs des artistes se sont faites croissantes. 
Pour y répondre, Open AI a proposé une fonctionnalité permettant de bloquer son travail de l’entraînement du générateur d’image Dall-E.

De même, Meta a lancé en août un outil compris par beaucoup comme permettant d’éviter que certaines données personnelles soient utilisées dans l’entraînement de ses modèles d’IA générative. 

Problème : il ne s’agit que d’un formulaire, qui ne garantit pas grand-chose sur le résultat.

« C’est un faux », se plaignent divers artistes auprès de Wired, « c’est un coup de communication ».

Ceux qui l’ont testé constatent en effet que le processus pour faire enlever des données ou des travaux copyrightés est aussi inefficace que frustrant : Meta demande en effet aux auteurs de prouver que leurs travaux ont été utilisés dans l’entraînement de ses technologies.

Pour les artistes, c’est très complexe, car Meta n’a publié aucun détail sur les données d’entraînement qu’elle utilise et la manière dont elle le fait, ce qui force les artistes à tester toutes sortes de requêtes jusqu’à pouvoir prouver le problème.

Wired n’a trouvé aucun interlocuteur qui ait réussi à faire supprimer des données des jeux d’entraînement utilisés par Meta. 
L’entreprise, elle, souligne que son formulaire n’est pas un outil de retrait, mais seulement un formulaire permettant à certaines personnes, dans certaines juridictions (comme l’Union Européenne, avec son RGPD), de s’opposer à ce que certaines données issues de tiers soient utilisées pour l’entraînement de leurs modèles.

Commentaires (17)


Étonnant de la part de Meta !


On a besoin d’informations sur vous pour être sûr qu’on a bien des informations sur vous, donc merci de nous donner encore plus d’informations, tandis qu’on ne garantit absolument pas qu’on effacera quoi que ce soit.


Oh ben mince alors! J’en tombe à la renverse. Qui l’eut cru?


Mon humble avis, c’est que techniquement, c’est très compliqué de s’assurer que telle ou telle donnée, ou référence aux dites données ne font pas partie d’un jeu de donnée, sans pouvoir qualifier très précisément la donnée, ce que les aillants droit ne souhaitent pas faire.
Au delà de ça, je crois comprendre qu’il est techniquement impossible, sur un modèle déjà entraîné, de retirer ou exclure une part des informations pour générer des résultats (la donnée en elle même n’existant plus que sous forme de vecteur statistiques inintelligible pour l’humain.).
Comme les modèles sont itératifs, les anciens nourrissant ou servant à calibrer les nouveaux, ce problème semble insoluble sauf à repartir d’une page blanche à chaque requête de retrait, ce qui, étant donnés les coûts d’entraînement, est insoutenable économiquement.
Du coup, la seule solution restante, c’est le post traitement des résultats (avec une autre IA ? ) pour qualifier statistiquement la similitude avec des données sous copyright. Ce sera évidemment sujet à interprétation.–> Beaucoup d’argent à venir pour les futurs cabinets d’avocat spécialisés ?


C’est d’autant plus dur que Meta ne dévoile sur les données utilisées pour son modèle. On a besoin de lois qui les contraignent à le faire, pour ensuite pouvoir s’en plaindre ou non. Ils jouent sur l’obfuscation.



(quote:2162427:Jon Joe)
Oh ben mince alors! J’en tombe à la renverse. Qui l’eut cru?




“Qui l’eut cru” c’est pour les pâtes (indice Lustucru, si t’as besoin de l’indice c’est que t’es vieux)
En 2023 on dit “mais qui aurait pu prévoir” :D



Problème : il ne s’agit que d’un formulaire, qui ne garantit pas grand-chose sur le résultat.






Dis moi, quelles données personnelles tu veux vraiment cacher ?


La plupart des “artistes” s’inspirent voire copie carrément ce qui existe déjà.



(reply:2162459:skankhunt42 )




Hors-sujet.


Je ne sais pas comment marche l’IA de Facebook, mais dans ChatGPT, c’est assez simple de lui demander de recracher un passage d’une oeuvre. À partir de là, ça semble évident que l’oeuvre en question fait partie de ses données d’entraînement.



(quote:2162459:skankhunt42 )
La plupart des “artistes” s’inspirent voire copie carrément ce qui existe déjà.




Mon voisin bastonne sa femme, je pourrais m’en inspirer ou bien ?


Team 1er degré bonjour


En fait, tu cites un article qui, comme l’a dit au moins une association de protection de l’enfance, donne l’impression qu’il faut surtout garder le silence, car dans le cas présent, le seul qui a dit et fait quelque chose est également le seul qui a eu droit à 3 procès suite à l’acharnement du ministère public.



“Ce procès ne plaît pas non plus à certaines associations de protection de l’enfance, car il pourrait bien dissuader certains de parler. Le voisin en question, qui habitait en dessous du couple, a bien essayé d’alerter.”
https://www.francebleu.fr/infos/faits-divers-justice/mort-de-tony-a-reims-un-voisin-juge-ce-mardi-pour-non-denonciation-de-mauvais-traitements-1571676679


Pas surprenant. Je m’étais dit la même chose des formulaires qu’OpenAI avait lancé suite aux injonctions de l’autorité de protection des données italienne.



elticail a dit:


“Qui l’eut cru” c’est pour les pâtes (indice Lustucru, si t’as tu n’as pas besoin de l’indice c’est que t’es vieux) En 2023 on dit “mais qui aurait pu prévoir” :D




Non?
Toute déduction hasardeuse entre la personne assise entre mon clavier et ma chaise est proscrite :)


Merci pour la correction, j’ai les n’oeils qui se sont croisés (pas la peine de corriger, j’ai fait exprès cette fois :D )


Fermer