L’outil pour retirer des données personnelles de l’entraînement des IA de Meta ne fonctionne pas
Le 30 octobre 2023 à 08h00
2 min
Sciences et espace
Sciences
Alors que l’intelligence artificielle générative attirait tous les regards, les inquiétudes sur leur propension à outrepasser les droits d’auteurs des artistes se sont faites croissantes. Pour y répondre, Open AI a proposé une fonctionnalité permettant de bloquer son travail de l’entraînement du générateur d’image Dall-E.
De même, Meta a lancé en août un outil compris par beaucoup comme permettant d’éviter que certaines données personnelles soient utilisées dans l’entraînement de ses modèles d’IA générative.
Problème : il ne s’agit que d’un formulaire, qui ne garantit pas grand-chose sur le résultat.
« C’est un faux », se plaignent divers artistes auprès de Wired, « c’est un coup de communication ».
Ceux qui l’ont testé constatent en effet que le processus pour faire enlever des données ou des travaux copyrightés est aussi inefficace que frustrant : Meta demande en effet aux auteurs de prouver que leurs travaux ont été utilisés dans l’entraînement de ses technologies.
Pour les artistes, c’est très complexe, car Meta n’a publié aucun détail sur les données d’entraînement qu’elle utilise et la manière dont elle le fait, ce qui force les artistes à tester toutes sortes de requêtes jusqu’à pouvoir prouver le problème.
Wired n’a trouvé aucun interlocuteur qui ait réussi à faire supprimer des données des jeux d’entraînement utilisés par Meta. L’entreprise, elle, souligne que son formulaire n’est pas un outil de retrait, mais seulement un formulaire permettant à certaines personnes, dans certaines juridictions (comme l’Union Européenne, avec son RGPD), de s’opposer à ce que certaines données issues de tiers soient utilisées pour l’entraînement de leurs modèles.
Le 30 octobre 2023 à 08h00
Commentaires (17)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 30/10/2023 à 08h29
Étonnant de la part de Meta !
Le 30/10/2023 à 08h48
On a besoin d’informations sur vous pour être sûr qu’on a bien des informations sur vous, donc merci de nous donner encore plus d’informations, tandis qu’on ne garantit absolument pas qu’on effacera quoi que ce soit.
Le 30/10/2023 à 09h06
Oh ben mince alors! J’en tombe à la renverse. Qui l’eut cru?
Le 30/10/2023 à 09h27
Mon humble avis, c’est que techniquement, c’est très compliqué de s’assurer que telle ou telle donnée, ou référence aux dites données ne font pas partie d’un jeu de donnée, sans pouvoir qualifier très précisément la donnée, ce que les aillants droit ne souhaitent pas faire.
Au delà de ça, je crois comprendre qu’il est techniquement impossible, sur un modèle déjà entraîné, de retirer ou exclure une part des informations pour générer des résultats (la donnée en elle même n’existant plus que sous forme de vecteur statistiques inintelligible pour l’humain.).
Comme les modèles sont itératifs, les anciens nourrissant ou servant à calibrer les nouveaux, ce problème semble insoluble sauf à repartir d’une page blanche à chaque requête de retrait, ce qui, étant donnés les coûts d’entraînement, est insoutenable économiquement.
Du coup, la seule solution restante, c’est le post traitement des résultats (avec une autre IA ? ) pour qualifier statistiquement la similitude avec des données sous copyright. Ce sera évidemment sujet à interprétation.–> Beaucoup d’argent à venir pour les futurs cabinets d’avocat spécialisés ?
Le 30/10/2023 à 11h51
C’est d’autant plus dur que Meta ne dévoile sur les données utilisées pour son modèle. On a besoin de lois qui les contraignent à le faire, pour ensuite pouvoir s’en plaindre ou non. Ils jouent sur l’obfuscation.
Le 30/10/2023 à 09h27
“Qui l’eut cru” c’est pour les pâtes (indice Lustucru, si t’as besoin de l’indice c’est que t’es vieux)
En 2023 on dit “mais qui aurait pu prévoir”
Le 30/10/2023 à 11h00
Dis moi, quelles données personnelles tu veux vraiment cacher ?
Le 30/10/2023 à 11h05
La plupart des “artistes” s’inspirent voire copie carrément ce qui existe déjà.
Le 30/10/2023 à 11h49
Hors-sujet.
Le 30/10/2023 à 12h02
Je ne sais pas comment marche l’IA de Facebook, mais dans ChatGPT, c’est assez simple de lui demander de recracher un passage d’une oeuvre. À partir de là, ça semble évident que l’oeuvre en question fait partie de ses données d’entraînement.
Le 30/10/2023 à 12h24
Mon voisin bastonne sa femme, je pourrais m’en inspirer ou bien ?
Le 31/10/2023 à 07h55
Non, mais tu ferai mieux de ne pas garder le silence auprès des autorités : https://www.francebleu.fr/infos/faits-divers-justice/affaire-du-petit-tony-a-reims-j-ai-hate-que-ca-se-termine-dit-le-voisin-a-son-troisieme-proces-3990810
Le 31/10/2023 à 08h04
Team 1er degré bonjour
Le 31/10/2023 à 08h55
En fait, tu cites un article qui, comme l’a dit au moins une association de protection de l’enfance, donne l’impression qu’il faut surtout garder le silence, car dans le cas présent, le seul qui a dit et fait quelque chose est également le seul qui a eu droit à 3 procès suite à l’acharnement du ministère public.
“Ce procès ne plaît pas non plus à certaines associations de protection de l’enfance, car il pourrait bien dissuader certains de parler. Le voisin en question, qui habitait en dessous du couple, a bien essayé d’alerter.”
https://www.francebleu.fr/infos/faits-divers-justice/mort-de-tony-a-reims-un-voisin-juge-ce-mardi-pour-non-denonciation-de-mauvais-traitements-1571676679
Le 30/10/2023 à 12h42
Pas surprenant. Je m’étais dit la même chose des formulaires qu’OpenAI avait lancé suite aux injonctions de l’autorité de protection des données italienne.
Le 30/10/2023 à 12h59
Non?
Toute déduction hasardeuse entre la personne assise entre mon clavier et ma chaise est proscrite :)
Le 30/10/2023 à 13h05
Merci pour la correction, j’ai les n’oeils qui se sont croisés (pas la peine de corriger, j’ai fait exprès cette fois )