Nightshade, un outil pour piéger les IA génératives d’images

Nightshade, un outil pour piéger les IA génératives d’images

Nightshade, un outil pour piéger les IA génératives d’images

Menés par Ben Zhao, un professeur de l’Université de Chicago, une équipe de chercheurs a créé Nightshade, un outil pensé pour permettre aux artistes d’ « empoisonner » les données d’entraînement des modèles d’IA génératives d’images.

Le but, rapporte la Technology Review, est de rendre aux créateurs le contrôle sur la mesure dans laquelle les machines peuvent fabriquer de nouvelles productions en imitant le style de travaux soumis aux droits d’auteurs.

L’outil exploite une forme de vulnérabilité dans le fonctionnement des modèles : dans la mesure où ceux-ci sont entraînés à partir de vastes sommes de données « scrapées » en ligne, Nightshade vient mettre le bazar dans les jeux de données ainsi constituées.

Des images passées sous Nightshade peuvent par exemple dévier l’entraînement des modèles génératifs en leur faisant apprendre que des images de chapeaux représentent des gâteaux, ou que des images de sacs représentent des grille-pains.  

L’équipe a d’abord créé Glaze, qui permet aux artistes de « masquer » leur style pour empêcher les modèles d’IA et les entreprises qui les créent de capter leur style. Elle prévoit d’y intégrer Nightshade. 


Commentaires (6)


J’adore. De mon côté, je pensais remplacer les photos par des dessins “bonhomme bâton” si je détectait un bot.


J’ai pas forcément compris grand chose au papier du MIT et mon cerveau a fait un kernel panic à la vue des équations, mais l’idée semble effectivement intéressante.


Je vais lire tout ça à tête reposée, mais a priori je suis sceptique sur l’effectivité de la chose.



Le jeu de données viable existant me semble suffisant pour mitiger l’empoisonnement dû à l’usage de ce système.
Je suis justement en train de gérer du data poisoning (involontaire ^^) dans certains modèles que nous avons, et nous trouvons assez simplement des moyens de le contrer avec une assez bonne efficacité. De ce fait je pense que la communauté qui entraîne des modèles de générations d’images sauront réduire la menace.



Mais encore une fois, je n’ai pas encore lu le détail de ce que propose cette équipe, ce que je vais faire le plus rapidement possible.


De ce que j’ai compris du papier, pour l’existant c’est peu probable de l’utiliser car les datasets ont déjà été constitués avec les samples dispos sur le Web.



Par contre pour les nouveaux contenus, ça permettrait de pourrir l’entraînement les incluant.



Typiquement si un site de stock photos utilise ce filtre sur les nouvelles publications (et vu que ces sites sont très utilisés pour les entraînements), cela pourrait avoir une certaine efficacité.



Le papier compare justement avec l’autre méthode d’empoisonnement par faux label où le dataset est accompagné de labels incorrects (photo de chien => chat) pour tromper le modèle lors de son entraînement. C’est contournable car le dataset peut être reconstruit et requalifié par un humain (certes sur des millions d’images ça va être relou et faudra prendre un ou deux RTT). Dans le cas présent, ça brouille directement l’apprentissage. En gros si je devais imager ma compréhension du papier, c’est comme apprendre l’anatomie en donnant en entrée un Picasso camouflé dans une oeuvre réaliste.



Après, l’auteur indique aussi qu’il y a des risques d’usage malicieux du procédé qui ne sont pas à ignorer. Et derrière il faudra voir aussi comment des failles seront adressées par la suite par les développeurs des IA.



SebGF a dit:


De ce que j’ai compris du papier, pour l’existant c’est peu probable de l’utiliser car les datasets ont déjà été constitués avec les samples dispos sur le Web.



Par contre pour les nouveaux contenus, ça permettrait de pourrir l’entraînement les incluant.




C’est là que je doutais, comme on a une base déjà bien labelisée qui est énorme j’avais l’impression a priori que ça allait être un coup d’épée dans l’eau car facile de vérifier par rapport à cette énorme base bien faite.



Mais ils ont bien pensé à ça : sur un génératif c’est pas si simple de détecter des données cachées dans le but de pourrir l’entrainement, surtout qu’il peuvent cibler les prompts les plus sensibles (avec le moins de données d’entrainement) et en croisant les concepts. C’est bien pensé tout ça (je n’en doutais pas vraiment).



Là où je suis content de moi c’est que j’ai pensé à chaque méthode de défense qu’ils évoquent dans leur chapitre 7 :mrgreen:



Par contre faudrait que je m’amuse à recréer leur travail et à relire plusieurs fois le papier car j’ai un doute entre le fait de cibler d’un côté expressément les concepts avec le moins d’images (ce qui est détaillé dans le 3.2 et 3.3) et le fait de prendre les 5K top prompts dans l’espace du modèle (détaillé dans le 5.3). Je suis pas encore assez à tête reposée faut croire :mad2:


excellent, je me demandais quand ce genre d’outil allait se faire troller


Fermer