[MàJ] LAION-5B : des photos d’enfants utilisées sans consentement pour entrainer des IA

IA pas de consentement

Human Right Watch a analysé une partie de la base de données LAION-5B très utilisée pour entrainer des outils d'IA générateurs d'images. L'ONG s'est rendu compte qu'elle contiendrait des liens vers des photos d'enfants brésiliens et australiens sans leur consentement.

Martin Clavey

Le 03 juillet 2024 à 09h15

5 min

IA et algorithmes

Mise à jour le 3 juillet 2024 à 9h15 : ajout de la partie sur les photos d'enfants australiens

Article original publié le 11 juin 2024 à 17h22 :

L'ONG Human right watch explique avoir repéré des photos personnelles d'enfants brésiliens dans la base de données LAION-5B. Créée par le professeur de lycée allemand Christoph Schuhmann, celle-ci a été notamment utilisée par Stable Diffusion et par Google pour entrainer leurs modèles d'IA génératives de text-to-image.

Comment LAION a créé un jeu d’images d’entraînement à partir de zéro

Une toute petite partie de la base de données explorée

Ces photos ne figurent pas en tant que telles dans la base de données. LAION-5B liste notamment des liens vers diverses photos mises en ligne et qu'elle associe à du texte. Elle s'appuie sur l'autre base de données Common Crawl qui parcourt internet et stocke les contenus trouvés.

La chercheuse de l'ONG, Hye Jung Han, a examiné une toute petite partie de LAION-5B (moins de 0,0001 % des 5,85 milliards d'images) mais a trouvé 170 photos d'enfants brésiliens venant d'au moins 10 États du pays.

Des photos de moments intimes

La plupart de ces photos n'ont été vues que par très peu de personne et « semblent avoir bénéficié auparavant d'une certaine intimité » explique Human Rights Watch, qui a vérifié en utilisant des moteurs de recherche.

L'ONG affirme que LAION, l'association allemande fondée par Schuhmann pour gérer la base de données, a confirmé l'existence des liens vers ces photos dans sa base de données et a promis de les supprimer. Mais elle a ajouté qu'il incombait aux enfants et à leurs tuteurs de retirer les photos personnelles des enfants de l'internet, ce qui, selon elle, constitue la protection la plus efficace contre les abus.

Intelligence artificielle : la CNIL veut (re)concilier « innovation et respect des droits »

Dans une réponse à Wired, LAION a affirmé avoir supprimé les liens vers les contenus signalés par Human Right Watch. Mais un de ses représentants a ajouté que « la suppression des liens d'un ensemble de données LAION ne supprime pas ce contenu du web [...] il s'agit d'un problème plus vaste et très préoccupant, et en tant qu'organisation bénévole à but non lucratif, nous ferons notre part pour y remédier ».

Selon l'association, les photos listées par LAION représentaient « des moments intimes comme des bébés naissant entre les mains gantées de médecins, des jeunes enfants soufflant les bougies de leur gâteau d'anniversaire ou dansant en sous-vêtements à la maison, d'élèves faisant un exposé à l'école et d'adolescents posant pour des photos à carnaval du lycée ».

Hye Jung Han explique à Wired que « leur vie privée est violée en premier lieu lorsque leur photo est récupérée et intégrée dans ces ensembles de données. Ensuite, ces outils d'intelligence artificielle sont entrainés à partir de ces données et peuvent donc créer des images réalistes d'enfants ». Elle ajoute que « la technologie est développée de telle sorte que tout enfant qui possède une photo ou une vidéo de lui en ligne est désormais en danger, car n'importe quel acteur malveillant pourrait prendre cette photo, puis utiliser ces outils pour la manipuler à sa guise ».

LAION-5B plus accessible publiquement

Depuis décembre dernier, LAION-5B n'est plus accessible publiquement. L'association a pris cette décision car des chercheurs de Stanford ont identifié 3 226 liens vers des images pédocriminelles potentielles. « La plupart d'entre elles ont été identifiées comme telles par des tierces parties » expliquaient-ils.

Dans un communiqué sur son site, LAION affirmait qu'elle appliquait « une politique de tolérance zéro à l'égard des contenus illégaux et, dans un souci de prudence, nous retirons temporairement les jeux de données de LAION pour nous assurer qu'ils sont sûrs avant de les republier ».

Des photos d'enfants australiens utilisées

Hye Jung Han a aussi trouvé 190 photos d'enfants australiens dans LAION-5B, explique ce mardi 2 juillet l'ONG. Comme pour les photos des enfants brésiliens, celles-ci montrent des enfants dans toutes sortes de scènes de leur vie. Certains enfants australiens appartiennent à différents groupes aborigènes (Anangu, Arrernte, Pitjantjatjara, Pintupi, Tiwi et Warlpiri).

Ici encore, la plupart des photos n'étaient pas disponibles via une requête dans un moteur de recherche.
L'une d'elles provient même d'une vidéo YouTube dont l'utilisateur avait pourtant fait attention à la mettre en « non répertoriée ».

Les noms de certains enfants figurent parfois dans la légende de la photo ou dans l'URL de l'adresse stockée par LAION-5B. De plus, l'ONG assure qu'il est souvent facile de retrouver l'identité des enfants ainsi que le lieu et le moment de la photo.

Human Right Watch affirme que « le gouvernement australien devrait adopter de toute urgence des lois visant à protéger les données des enfants contre les utilisations abusives alimentant l'IA ».

Commentaires (10)

Abonnez-vous pour prendre part au débat

Déjà abonné ? Se connecter

Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles

Profitez d’un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

Fervente-Quenouille-Bourrée

Le 11/06/2024 à 19h52

Voilà encore le problème éthique en IA....

jeje07bis

Le 12/06/2024 à 02h59

rien de neuf.
Des applications android pour vieillir son visage font de meme. Ca fait une large base de donnees gratuites pour ameliorer la reconnaissance faciale. Applications bien entendu gratuites!

SebGF Abonné

Modifié le 12/06/2024 à 08h23

Hye Jung Han explique à Wired que « leur vie privée est violée en premier lieu lorsque leur photo est récupérée et intégrée dans ces ensembles de données (...)

J'ai envie de dire que leur vie privée est violée à l'instant même où ces photos sont publiées publiquement sans leur consentement. Cf le sharenting.

C'est surtout une véritable éducation à la protection de celle-ci qu'il faut avoir. Si c'est posté sur Internet en public, tout le monde y a accès et tout le monde en fera ce qu'il voudra. Pas d'exception.

Mais elle a ajouté qu'il incombait aux enfants et à leurs tuteurs de retirer les photos personnelles des enfants de l'internet, ce qui, selon elle, constitue la protection la plus efficace contre les abus.

Voilà.

tazvld Abonné

Le 12/06/2024 à 09h09

Il y a 20 ans, on nous disait que tout ce qui était déposé sur internet était à considérer comme publique. Et moi, perso, ça reste ma philosophie : je ne dépose rien que je ne veux pas voir diffusé publiquement.

xlp Abonné

Le 14/06/2024 à 10h39

Il y a 25 ans, internet était un espace quelque peu dangereux.
Maintenant il est peuplé de sociétés qui oeuvrent pour le bien de l'humanité, sans penser un instant à leur portefeuille.

jotak Abonné

Le 03/07/2024 à 22h06

Publiquement accessible ne signifie qu'on peut légalement en faire ce qu'on veut.
C'est très bien d'avoir une hygiène numérique, ça n'excuse pas pour autant la réutilisation sans consentement ... a priori la question du droit d'auteur sur le matériel d'entraînement n'est pas tranchée (?)

SebGF Abonné

Le 04/07/2024 à 09h55

Ce n'est pas une question d'excuser les usages sans consentement, mais plutôt d'attaquer le problème à la source : poster publiquement signifie que le premier tordu fera ce qu'il veut avec.

Peu importe que la loi d'un Etat qui lui est étranger le lui permette où non, les risques d'être poursuivi étant quasi nuls.

La génération de matériel pédopornographique par IA est tout autant une réalité et un business que ceux mettant en scène des adultes (c'est même un très vieux business, le photomontage de célébrités sur des corps nus ne date pas des deep fakes, il fallait juste plus de skill photoshop). Et pour fonctionner, ils ont besoin de données d'entraînement. La première action pour se protéger le plus possible de ça, c'est de ne pas publier en public.

(ne pas publier sur les pompes à données personnelles serait encore mieux, mais nous sommes à l'ère de la vanité, du narcissisme, du personal branding sur les médias sociaux, donc autant prêcher dans le désert)

Rappelez-vous qu'à une époque (je ne sais pas si ça existe encore), les sites comme Facebook s'accordaient une license d'exploitation sur les contenus que vous mettiez dessus. S'ils décidaient de foutre votre tronche sur une pub pour un plug anal ((c) Flock), ils en avaient le droit puisque vous leur aviez donné l'autorisation dans les CGU de 15km que personne ne lit. Depuis je pense que ça a sauté pour les européens à cause du RGPD qui exige un consentement libre et éclairé, mais dans le cas des autres pays aux législations moins contraignantes, j'ai des doutes.

serpolet Abonné

Le 04/07/2024 à 16h49

"les CGU de 15km que personne ne lit"

L’homme qui lisait toutes les conditions générales vient de terminer son inscription à Caramail

fred42 Abonné

Le 03/07/2024 à 10h14

Des photos d'enfants australiens utilisées

Human Right Watch affirme que « le gouvernement australien devrait adopter de toute urgence des lois visant à protéger les données des enfants contre les utilisations abusives alimentant l'IA ».

Donc, ces photos ont été utilisées sans violer de loi australienne.

Quant à la photo d'enfant en bas de l'article sur hrw.org qui est là pour demander des dons (déductibles pour les impôts, c'est bien précisé !), j'hésite entre vomir et rire du paradoxe. Finalement :

SebGF Abonné

Le 03/07/2024 à 11h23

On est pas à une contradiction près...