Vie privée et propriété intellectuelle bousculées dans les jeux d’entrainement des IA génératives
Le 21 avril 2023 à 05h13
3 min
Sciences et espace
Sciences
Pour mieux comprendre quels types de données servent à entraîner de grands modèles de langage (LLM), le Washington Post a entrepris de décortiquer le jeu de données C4 de Google, avec l’aide des chercheurs du Allen Institute for AI et de la société Similarweb.
Ce jeu a notamment servi à entraîner les modèles d’IA générative T5 de Google et LLaMA de Facebook.
Constitué à 16 % de contenus tirés de sites industriels et business, à 15 % de contenu technologique et à 5 % de textes tirés de « communautés », l’objet donne une « photographie monumentale » de la production des quelque 15 millions de sites web récupérés pour entraîner des modèles d’IA, écrit le quotidien américain.
Les trois sites les plus utilisés pour produire l’immense somme de données sont la bibliothèque de brevets patent.google.com, l’encyclopédie Wikipédia et la bibliothèque numérique Scribd, uniquement accessible sur abonnement.
À la 190e place, encore assez haut dans la liste des sites recensés, le Washington Post note la présence de b-ok.org, un site connu pour avoir fait circuler des e-books piratés (et saisi par la justice américaine depuis la constitution de C4).
Au moins deux des 100 premiers pourvoyeurs de contenus soulèvent des problématiques de vie privée : coloradovoters.com et flvoters.com contiennent des copies des bases de données d’inscription de leurs électeurs, informations publiques, mais sensibles. Une fois entrées dans la base d’entraînement, leur usage est inconnu.
L’analyse suggère aussi une série de débats sur les droits d’auteur, dans la mesure où le Washington Post a relevé plus de 200 millions d’apparitions du symbole « copyright », suggérant que les travaux concernés sont soumis à la propriété intellectuelle, et recensé de nombreux noms de médias, alors que ceux-ci critiquent l’utilisation non concertée de leur production.
Le jeu embarque aussi les publications de plusieurs sites notés très bas sur l’indice de confiance des médias de la société indépendante NewsGuard, ainsi que plusieurs vecteurs notoires de publications d’extrême-droite.
Ces derniers éléments pourraient expliquer pourquoi des modèles à la ChatGPT fournissent quelques fois de la désinformation et/ou des productions discriminantes ou de la propagande de manière très assurée.
Parmi les sites dédiés à des communautés précises, le Washington Post relève une surreprésentation de sites religieux, notamment chrétiens, partageant parfois des visions très conservatrices du monde. Le Washington Post note aussi un fort biais occidental dans ces contenus.
Enfin, plus d’un demi-million de blogs personnels ont été retrouvés dans le jeu de données.
Le 21 avril 2023 à 05h13
Commentaires (14)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 21/04/2023 à 09h40
Heu… et alors ? Si je lis un e-book piraté j’ai l’obligation d’oublier ce que j’ai lu, parce que je n’aurais légalement pas du le lire ?
Si on est au point d’utiliser la propriété intellectuelle ou le droit d’auteur pour brider la transmission du savoir (à une IA ou un être humain), alors il est temps que la propriété intellectuelle et le droit d’auteur disparaissent.
Le 21/04/2023 à 11h07
Je crois que ça veut dire que Google a utilisé des données qu’ils n’avait pas le droit de consulter.
Oui :)
Dans les grandes lignes, je suis favorable à un système plus proche du brevet
Le 21/04/2023 à 09h40
J’adore comment le contenu de droite, conservateur, ou chrétien sont toujours pointés du doigt comme si c’était quelque de mal dans toute les cas de figures, c’est une position idéologique et donc biaisée, alors qu’au final y’a de tout, de l’extrême gauche, littéralement de tout…. Genre comme su y’avais qu’une seule vision du monde qui soit valide. C’est ce qui est dangereux d’ailleurs avec ChatGPT, qui croit dure comme fer qu’il a moralement toujours raison, et qu’au final ont devrait tous penser comme lui. ont sait très bien que l’IA se veut bien pensante.
Le 21/04/2023 à 15h02
Perso je pense que tous les sites qui racontent n’importe quoi, quelque soit leur orientation ou idéologie, devraient être rayés de la liste.
Lorsque tu crée un Chat qui va être abondamment consulté par absolument n’importe qui - et j’y inclus les plus jeunes -, tu te dois d’avoir des sources quasiment irréprochables.
Le 21/04/2023 à 15h40
Comment tu définis “raconter n’importe quoi” ? C’est hautement subjectif.
Le 21/04/2023 à 16h01
Tout ce qui n’est ni sourcé (sources de confiance), ni prouvé.
Tout ce qui est idéologique.
Tout ce qui est religieux.
Ex: tu peux décrire une idéologie, une philosophie ou une religion de façon (relativement) neutre, en citant des sources fiables et neutres, et sans tentative de prosélytisme.
Tu peux parler d’Histoire, de sciences, de politique, d’économie, en te basant uniquement sur des sources non-partisanes.
Bien entendu que rien n’est parfait, mais j’aimerais que pour les problèmes ou les données complexes, ou sujets à controverse, un maximum d’éléments soient présentés à l’utilisateur, en lui laissant décider ce qui est pertinent ou pas.
En fait, je rêverais d’une IA qui t’encouragerait à penser par toi-même, à tirer tout(e) seul(e) tes propres conclusions ou enseignements, sans jamais rien t’imposer.
Le 22/04/2023 à 07h48
Ben perso je préférerais qu’on apprenne à se forger un esprit critique plutôt que d’attendre d’avoir un outil pour nous dire comment penser. L’IA, c’est juste fait pour traiter en masse une blinde d’info et faire une restitution, pas pour “penser” ou “réfléchir” justement.
Biaiser l’outil en ne lui donnant à bouffer que des infos qu’on a soigneusement choisies, ça reste le biaiser. C’est comme la discrimination : qu’elle soit positive ou négative, c’est de la discrimination. Donc faut juste en être conscient.
Le problème des modèles de langage aujourd’hui tels qu’ils sont utilisés, c’est pas les modèles eux-même, c’est l’opacité du jeu de données ayant servi à l’entraîner. Plus de transparence sur le sujet permettrait de mieux comprendre comment ces outils sont entraînés… Et donc d’anticiper leurs biais.
Le 22/04/2023 à 09h59
Ce n’est pas la définition du livre çà ? :-/
Le 22/04/2023 à 15h48
si mais c’est moins chic.
Le 23/04/2023 à 07h52
En fait on dit exactement la même chose, mais pas pareil !
Si mais c’est du papier, ça pollue et ça déforeste… Vive le format epub !
D’ailleurs je me dis souvent que vu mon très faible niveau d’études, heureusement que je lis (ou plus exactement : je dévore) !!! En fait, tout bien considéré, la littérature, ça sauve la vie !
Le 23/04/2023 à 08h51
Ouaip, un bouquin, quelque soit le format, un truc à dévorer :)
En tout cas, toute cette IA qui vaut bien cher me fait me souvenir du moteur d’inférence que j’avais mis en place pour tenir mes utilisateurs en chat le plus longtemps possible sur minitel… (3615 SITECOCHONQUELCONQUE) gloire au X25 et à la carte 25 ports série pour connecter les nitels sous nix :)
Le 23/04/2023 à 10h16
Je n’en avais pas l’impression, mais content de voir qu’on est sur la même longueur d’onde dans ce cas
Le 23/04/2023 à 12h34
Le réveil n’est-il pas trop difficile ?
Le 24/04/2023 à 08h02