Vie privée et propriété intellectuelle bousculées dans les jeux d’entrainement des IA génératives

Le 21 avril 2023 à 05h13

3 min

Sciences et espace

Sciences

Pour mieux comprendre quels types de données servent à entraîner de grands modèles de langage (LLM), le Washington Post a entrepris de décortiquer le jeu de données C4 de Google, avec l’aide des chercheurs du Allen Institute for AI et de la société Similarweb.

Ce jeu a notamment servi à entraîner les modèles d’IA générative T5 de Google et LLaMA de Facebook.

Constitué à 16 % de contenus tirés de sites industriels et business, à 15 % de contenu technologique et à 5 % de textes tirés de « communautés », l’objet donne une « photographie monumentale » de la production des quelque 15 millions de sites web récupérés pour entraîner des modèles d’IA, écrit le quotidien américain.

Les trois sites les plus utilisés pour produire l’immense somme de données sont la bibliothèque de brevets patent.google.com, l’encyclopédie Wikipédia et la bibliothèque numérique Scribd, uniquement accessible sur abonnement.

À la 190e place, encore assez haut dans la liste des sites recensés, le Washington Post note la présence de b-ok.org, un site connu pour avoir fait circuler des e-books piratés (et saisi par la justice américaine depuis la constitution de C4).

Au moins deux des 100 premiers pourvoyeurs de contenus soulèvent des problématiques de vie privée : coloradovoters.com et flvoters.com contiennent des copies des bases de données d’inscription de leurs électeurs, informations publiques, mais sensibles. Une fois entrées dans la base d’entraînement, leur usage est inconnu.

L’analyse suggère aussi une série de débats sur les droits d’auteur, dans la mesure où le Washington Post a relevé plus de 200 millions d’apparitions du symbole « copyright », suggérant que les travaux concernés sont soumis à la propriété intellectuelle, et recensé de nombreux noms de médias, alors que ceux-ci critiquent l’utilisation non concertée de leur production.

Le jeu embarque aussi les publications de plusieurs sites notés très bas sur l’indice de confiance des médias de la société indépendante NewsGuard, ainsi que plusieurs vecteurs notoires de publications d’extrême-droite.

Ces derniers éléments pourraient expliquer pourquoi des modèles à la ChatGPT fournissent quelques fois de la désinformation et/ou des productions discriminantes ou de la propagande de manière très assurée.

Parmi les sites dédiés à des communautés précises, le Washington Post relève une surreprésentation de sites religieux, notamment chrétiens, partageant parfois des visions très conservatrices du monde. Le Washington Post note aussi un fort biais occidental dans ces contenus.

Enfin, plus d’un demi-million de blogs personnels ont été retrouvés dans le jeu de données.

Mathilde Saliou

Le 21 avril 2023 à 05h13

Commentaires (14)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

127.0.0.1

Le 21/04/2023 à 09h40

À la 190e place, encore assez haut dans la liste des sites recensés, le Washington Post note la présence de b-ok.org, un site connu pour avoir fait circuler des e-books piratés

Heu… et alors ? Si je lis un e-book piraté j’ai l’obligation d’oublier ce que j’ai lu, parce que je n’aurais légalement pas du le lire ?

Si on est au point d’utiliser la propriété intellectuelle ou le droit d’auteur pour brider la transmission du savoir (à une IA ou un être humain), alors il est temps que la propriété intellectuelle et le droit d’auteur disparaissent.

misocard

Le 21/04/2023 à 11h07

Je crois que ça veut dire que Google a utilisé des données qu’ils n’avait pas le droit de consulter.

alors il est temps que la propriété intellectuelle et le droit d’auteur disparaissent.

Oui :)

Dans les grandes lignes, je suis favorable à un système plus proche du brevet

MoonRa

Le 21/04/2023 à 09h40

J’adore comment le contenu de droite, conservateur, ou chrétien sont toujours pointés du doigt comme si c’était quelque de mal dans toute les cas de figures, c’est une position idéologique et donc biaisée, alors qu’au final y’a de tout, de l’extrême gauche, littéralement de tout…. Genre comme su y’avais qu’une seule vision du monde qui soit valide. C’est ce qui est dangereux d’ailleurs avec ChatGPT, qui croit dure comme fer qu’il a moralement toujours raison, et qu’au final ont devrait tous penser comme lui. ont sait très bien que l’IA se veut bien pensante.

DantonQ-Robespierre Premium

Le 21/04/2023 à 15h02

Perso je pense que tous les sites qui racontent n’importe quoi, quelque soit leur orientation ou idéologie, devraient être rayés de la liste.

Lorsque tu crée un Chat qui va être abondamment consulté par absolument n’importe qui - et j’y inclus les plus jeunes -, tu te dois d’avoir des sources quasiment irréprochables.

SebGF Premium

Le 21/04/2023 à 15h40

(quote:2130249antonQ-Robespierre)
Perso je pense que tous les sites qui racontent n’importe quoi, quelque soit leur orientation ou idéologie, devraient être rayés de la liste.

Comment tu définis “raconter n’importe quoi” ? C’est hautement subjectif.

DantonQ-Robespierre Premium

Le 21/04/2023 à 16h01

Tout ce qui n’est ni sourcé (sources de confiance), ni prouvé.
Tout ce qui est idéologique.
Tout ce qui est religieux.

Ex: tu peux décrire une idéologie, une philosophie ou une religion de façon (relativement) neutre, en citant des sources fiables et neutres, et sans tentative de prosélytisme.

Tu peux parler d’Histoire, de sciences, de politique, d’économie, en te basant uniquement sur des sources non-partisanes.

Bien entendu que rien n’est parfait, mais j’aimerais que pour les problèmes ou les données complexes, ou sujets à controverse, un maximum d’éléments soient présentés à l’utilisateur, en lui laissant décider ce qui est pertinent ou pas.

En fait, je rêverais d’une IA qui t’encouragerait à penser par toi-même, à tirer tout(e) seul(e) tes propres conclusions ou enseignements, sans jamais rien t’imposer.

SebGF Premium

Le 22/04/2023 à 07h48

(quote:2130262antonQ-Robespierre)
En fait, je rêverais d’une IA qui t’encouragerait à penser par toi-même, à tirer tout(e) seul(e) tes propres conclusions ou enseignements, sans jamais rien t’imposer.

Ben perso je préférerais qu’on apprenne à se forger un esprit critique plutôt que d’attendre d’avoir un outil pour nous dire comment penser. L’IA, c’est juste fait pour traiter en masse une blinde d’info et faire une restitution, pas pour “penser” ou “réfléchir” justement.

Biaiser l’outil en ne lui donnant à bouffer que des infos qu’on a soigneusement choisies, ça reste le biaiser. C’est comme la discrimination : qu’elle soit positive ou négative, c’est de la discrimination. Donc faut juste en être conscient.

Le problème des modèles de langage aujourd’hui tels qu’ils sont utilisés, c’est pas les modèles eux-même, c’est l’opacité du jeu de données ayant servi à l’entraîner. Plus de transparence sur le sujet permettrait de mieux comprendre comment ces outils sont entraînés… Et donc d’anticiper leurs biais.

Timanu69

Le 22/04/2023 à 09h59

(quote:2130262antonQ-Robespierre)

En fait, je rêverais d’une IA qui t’encouragerait à penser par toi-même, à tirer tout(e) seul(e) tes propres conclusions ou enseignements, sans jamais rien t’imposer.

Ce n’est pas la définition du livre çà ? :-/

numerid

Le 22/04/2023 à 15h48

si mais c’est moins chic.

DantonQ-Robespierre Premium

Le 23/04/2023 à 07h52

SebGF a dit:

Ben perso je préférerais qu’on apprenne à se forger un esprit critique plutôt que d’attendre d’avoir un outil pour nous dire comment penser. L’IA, c’est juste fait pour traiter en masse une blinde d’info et faire une restitution, pas pour “penser” ou “réfléchir” justement.

Biaiser l’outil en ne lui donnant à bouffer que des infos qu’on a soigneusement choisies, ça reste le biaiser. C’est comme la discrimination : qu’elle soit positive ou négative, c’est de la discrimination. Donc faut juste en être conscient.

Le problème des modèles de langage aujourd’hui tels qu’ils sont utilisés, c’est pas les modèles eux-même, c’est l’opacité du jeu de données ayant servi à l’entraîner. Plus de transparence sur le sujet permettrait de mieux comprendre comment ces outils sont entraînés… Et donc d’anticiper leurs biais.

En fait on dit exactement la même chose, mais pas pareil !

Si mais c’est du papier, ça pollue et ça déforeste… Vive le format epub !

D’ailleurs je me dis souvent que vu mon très faible niveau d’études, heureusement que je lis (ou plus exactement : je dévore) !!! En fait, tout bien considéré, la littérature, ça sauve la vie !

Timanu69

Le 23/04/2023 à 08h51

(quote:2130384antonQ-Robespierre)

Si mais c’est du papier, ça pollue et ça déforeste… Vive le format epub !

Ouaip, un bouquin, quelque soit le format, un truc à dévorer :)
En tout cas, toute cette IA qui vaut bien cher me fait me souvenir du moteur d’inférence que j’avais mis en place pour tenir mes utilisateurs en chat le plus longtemps possible sur minitel… (3615 SITECOCHONQUELCONQUE) gloire au X25 et à la carte 25 ports série pour connecter les nitels sous nix :)

SebGF Premium

Le 23/04/2023 à 10h16

(quote:2130384antonQ-Robespierre)
En fait on dit exactement la même chose, mais pas pareil !

Je n’en avais pas l’impression, mais content de voir qu’on est sur la même longueur d’onde dans ce cas

Berbe Premium

Le 23/04/2023 à 12h34

(quote:2130198:127.0.0.1)
Si on est au point d’utiliser la propriété intellectuelle ou le droit d’auteur pour brider la transmission du savoir

Le réveil n’est-il pas trop difficile ?

j34n-r0x0r

Le 24/04/2023 à 08h02

Milton - Talos Principle

S'abonner à

Vie privée et propriété intellectuelle bousculées dans les jeux d’entrainement des IA génératives

Commentaires (14)

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Signaler un commentaire