[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA

©🔫 🤖

En 20 ans d'Internet, de partage et de publication massive de contenus soumis au copyright, le discours public a évolué. Il est passé d'une condamnation totale des pratiques d'échanges entre utilisateurs pairs à pairs à une acceptation tacite de l'entrainement des IA génératives, parfois sur les mêmes masses de données, pourvu que les données ne soient pas nommément citées.

Martin Clavey

Le 28 octobre à 18h02

7 min

IA et algorithmes

Entre la répression contre les figures symboliques du partage de fichiers sur Internet – Shawn Fanning, Aaron Swartz et Alexandra Elbakyan – et l’utilisation massive des bases de données d’œuvres protégées par le Copyright par les entreprises de l’IA générative, le discours public et politique a bifurqué. D’un tout répressif dont le point d’orgue en France a été la loi Hadopi, nous sommes passés au jet d’un voile pudique sur l’utilisation de données culturelles par les startups qui promettent d’être les prochaines licornes de l’IA.

De la fin des années 90 à celle des années 2010, les politiques du numérique ont notamment été portées par la volonté de protéger du piratage les contenus numériques comme les musiques, les films, mais aussi les livres et les articles scientifiques.

Si, en quelques clics, Napster a révolutionné l’accès à la musique, les fameux procès intentés par Metallica, Dr Dre et la Recording Industry Association of America (RIAA) en 2000 ont eu raison de la plateforme. En tout cas dans sa forme originelle puisque, 25 ans après, elle existe toujours, mais dans une forme totalement différente. À l’époque, aucune personnalité politique de premier plan ne se risquait à défendre un modèle qui s’appuyait sur la récupération et le partage de contenus artistiques sans autorisation des ayants droit.

En 2000, la machine à bannir d’Internet... mais censurée par le Conseil constitutionnel

Fin des années 2000 et début des années 2010, voyant la pratique continuer malgré les diverses condamnations, les parlementaires ont adopté les lois Hadopi. Dans la première loi portant ce nom, ils avaient même prévu, avant que ce dispositif soit censuré par le Conseil constitutionnel, une « riposte graduée » incluant la suspension de l’abonnement internet entre deux mois et un an.

Ont suivi ensuite plusieurs affaires sur le partage et l'utilisation de contenus sous Copyright. Notamment, les sites d'hébergement de fichiers .torrent ou de partages de lien comme Pirate Bay et autres 411 ou Zone-Telechargement sont régulièrement bloqués par décision de justice.

Et l'industrie culturelle plaide encore régulièrement pour plus de sanctions contre ces plateformes qui ont créé un modèle commercial de publicité autour du partage de lien de téléchargement de contenus copyrightés. Régulièrement, cette bataille réapparaît sous différents aspects. Cet été encore, le site français Ygg est passé en privé pour essayer d'éviter la fermeture totale.

Des projets non commerciaux aussi

Mais d'autres projets de partage de contenus sous copyright, non commerciaux, ont aussi subi les attaques en justice. En 2011, Aaron Swartz, informaticien (et fervent partisan de la liberté numérique) alors étudiant au MIT, a été accusé d'avoir téléchargé des millions d'articles scientifiques sur le site de la bibliothèque en ligne JSTOR pour les republier ensuite. Alors que l'entreprise n'a pas entamé de poursuite judiciaire, la justice américaine et le FBI ont continué leur enquête. Et Aaron Swartz s'est suicidé en janvier 2013 alors que son procès devait avoir lieu quelques mois plus tard.

Quelques années plus tard, c'est un autre projet de partage d'articles scientifiques qui est visé. Sci-hub, plateforme de partage d'articles scientifiques créée par Alexandra Elbakyan, est attaquée en justice en 2015 par la multinationale de l'édition Elsevier. Comme les sites de Torrent, elle doit sauter de nom de domaine en nom de domaine pour rester accessible, car ils sont régulièrement bloqués par la justice.

Plus récemment, c'est le projet Internet Archive qui a perdu son procès mené par des maisons d'édition, Hachette en tête.

Des procès contre OpenAI and co mais pas de nouvelle loi en perspective

Les entreprises d'IA générative ne sont pas non plus épargnées par les procès. On peut citer l'attaque du New York Times contre OpenAI et Microsoft qui va permettre de poser une certaine jurisprudence. Des auteurs attaquent depuis l'année dernière OpenAI et Meta et de nombreuses actions en justice sont en cours, notamment aux États-Unis.

NVIDIA aussi est ciblé par des auteurs pour violation du copyright et pour son utilisation de vidéos YouTube. Il existe aussi des accords entre des géants du Net et des géants de l’intelligence artificielle, à l’image de celui entre OpenAI et Condé Nast (Vogue, le New Yorker, Vanity Fair, Wired et d’autres titres), mais aussi avec Le Monde et Prisma Media (El País et HuffPost espagnol).

« Pas vu, pas pris »… et si en plus on fermait les yeux ?

Les raisons sont toujours les mêmes. Les modèles d’intelligence artificielle, aussi performants soient-ils, ne sont rien sans des données pour s’entrainer. Vous pouvez empiler des milliards de neurones, si vous n’avez pas des millions d’images de chats à lui donner, une IA sera incapable d’en reconnaitre un dans une image.

Et on ne parle que d’un seul exemple, multipliez cela par le nombre d’objets dans la vie quotidienne, par le nombre de langues dans le monde, etc. Vous touchez le nerf de la guerre : les intelligences artificielles ont besoin de toujours plus de données à ingurgiter pour recracher des réponses aux utilisateurs.

En théorie, les données ne servent qu’à l’entrainement et ne sont pas régurgitées dans les réponses des IA génératives (même s’il existe des exceptions permettant de découvrir les pots aux roses), certains sont donc tentés de se servir un peu partout. Un « Pas vu, pas pris » des temps modernes, en quelque sorte.

Mais si juridiquement, les entreprises culturelles se défendent devant les tribunaux, la bataille ne semble plus se mener dans les ministères.

À nos (IA) Act manqués

En France, par exemple, la discussion sur l'AI Act a été marquée par la plus ou moins discrète intervention de l’ancien secrétaire d’État au numérique Cédric O, qui siège au conseil d’administration de Mistral AI. Les utilisateurs des bases de données de contenus copyrightés ne sont plus seulement des petits acteurs accusés de parasiter les ventes des contenus culturels. Ils sont maintenant les potentielles têtes de gondoles de l'industrie du numérique.

En France, la CNIL publie des dossiers sur le sujet – par exemple, comment s’assurer que le traitement est licite (En cas de réutilisation des données, effectuer les tests et vérifications nécessaires) – en rappelant les grands principes. Mais aucune sanction publique n’a pour le moment été rendue sur l’utilisation de données personnelles et/ou disponibles sur Internet sous copyright pour entrainer les intelligences artificielles.

Maintenant que les intelligences artificielles génératives sont déjà là depuis un moment et que les nouvelles générations ont été lancées, ne serait-il pas trop tard ? Les nouvelles IA génératives ne repartent pas de zéro, elles reprennent les bases existantes et s’améliorent.

Commentaires (18)

fred42 Abonné

Modifié le 28/10/2024 à 19h41

Copyright : droit des pays de Common law (USA et pays du Commonwealth principalement) et cet édito parle d'HADOPI et autres spécificités françaises.

Dont le sujet, ici est le droit d'auteur et le Copyright qui sont "réunis" dans la Convention de Berne qui laisse aux pays la gestion des différences.

C'est important de parler des deux d'autant plus que le fair use des USA ou l'utilisation équitable des autres pays common law sont des exceptions plus larges que dans les pays de droit civil (exceptions énumérées par la loi). Si comme je le pense on ne va parler que d'IA plus loin, ça a son importance de savoir de quel droit on parle.

Un « Pas vu, pas pris » des temps modernes, en quelque sorte.

Pourquoi ceux qui entraîne leur IA sur des œuvres accessibles publiquement devraient-ils être pris ? Et dans quel pays ?

Dans l'UE, c'est clair, on a le droit d'entraîner des IA (fouille de textes et de données) sur des œuvres et donc de copier les œuvres le temps nécessaire pour cela.
Sans restriction pour les chercheurs et avec le droit de s'opposer à cela pour les détenteurs des droits pour les "non-chercheurs".
La seule chose, c'est que l'accès à l'œuvre doit être fait de manière licite. Un accès à une œuvre par torrent risque de ne pas l'être, par exemple.

Articles 3 et 4 de la directive 2019/790 du 17 avril 2019 sur le droit d'auteur et les droits voisins dans le marché unique numérique. On notera que cette directive est celle qui régit le droit d'auteur et non pas l'AI Act.
Je l'avais déjà expliqué ici et à nouveau assez récemment.

Nota : il serait intéressant de se renseigner pour savoir comment s'opposer. La directive dit :

de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne.

Ça reste vague et ça me semble impliquer le développement d'un standard.

Mais si juridiquement, les entreprises culturelles se défendent devant les tribunaux, la bataille ne semble plus se mener dans les ministères.

Cette phrase ne veut rien dire et semble s'appuyer sur la méconnaissance du sujet. Comme je le dis juste au dessus, dans l'UE, la loi existe et dans les pays où le Copyright existe, ce sont les tribunaux qui feront la jurisprudence (c'est comme ça que ça se passe). OpenAI s'appuie par exemple sur le fair use pour justifier son utilisation des œuvres, ils ont peut-être tort, mais pour l'instant personne n'en sait rien.
Encore une fois, ce sont les tribunaux qui trancheront.

En France, la CNIL publie des dossiers sur le sujet – par exemple, comment s’assurer que le traitement est licite (En cas de réutilisation des données, effectuer les tests et vérifications nécessaires) – en rappelant les grands principes.

Ceci ne concerne que le traitement des données personnelles pour l'entraînement des IA. La CNIL n'est pour le moment compétente que pour ce type de données (RGPD et loi du 6 janvier 1978), il est fort possible qu'elle soit l'autorité chargée de faire appliquer l'AI Act, mais ce n'est pas encore le cas.

Mais aucune sanction publique n’a pour le moment été rendue sur l’utilisation de données personnelles et/ou disponibles sur Internet sous copyright pour entraîner les intelligences artificielles.

Attention, il faut distinguer l'utilisation des données personnelles où des sanctions pourraient être prises en application du RGPD et celle des données disponibles sur Internet où là, c'est autorisé et donc pas punissable sauf si les titulaires des droits s'y étaient opposés ou si l'accès à l'œuvre est illicite.

Je sais que c'est un édito et donc, l'opinion de l'auteur apparaît clairement comme elle apparaissait tout aussi clairement dans ses articles sur le sujet. Il pense que les auteurs devraient être plus protégés, étant auteur lui-même, on peut comprendre ce point de vue.
Mais, ça serait bien malgré cela que son exposé s'appuie un peu plus sur la loi, les lois, j'aurais dû dire comme on a pu le voir, elles peuvent diverger ou ne pas exister. D'ailleurs si des divergences fortes apparaissent entre les USA ou autres pays de common law et l'UE, ça va être compliqué pour les sociétés qui bossent dans l'IA, sauf si ça leur permet au contraire de faire l'entraînement de leurs modèles dans les pays les plus permissifs. Je ne parle pas des autres, car je ne connais pas leur position.

Ce qui me dérange ici et dans les articles précédents, c'est une critique non argumentée juridiquement de l'utilisation des œuvres pour l'entraînement des IA.

SebGF Abonné

Le 28/10/2024 à 20h08

Je trouvais l'argumentaire léger, mais tu y as répondu mieux que je ne l'aurais fait.

Aussi longtemps qu'il n'y aura pas eu de décision de justice, il est difficile de dire si les lois actuelles protègent suffisamment les auteurs. La comparaison avec l'envolée du piratage me semble hors de propos puis qu'à cette époque, le cadre légal manquait justement.

fred42 Abonné

Le 29/10/2024 à 19h39

J'ai ouvert un éditeur de texte pour répondre point par point au fur et à mesure que je lisais. Sinon, si je rédige le commentaire après, j'oublie des trucs.

J'ai bien entendu complété mes notes prises au fil de l'eau.

Sur ton dernier point, je ne suis pas sûr que le cadre légal manquait pour le piratage. Les lois sur le droit d'auteur sont anciennes et le fait que la contrefaçon soit faite en ligne ne change rien. On a enrichi la loi pour le piratage, mais elle existait.
Et pour moi, c'est pour cela que la comparaison est mauvaise : pour le piratage, c'était interdit et pour l'entraînement des IA, c'est soit autorisé par défaut (UE) soit pas encore jugé (common law).

SebGF Abonné

Le 30/10/2024 à 07h34

Sur le plan interdiction, le cadre ne manquait pas pour le piratage, oui (contrefaçon). C'est plutôt sur la surveillance et le temps de réponse que la législation a évolué, car le délit était passé à une toute autre échelle.

Dans les faits, ça n'a pas changé grand chose et l'automatisation du piratage est même arrivée à un niveau tel qu'aller sur un tracker pour chopper un torrent donne l'impression de tailler un silex. On créé sa liste d'envie et l'outil part chercher tout seul le fichier selon les critères demandés, il importe dans la bibliothèque multimédia, renomme, tagge, et c'est du prêt à l'emploi.

jobpilot Abonné

Le 28/10/2024 à 20h59

Il n'y a aucune violation de droits d'auteur dans l'entraînement des intelligences artificielles avec des documents protégés. Affirmer le contraire démontre une incompréhension fondamentale de ce qu'est une IA, particulièrement dans le cas des modèles de langage (LLM).

Le processus d'apprentissage d'une IA est comparable à celui d'un être humain. Personne ne contesterait le fait que des enfants apprennent à lire dans des livres ou étudient les mathématiques avec des manuels achetés dans le commerce.

Il est important de comprendre que le modèle ne stocke pas les données d'origine. Ce qui est conservé, ce sont uniquement les paramètres des réseaux de neurones après l'apprentissage, communément appelés "poids". Aucune donnée brute provenant des ensembles d'entraînement n'est conservée.

Pour faire une analogie, c'est similaire à notre propre apprentissage : lorsque nous écrivons, nous ne nous souvenons plus précisément dans quels livres nous avons appris chaque mot, ni même toutes les règles grammaticales que nous appliquons pourtant correctement.

En conclusion, il ne s'agit pas de pillage mais simplement d'une utilisation légitime des ressources à des fins d'apprentissage.

Cordialement,

Gamble

Modifié le 28/10/2024 à 22h07

Si j'écris une copie d'un livre existant en paraphrasant, en ajoutant des éléments et en en enlevant d'autres, ça reste une violation du droit d'auteur. Donc non, ce n'est pas similaire à notre propre apprentissage, car un être humain saura qu'il crée un copie alors qu'un LLM crache juste un résultat.

Un LLM n'a aucune notion de grammaire, d'orthographe ou quoi que ce soit d'autre, c'est uniquement un modèle probabiliste qui enchaîne des séquences de mots, séquences qu'il a bien entendu mémorisées en les copiant des données d'entrainement et qui a pour résultat que de temps en temps, il recrache des copies complètes de paragraphes.

SebGF Abonné

Le 28/10/2024 à 22h54

Si j'écris une copie d'un livre existant en paraphrasant, en ajoutant des éléments et en en enlevant d'autres, ça reste une violation du droit d'auteur.

Je ne serais pas aussi tranché. La notion entre plagiat et inspiration reste à l'appréciation d'un tribunal dans le cas du droit d'auteur français (et US aussi, avec le cas par exemple de Ed Sheeran accusé de plagiat où il a démontré la différence entre les accords). Si tu modifies suffisamment le matériel d'origine, il est possible que ça devienne une oeuvre originale. Par contre, si tu gardes des éléments spécifiques (des personnages, des lieux propres au récit d'origine, ce qui caractérise son univers, etc) là ça peut être une contrefaçon. Tout comme le droit de citation n'est pas un plagiat du moment qu'il reste court, qu'il est entre guillemets, que l'auteur est mentionné et qu'il ne prive pas l'oeuvre originale de son intérêt à être lue.

Remarque, c'est déjà le cas avec le sujet épineux de la fan fiction où, en principe, on doit demander d'autorisation de l'auteur ou des ayants-droits puisque c'est couvert par les droits moraux. Je pense que c'est plutôt rare dans la réalité.

Même chose pour la parodie où en respectant les règles, on peut s'inspirer d'une oeuvre existante tout en créant une originale.

Arkeen Abonné

Modifié le 28/10/2024 à 22h55

Sauf qu'un être humain n'est pas un LLM.
Ça n'a pas les mêmes droits, les mêmes utilisations, les mêmes commercialisations, ça ne se duplique ni se partage de la même manière, etc. : bref, cette comparaison n'a aucun sens.

Ensuite, un humain qui contrefait (peu importe le procédé) un peu trop fidèlement une œuvre culturelle protégée est attaquable devant les tribunaux. Au nom de quoi est-ce que les créateurs d'une machine qui feraient la même chose en seraient exemptés ?

gagaches

Le 28/10/2024 à 23h03

Navré mais tu te trompes sur plusieurs points.
- Les règles de propriété des sites Internet n'a jamais autorisé l'usage des ressources pour l'entrainement des IA (LLM/Machine Learning/réseaux de neurone).
D'autant que ces outils sont construits à des fins clairement commerciales et donc rentrent en opposition avec plusieurs des règles (interdiction à des fins commerciales)

- La problématique n'est pas sur la donnée brute mais la (simili-)connaissance associée.

Situation/Exemple : Une personne (morale ou physique) publie un livre qui donne plusieurs techniques pour gagner de l'argent.
Le seul moyen d'accéder à cette connaissance est de lire le livre, donc soit de l'acheter soit de l'emprunter. Les droits d'auteurs s'appliquent et fournissent une (in)juste rémunération à l'auteur.

L'IA passe par là. Elle apprend le livre et est maintenant capable de donner des ~techniques pour gagner de l'argent, de la même façon. (Elles ne sont que statistiquement proches mais suffisamment proches pour donner l'illusion voire tomber juste).
Les personnes se servent de l'IA pour accéder à ces savoirs=> La personne ayant créé ces techniques n'est plus rémunérée.

C'est aussi valable pour les images, générable à foison sur la base créative d'artistes qui ne seront jamais rémunérés et qui ont globalement perdu un moyen de se rémunérer (qui payerait un artiste alors qu'une IA fait "la même chose" en 1 minute?).

- Et enfin, le droit d'auteur est plus complexe que simplement la donnée brute.

fred42 Abonné

Modifié le 29/10/2024 à 00h34

Navré mais tu te trompes sur plusieurs points.

En droit, tout ce qui n'est pas interdit est autorisé. Donc, faute d'interdiction l'utilisation des sites internets pour l'entraînement d'IA, serait plutôt autorisée.

Comme je l'ai expliqué dans mon premier commentaire, dans l'UE, le droit dit cela explicitement : sans interdiction par les détenteurs des droits, on peut entraîner une IA avec du contenu accédé légalement.
Aux USA, où le droit s'établit différemment, pour l'instant, on n'en sait rien. Il faut des jugements pour que le droit sur cette activité nouvelle se construise.
Donc pour ton premier point, dans l'UE, on sait qu'entraîner des IA sur des œuvres est autorisé par défaut. Aux USA et autres pays de common law, il faut que ce droit s'établisse, mais aujourd'hui personne ne peut dire ce qu'il sera.

Sur ton second point, puisqu'ici on parle de droit d'auteur ou de Copyright, on ne parle pas de connaissance écrite dans une œuvre. En fait, ce que tu appelles connaissance est plutôt une ou des idée(s) et les idées ne sont pas protégées, pas plus que la connaissance : on protège une œuvre (droit d'auteur) ou une réalisation (brevet) mais pas une idée qui ne se brevette pas.
Si quelqu'un lit le livre avec ces idées pour gagner de l'argent et ensuite fait des vidéos ou des cours, il n'enfreint aucune loi de protection du droit d'auteur et l'auteur d'origine ne gagnera pas non plus d'argent. Cet argument n'est donc pas valable.

Quant au fait que les artistes qui créent des images risquent de ne plus gagner leur vie, ça se passe comme ça pour plein d'autres métiers dont certains ont disparu. Ce n'est pas non plus un argument légal contre l'entraînement des IA sur des œuvres.

Ton troisième point n'est pas du tout développé, mais tel quel, ce n'est pas non plus un argument.

gagaches

Modifié le 30/10/2024 à 23h48

Pas complètement d'accord même si je suis d'accord que légalement il y a un certain flou juridique.
Après, effectivement, je ne voulais pas rentrer dans une argumentation longue.

Tu as des licences sur les médias (Common Media par exemple) qui définit les mécanismes de réutilisation des médias et qui oblige à identifier l'attribution de ces données/médias à l'auteur.
C'est donc bien une contrainte et une interdiction d'usage.

Creative Commons

Avec le mécanisme d'apprentissage des LLM, on tombe dans cette interdiction.
C'est donc censé être interdit.

Pour mon deuxième et troisième point, on entre dans la notion de l'esprit de la loi :
une IA est capable de recréer une presque-copie d'une source existante.

J'ai vu de nombreuses reprises des tableaux de maitre qui en sont très proches, générés par IA.
Cela veut dire que l'IA peut recréer le tableau de maitre de façon suffisamment proche pour en créer une copie.

Si une IA peut recréer une quasi-copie à la demande d'un livre, d'une image ou d'une source peu importe la source, elle enfreint (à minima l'esprit de) la loi sur le droit d'auteur.
Maintenant, la loi sur le droit d'auteur est sans doute mal écrite car elle ne prévoyait pas encore ce genre d'usage.

SebGF Abonné

Le 31/10/2024 à 11h22

La position de Creative Commons n'est pas aussi tranchée et ils considéraient en 2023 que l'entraînement rentrait généralement dans le fair-use. Depuis, ils ont lancé des travaux sur l'étude de signaux pour que l'auteur puisse transcrire sa volonté de manière plus précise au sujet de l'usage de son oeuvre dans ce domaine.

Maintenant, la loi sur le droit d'auteur est sans doute mal écrite car elle ne prévoyait pas encore ce genre d'usage.

Une copie presque à l'identique peut être condamnée pour contrefaçon. Le droit d'auteur n'a pas spécialement besoin d'être changé dans le cadre français. Cela reste in fine à l'appréciation d'un juge.

fred42 Abonné

Le 31/10/2024 à 13h53

Pas complètement d'accord même si je suis d'accord que légalement il y a un certain flou juridique.

Où est le flou juridique dans l'UE ?

Tu as des licences sur les médias (Common Media par exemple) qui définit les mécanismes de réutilisation des médias et qui oblige à identifier l'attribution de ces données/médias à l'auteur.

C'est donc bien une contrainte et une interdiction d'usage.

Non. Ce n'est pas une interdiction d'entraînement des IA.

L'entraînement de IA ne correspond à aucune des actions :

distribute, remix, adapt, and build.

Et même le ND ( No derivatives or adaptations of the work are permitted.) n'interdit pas l'entraînement des IA. Ce qui résulte de cet entraînement n'est pas un travail dérivé ni un adaptation du travail initial.

J'ai vu de nombreuses reprises des tableaux de maitre qui en sont très proches, générés par IA.

Faire des copies de tableaux de maîtres n'est pas interdit. Il y a quelques restrictions sur la taille du tableau qui doit être différente et sur l'interdiction de le signer avec la signature de l'original. Je parle là de vrais tableaux sur de la toile, alors, quand la copie n'est qu'approximative et en plus numérique, même ces restrictions n'existent pas.

Si une IA peut recréer une quasi-copie à la demande d'un livre, d'une image ou d'une source peu importe la source, elle enfreint (à minima l'esprit de) la loi sur le droit d'auteur.

On nous a parlé ici de cas où des articles de journaux ont été restitués presque à l'identique. C'est effectivement dans ce cas de la violation de droit d'auteur, mais cela tenait plus du bug qu'autre chose : le texte en question était présent sur de nombreux sites et avait donc été utilisé de nombreuses fois comme source d'entraînement, ce qui fait qu'il avait été quasiment mémorisé (cela faussait des statistiques d'apparition des mots composant ce texte). OpenAI qui a eu ce problème filtre maintenant en amont de l'apprentissage ce genre de cas ce qui évitera qu'il se reproduise.

Maintenant, la loi sur le droit d'auteur est sans doute mal écrite car elle ne prévoyait pas encore ce genre d'usage.

Les lois les mieux écrites sont celles qui durent très longtemps quelle que soient les technologies inventées après. Les articles du premier Code Civil qui subsistent aujourd'hui sont des exemples remarquables de lois bien faites. Ils sont concis et sans ambiguïté.

La loi (directive) sur le droit d'auteur de l'UE a été modifiée en 2019 pour définir les usages des œuvres pour l'entraînement des IA.
Cela contredit ton affirmation.
Pour les USA et les autres pays de Common law, j'ai déjà expliqué le processus.

gagaches

Le 01/11/2024 à 12h25

1/ Tu as compris la comparaison avec le tableau de maitre.
2/ c'est sur ce point que l'on est pas d'accord "remix, adapt".
tu le dis toi-même
"C'est donc bien une contrainte et une interdiction d'usage."
Il est interdit de "remix" ces données sans en respecter certaines contraintes.

Pour moi c'est évident qu'une IA tombe dans ce cas de "remix,adapt".

Un LLM, c'est un moteur mathématique qui s'appuie sur un réseau de neurone pour restructurer l'ensemble des mots écrits dans tous les articles donnés en entrée en ensembles de vecteurs de donnée avec un poids statistique.

C'est exactement une représentation structurelle différente (remixée) des mots des articles.

Cela lui permet ensuite de déduire statistiquement une suite de mots.
Il ne ressort ni plus ni moins que la tendance générale des réponses à une demande.

Quand tu dis qu'un article d'entrée est restitué est un bug, non.
C'est qu'il a été repris mot de pour mot une quantité de fois suffisamment importante dans les données d'entrainement pour que statistiquement il ressorte à la demande spécifique.

Un entrainement sur un jeu de données insuffisant crée ce genre d'artifacts par exemple.
Et il va te ressortir quasi exactement les données en entrée (article, livre, ...)

Ce qui est beau c'est que la modification de 2019 pour autoriser l'usage des plateformes IA dont tu parles me prouves que j'ai partiellement raison :

"Selon les résultats de recherche, la directive 2019/790 de l’Union européenne a introduit des modifications importantes relatives aux usages des œuvres pour l’entraînement des IA.

La directive permet la reproduction et l’extraction d’œuvres aux fins de la fouille des textes et de données, sous réserve que l’utilisation des œuvres n’ait pas été expressément réservée par leurs titulaires de droits par un système d’« opt-out ». Cela signifie que les plateformes d’IA peuvent utiliser des œuvres pour l’entraînement de leurs modèles, mais uniquement si les titulaires de droits n’ont pas spécifiquement refusé cette utilisation."

Les LLM actuellement disponible (chatGpt, Gemini, Claude, ...) ne respectent pas ces clauses.

J'apprécie aussi le foutage de gueule global puisque
1/ ça reste à la charge de la société victime de démontrer qu'elle le serait.
Or personne n'a accès aux jeux de données de ces sociétés d'IA.
2/ j'imagine que ça n'est pas rétroactif et que les OpenAI et consort pourront dire "Ah mais on a pompé les données avant, donc trop tard".

Enfin bref,
tu as l'air d'être porté sur le juridique, moi pas.
tu as l'air moins porté sur la technique, dommage pour le biais.

Chacun son point de vue.

fred42 Abonné

Le 01/11/2024 à 13h48

Je suis autant porté sur le technique que le juridique. Je suis ingénieur de formation, donc plus porté par la technique.
J'ai très bien compris ce que faisaient les LMM Et non, ce n'est pas du remix. Le résultat de l'apprentissage des IA n'est pas un œuvre, tu as même décrit ce que c'était. Et ensuite un LMM ressort un résultat statistique sur un très grand nombre d'œuvres, ce résultat n'est pas inspiré de certaines œuvres identifiables.
Un bon exemple de remix est ce qui se pratique dans la musique : on intègre des bouts de musique provenant de diverses œuvre pour en faire une autre.
Quand je parlas de bug, c'était de bug de conception de la chaîne de traitement. Sans filtre pour supprimer les textes identiques en entrée, on fausse les statistiques et donc les modèles.

Les LLM actuellement disponible (chatGpt, Gemini, Claude, ...) ne respectent pas ces clauses.

Leur apprentissage étant a priori fait aux USA, ils n'ont pas à respecter les règles de l'UE.

En plus, comme je le disais dans mon premier commentaire, je ne suis pas sûr que les standards techniques pour exprimer ces clauses afin que les machines puissent les lire soient établis.

Quant à la preuve à apporter par la victime, c'est le cas dans toute procédure civile, pas juste ici.

JK Abonné

Modifié le 29/10/2024 à 11h12

@jobpilot Un humain fonctionne par heuristique. Il découvre des trucs et apprend en reproduisant quelque chose qui fonctionne.
Une machine a besoin d'une quantité astronomique de données pour avoir une chance de reproduire quelque chose d'utile.

Un robot va mettre un ballon de basket dans le panier parce qu'il a calculé précisément la trajectoire. Un humain va évaluer comment faire à partir de ce qu'il a déjà vu et fait, il va inventer une trajectoire qui sera la bonne si son intuition a été bonne. Un robot, à ce jour, n'a jamais rien inventé.

alex.d. Abonné

Le 29/10/2024 à 16h14

En effet, la violation n'a pas lieu lors de l'apprentissage, mais lors de la restitution.
Tu peux essayer avec ChatGPT : il est capable de réciter tel quel de longs fragments, en texte intégral, d'oeuvres faisant partie de son apprentissage.

SebGF Abonné

Le 29/10/2024 à 14h26

Vous en parliez il y a quelques temps car c'était encore en draft, mais ça y est, l'OSI a délivré sa première version de la définition l'IA open source.

Sans surprise, elle intègre une obligation fournir la description des données d'entraînement, comment elles ont été obtenues, utilisées, labellisées, lister et indiquer comment se procurer celles issues d'un jeu public, même chose comment obtenir celles provenant d'un tiers.

En espérant que ça remette l'église au milieu du village sur le côté "open-mais-pas-trop" de nombreux modèles.