[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA
©🔫 🤖
En 20 ans d'Internet, de partage et de publication massive de contenus soumis au copyright, le discours public a évolué. Il est passé d'une condamnation totale des pratiques d'échanges entre utilisateurs pairs à pairs à une acceptation tacite de l'entrainement des IA génératives, parfois sur les mêmes masses de données, pourvu que les données ne soient pas nommément citées.
Le 28 octobre à 18h02
7 min
IA et algorithmes
IA
Entre la répression contre les figures symboliques du partage de fichiers sur Internet – Shawn Fanning, Aaron Swartz et Alexandra Elbakyan – et l’utilisation massive des bases de données d’œuvres protégées par le Copyright par les entreprises de l’IA générative, le discours public et politique a bifurqué. D’un tout répressif dont le point d’orgue en France a été la loi Hadopi, nous sommes passés au jet d’un voile pudique sur l’utilisation de données culturelles par les startups qui promettent d’être les prochaines licornes de l’IA.
De la fin des années 90 à celle des années 2010, les politiques du numérique ont notamment été portées par la volonté de protéger du piratage les contenus numériques comme les musiques, les films, mais aussi les livres et les articles scientifiques.
Il reste 86% de l'article à découvrir.
Déjà abonné ? Se connecter
Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.
Accédez en illimité aux articles
Profitez d'un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vous[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA
-
En 2000, la machine à bannir d’Internet... mais censurée par le Conseil constitutionnel
-
Des projets non commerciaux aussi
-
Des procès contre OpenAI and co mais pas de nouvelle loi en perspective
-
« Pas vu, pas pris »… et si en plus on fermait les yeux ?
-
À nos (IA) Act manqués
Commentaires (18)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousModifié le 28/10/2024 à 19h41
Dont le sujet, ici est le droit d'auteur et le Copyright qui sont "réunis" dans la Convention de Berne qui laisse aux pays la gestion des différences.
C'est important de parler des deux d'autant plus que le fair use des USA ou l'utilisation équitable des autres pays common law sont des exceptions plus larges que dans les pays de droit civil (exceptions énumérées par la loi). Si comme je le pense on ne va parler que d'IA plus loin, ça a son importance de savoir de quel droit on parle.
Pourquoi ceux qui entraîne leur IA sur des œuvres accessibles publiquement devraient-ils être pris ? Et dans quel pays ?
Dans l'UE, c'est clair, on a le droit d'entraîner des IA (fouille de textes et de données) sur des œuvres et donc de copier les œuvres le temps nécessaire pour cela.
Sans restriction pour les chercheurs et avec le droit de s'opposer à cela pour les détenteurs des droits pour les "non-chercheurs".
La seule chose, c'est que l'accès à l'œuvre doit être fait de manière licite. Un accès à une œuvre par torrent risque de ne pas l'être, par exemple.
Articles 3 et 4 de la directive 2019/790 du 17 avril 2019 sur le droit d'auteur et les droits voisins dans le marché unique numérique. On notera que cette directive est celle qui régit le droit d'auteur et non pas l'AI Act.
Je l'avais déjà expliqué ici et à nouveau assez récemment.
Nota : il serait intéressant de se renseigner pour savoir comment s'opposer. La directive dit : Ça reste vague et ça me semble impliquer le développement d'un standard.
Cette phrase ne veut rien dire et semble s'appuyer sur la méconnaissance du sujet. Comme je le dis juste au dessus, dans l'UE, la loi existe et dans les pays où le Copyright existe, ce sont les tribunaux qui feront la jurisprudence (c'est comme ça que ça se passe). OpenAI s'appuie par exemple sur le fair use pour justifier son utilisation des œuvres, ils ont peut-être tort, mais pour l'instant personne n'en sait rien.
Encore une fois, ce sont les tribunaux qui trancheront.
Ceci ne concerne que le traitement des données personnelles pour l'entraînement des IA. La CNIL n'est pour le moment compétente que pour ce type de données (RGPD et loi du 6 janvier 1978), il est fort possible qu'elle soit l'autorité chargée de faire appliquer l'AI Act, mais ce n'est pas encore le cas.
Attention, il faut distinguer l'utilisation des données personnelles où des sanctions pourraient être prises en application du RGPD et celle des données disponibles sur Internet où là, c'est autorisé et donc pas punissable sauf si les titulaires des droits s'y étaient opposés ou si l'accès à l'œuvre est illicite.
Je sais que c'est un édito et donc, l'opinion de l'auteur apparaît clairement comme elle apparaissait tout aussi clairement dans ses articles sur le sujet. Il pense que les auteurs devraient être plus protégés, étant auteur lui-même, on peut comprendre ce point de vue.
Mais, ça serait bien malgré cela que son exposé s'appuie un peu plus sur la loi, les lois, j'aurais dû dire comme on a pu le voir, elles peuvent diverger ou ne pas exister. D'ailleurs si des divergences fortes apparaissent entre les USA ou autres pays de common law et l'UE, ça va être compliqué pour les sociétés qui bossent dans l'IA, sauf si ça leur permet au contraire de faire l'entraînement de leurs modèles dans les pays les plus permissifs. Je ne parle pas des autres, car je ne connais pas leur position.
Ce qui me dérange ici et dans les articles précédents, c'est une critique non argumentée juridiquement de l'utilisation des œuvres pour l'entraînement des IA.
Le 28/10/2024 à 20h08
Aussi longtemps qu'il n'y aura pas eu de décision de justice, il est difficile de dire si les lois actuelles protègent suffisamment les auteurs. La comparaison avec l'envolée du piratage me semble hors de propos puis qu'à cette époque, le cadre légal manquait justement.
Le 29/10/2024 à 19h39
J'ai bien entendu complété mes notes prises au fil de l'eau.
Sur ton dernier point, je ne suis pas sûr que le cadre légal manquait pour le piratage. Les lois sur le droit d'auteur sont anciennes et le fait que la contrefaçon soit faite en ligne ne change rien. On a enrichi la loi pour le piratage, mais elle existait.
Et pour moi, c'est pour cela que la comparaison est mauvaise : pour le piratage, c'était interdit et pour l'entraînement des IA, c'est soit autorisé par défaut (UE) soit pas encore jugé (common law).
Le 30/10/2024 à 07h34
Dans les faits, ça n'a pas changé grand chose et l'automatisation du piratage est même arrivée à un niveau tel qu'aller sur un tracker pour chopper un torrent donne l'impression de tailler un silex. On créé sa liste d'envie et l'outil part chercher tout seul le fichier selon les critères demandés, il importe dans la bibliothèque multimédia, renomme, tagge, et c'est du prêt à l'emploi.
Le 28/10/2024 à 20h59
Le processus d'apprentissage d'une IA est comparable à celui d'un être humain. Personne ne contesterait le fait que des enfants apprennent à lire dans des livres ou étudient les mathématiques avec des manuels achetés dans le commerce.
Il est important de comprendre que le modèle ne stocke pas les données d'origine. Ce qui est conservé, ce sont uniquement les paramètres des réseaux de neurones après l'apprentissage, communément appelés "poids". Aucune donnée brute provenant des ensembles d'entraînement n'est conservée.
Pour faire une analogie, c'est similaire à notre propre apprentissage : lorsque nous écrivons, nous ne nous souvenons plus précisément dans quels livres nous avons appris chaque mot, ni même toutes les règles grammaticales que nous appliquons pourtant correctement.
En conclusion, il ne s'agit pas de pillage mais simplement d'une utilisation légitime des ressources à des fins d'apprentissage.
Cordialement,
Modifié le 28/10/2024 à 22h07
Un LLM n'a aucune notion de grammaire, d'orthographe ou quoi que ce soit d'autre, c'est uniquement un modèle probabiliste qui enchaîne des séquences de mots, séquences qu'il a bien entendu mémorisées en les copiant des données d'entrainement et qui a pour résultat que de temps en temps, il recrache des copies complètes de paragraphes.
Le 28/10/2024 à 22h54
Remarque, c'est déjà le cas avec le sujet épineux de la fan fiction où, en principe, on doit demander d'autorisation de l'auteur ou des ayants-droits puisque c'est couvert par les droits moraux. Je pense que c'est plutôt rare dans la réalité.
Même chose pour la parodie où en respectant les règles, on peut s'inspirer d'une oeuvre existante tout en créant une originale.
Modifié le 28/10/2024 à 22h55
Ça n'a pas les mêmes droits, les mêmes utilisations, les mêmes commercialisations, ça ne se duplique ni se partage de la même manière, etc. : bref, cette comparaison n'a aucun sens.
Ensuite, un humain qui contrefait (peu importe le procédé) un peu trop fidèlement une œuvre culturelle protégée est attaquable devant les tribunaux. Au nom de quoi est-ce que les créateurs d'une machine qui feraient la même chose en seraient exemptés ?
Le 28/10/2024 à 23h03
- Les règles de propriété des sites Internet n'a jamais autorisé l'usage des ressources pour l'entrainement des IA (LLM/Machine Learning/réseaux de neurone).
D'autant que ces outils sont construits à des fins clairement commerciales et donc rentrent en opposition avec plusieurs des règles (interdiction à des fins commerciales)
- La problématique n'est pas sur la donnée brute mais la (simili-)connaissance associée.
Situation/Exemple : Une personne (morale ou physique) publie un livre qui donne plusieurs techniques pour gagner de l'argent.
Le seul moyen d'accéder à cette connaissance est de lire le livre, donc soit de l'acheter soit de l'emprunter. Les droits d'auteurs s'appliquent et fournissent une (in)juste rémunération à l'auteur.
L'IA passe par là. Elle apprend le livre et est maintenant capable de donner des ~techniques pour gagner de l'argent, de la même façon. (Elles ne sont que statistiquement proches mais suffisamment proches pour donner l'illusion voire tomber juste).
Les personnes se servent de l'IA pour accéder à ces savoirs=> La personne ayant créé ces techniques n'est plus rémunérée.
C'est aussi valable pour les images, générable à foison sur la base créative d'artistes qui ne seront jamais rémunérés et qui ont globalement perdu un moyen de se rémunérer (qui payerait un artiste alors qu'une IA fait "la même chose" en 1 minute?).
- Et enfin, le droit d'auteur est plus complexe que simplement la donnée brute.
Modifié le 29/10/2024 à 00h34
Comme je l'ai expliqué dans mon premier commentaire, dans l'UE, le droit dit cela explicitement : sans interdiction par les détenteurs des droits, on peut entraîner une IA avec du contenu accédé légalement.
Aux USA, où le droit s'établit différemment, pour l'instant, on n'en sait rien. Il faut des jugements pour que le droit sur cette activité nouvelle se construise.
Donc pour ton premier point, dans l'UE, on sait qu'entraîner des IA sur des œuvres est autorisé par défaut. Aux USA et autres pays de common law, il faut que ce droit s'établisse, mais aujourd'hui personne ne peut dire ce qu'il sera.
Sur ton second point, puisqu'ici on parle de droit d'auteur ou de Copyright, on ne parle pas de connaissance écrite dans une œuvre. En fait, ce que tu appelles connaissance est plutôt une ou des idée(s) et les idées ne sont pas protégées, pas plus que la connaissance : on protège une œuvre (droit d'auteur) ou une réalisation (brevet) mais pas une idée qui ne se brevette pas.
Si quelqu'un lit le livre avec ces idées pour gagner de l'argent et ensuite fait des vidéos ou des cours, il n'enfreint aucune loi de protection du droit d'auteur et l'auteur d'origine ne gagnera pas non plus d'argent. Cet argument n'est donc pas valable.
Quant au fait que les artistes qui créent des images risquent de ne plus gagner leur vie, ça se passe comme ça pour plein d'autres métiers dont certains ont disparu. Ce n'est pas non plus un argument légal contre l'entraînement des IA sur des œuvres.
Ton troisième point n'est pas du tout développé, mais tel quel, ce n'est pas non plus un argument.
Modifié le 30/10/2024 à 23h48
Après, effectivement, je ne voulais pas rentrer dans une argumentation longue.
Tu as des licences sur les médias (Common Media par exemple) qui définit les mécanismes de réutilisation des médias et qui oblige à identifier l'attribution de ces données/médias à l'auteur.
C'est donc bien une contrainte et une interdiction d'usage.
Creative Commons
Avec le mécanisme d'apprentissage des LLM, on tombe dans cette interdiction.
C'est donc censé être interdit.
Pour mon deuxième et troisième point, on entre dans la notion de l'esprit de la loi :
une IA est capable de recréer une presque-copie d'une source existante.
J'ai vu de nombreuses reprises des tableaux de maitre qui en sont très proches, générés par IA.
Cela veut dire que l'IA peut recréer le tableau de maitre de façon suffisamment proche pour en créer une copie.
Si une IA peut recréer une quasi-copie à la demande d'un livre, d'une image ou d'une source peu importe la source, elle enfreint (à minima l'esprit de) la loi sur le droit d'auteur.
Maintenant, la loi sur le droit d'auteur est sans doute mal écrite car elle ne prévoyait pas encore ce genre d'usage.
Le 31/10/2024 à 11h22
Une copie presque à l'identique peut être condamnée pour contrefaçon. Le droit d'auteur n'a pas spécialement besoin d'être changé dans le cadre français. Cela reste in fine à l'appréciation d'un juge.
Le 31/10/2024 à 13h53
C'est donc bien une contrainte et une interdiction d'usage.
Non. Ce n'est pas une interdiction d'entraînement des IA.
L'entraînement de IA ne correspond à aucune des actions : Et même le ND ( No derivatives or adaptations of the work are permitted.) n'interdit pas l'entraînement des IA. Ce qui résulte de cet entraînement n'est pas un travail dérivé ni un adaptation du travail initial.
Faire des copies de tableaux de maîtres n'est pas interdit. Il y a quelques restrictions sur la taille du tableau qui doit être différente et sur l'interdiction de le signer avec la signature de l'original. Je parle là de vrais tableaux sur de la toile, alors, quand la copie n'est qu'approximative et en plus numérique, même ces restrictions n'existent pas.
On nous a parlé ici de cas où des articles de journaux ont été restitués presque à l'identique. C'est effectivement dans ce cas de la violation de droit d'auteur, mais cela tenait plus du bug qu'autre chose : le texte en question était présent sur de nombreux sites et avait donc été utilisé de nombreuses fois comme source d'entraînement, ce qui fait qu'il avait été quasiment mémorisé (cela faussait des statistiques d'apparition des mots composant ce texte). OpenAI qui a eu ce problème filtre maintenant en amont de l'apprentissage ce genre de cas ce qui évitera qu'il se reproduise.
Les lois les mieux écrites sont celles qui durent très longtemps quelle que soient les technologies inventées après. Les articles du premier Code Civil qui subsistent aujourd'hui sont des exemples remarquables de lois bien faites. Ils sont concis et sans ambiguïté.
La loi (directive) sur le droit d'auteur de l'UE a été modifiée en 2019 pour définir les usages des œuvres pour l'entraînement des IA.
Cela contredit ton affirmation.
Pour les USA et les autres pays de Common law, j'ai déjà expliqué le processus.
Le 01/11/2024 à 12h25
2/ c'est sur ce point que l'on est pas d'accord "remix, adapt".
tu le dis toi-même
"C'est donc bien une contrainte et une interdiction d'usage."
Il est interdit de "remix" ces données sans en respecter certaines contraintes.
Pour moi c'est évident qu'une IA tombe dans ce cas de "remix,adapt".
Un LLM, c'est un moteur mathématique qui s'appuie sur un réseau de neurone pour restructurer l'ensemble des mots écrits dans tous les articles donnés en entrée en ensembles de vecteurs de donnée avec un poids statistique.
C'est exactement une représentation structurelle différente (remixée) des mots des articles.
Cela lui permet ensuite de déduire statistiquement une suite de mots.
Il ne ressort ni plus ni moins que la tendance générale des réponses à une demande.
Quand tu dis qu'un article d'entrée est restitué est un bug, non.
C'est qu'il a été repris mot de pour mot une quantité de fois suffisamment importante dans les données d'entrainement pour que statistiquement il ressorte à la demande spécifique.
Un entrainement sur un jeu de données insuffisant crée ce genre d'artifacts par exemple.
Et il va te ressortir quasi exactement les données en entrée (article, livre, ...)
Ce qui est beau c'est que la modification de 2019 pour autoriser l'usage des plateformes IA dont tu parles me prouves que j'ai partiellement raison :
"Selon les résultats de recherche, la directive 2019/790 de l’Union européenne a introduit des modifications importantes relatives aux usages des œuvres pour l’entraînement des IA.
La directive permet la reproduction et l’extraction d’œuvres aux fins de la fouille des textes et de données, sous réserve que l’utilisation des œuvres n’ait pas été expressément réservée par leurs titulaires de droits par un système d’« opt-out ». Cela signifie que les plateformes d’IA peuvent utiliser des œuvres pour l’entraînement de leurs modèles, mais uniquement si les titulaires de droits n’ont pas spécifiquement refusé cette utilisation."
Les LLM actuellement disponible (chatGpt, Gemini, Claude, ...) ne respectent pas ces clauses.
J'apprécie aussi le foutage de gueule global puisque
1/ ça reste à la charge de la société victime de démontrer qu'elle le serait.
Or personne n'a accès aux jeux de données de ces sociétés d'IA.
2/ j'imagine que ça n'est pas rétroactif et que les OpenAI et consort pourront dire "Ah mais on a pompé les données avant, donc trop tard".
Enfin bref,
tu as l'air d'être porté sur le juridique, moi pas.
tu as l'air moins porté sur la technique, dommage pour le biais.
Chacun son point de vue.
Le 01/11/2024 à 13h48
J'ai très bien compris ce que faisaient les LMM Et non, ce n'est pas du remix. Le résultat de l'apprentissage des IA n'est pas un œuvre, tu as même décrit ce que c'était. Et ensuite un LMM ressort un résultat statistique sur un très grand nombre d'œuvres, ce résultat n'est pas inspiré de certaines œuvres identifiables.
Un bon exemple de remix est ce qui se pratique dans la musique : on intègre des bouts de musique provenant de diverses œuvre pour en faire une autre.
Quand je parlas de bug, c'était de bug de conception de la chaîne de traitement. Sans filtre pour supprimer les textes identiques en entrée, on fausse les statistiques et donc les modèles.
Leur apprentissage étant a priori fait aux USA, ils n'ont pas à respecter les règles de l'UE.
En plus, comme je le disais dans mon premier commentaire, je ne suis pas sûr que les standards techniques pour exprimer ces clauses afin que les machines puissent les lire soient établis.
Quant à la preuve à apporter par la victime, c'est le cas dans toute procédure civile, pas juste ici.
Modifié le 29/10/2024 à 11h12
Une machine a besoin d'une quantité astronomique de données pour avoir une chance de reproduire quelque chose d'utile.
Un robot va mettre un ballon de basket dans le panier parce qu'il a calculé précisément la trajectoire. Un humain va évaluer comment faire à partir de ce qu'il a déjà vu et fait, il va inventer une trajectoire qui sera la bonne si son intuition a été bonne. Un robot, à ce jour, n'a jamais rien inventé.
Le 29/10/2024 à 16h14
Tu peux essayer avec ChatGPT : il est capable de réciter tel quel de longs fragments, en texte intégral, d'oeuvres faisant partie de son apprentissage.
Le 29/10/2024 à 14h26
Sans surprise, elle intègre une obligation fournir la description des données d'entraînement, comment elles ont été obtenues, utilisées, labellisées, lister et indiquer comment se procurer celles issues d'un jeu public, même chose comment obtenir celles provenant d'un tiers.
En espérant que ça remette l'église au milieu du village sur le côté "open-mais-pas-trop" de nombreux modèles.