Connexion
Abonnez-vous

[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA

©🔫 🤖

[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA

En 20 ans d'Internet, de partage et de publication massive de contenus soumis au copyright, le discours public a évolué. Il est passé d'une condamnation totale des pratiques d'échanges entre utilisateurs pairs à pairs à une acceptation tacite de l'entrainement des IA génératives, parfois sur les mêmes masses de données, pourvu que les données ne soient pas nommément citées.

Le 28 octobre à 18h02

Entre la répression contre les figures symboliques du partage de fichiers sur Internet – Shawn Fanning, Aaron Swartz et Alexandra Elbakyan – et l’utilisation massive des bases de données d’œuvres protégées par le Copyright par les entreprises de l’IA générative, le discours public et politique a bifurqué. D’un tout répressif dont le point d’orgue en France a été la loi Hadopi, nous sommes passés au jet d’un voile pudique sur l’utilisation de données culturelles par les startups qui promettent d’être les prochaines licornes de l’IA.

De la fin des années 90 à celle des années 2010, les politiques du numérique ont notamment été portées par la volonté de protéger du piratage les contenus numériques comme les musiques, les films, mais aussi les livres et les articles scientifiques.

Il reste 86% de l'article à découvrir.

Déjà abonné ? Se connecter

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

Commentaires (18)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar
Copyright : droit des pays de Common law (USA et pays du Commonwealth principalement) et cet édito parle d'HADOPI et autres spécificités françaises.

Dont le sujet, ici est le droit d'auteur et le Copyright qui sont "réunis" dans la Convention de Berne qui laisse aux pays la gestion des différences.

C'est important de parler des deux d'autant plus que le fair use des USA ou l'utilisation équitable des autres pays common law sont des exceptions plus larges que dans les pays de droit civil (exceptions énumérées par la loi). Si comme je le pense on ne va parler que d'IA plus loin, ça a son importance de savoir de quel droit on parle.
Un « Pas vu, pas pris » des temps modernes, en quelque sorte.
Pourquoi ceux qui entraîne leur IA sur des œuvres accessibles publiquement devraient-ils être pris ? Et dans quel pays ?

Dans l'UE, c'est clair, on a le droit d'entraîner des IA (fouille de textes et de données) sur des œuvres et donc de copier les œuvres le temps nécessaire pour cela.
Sans restriction pour les chercheurs et avec le droit de s'opposer à cela pour les détenteurs des droits pour les "non-chercheurs".
La seule chose, c'est que l'accès à l'œuvre doit être fait de manière licite. Un accès à une œuvre par torrent risque de ne pas l'être, par exemple.

Articles 3 et 4 de la directive 2019/790 du 17 avril 2019 sur le droit d'auteur et les droits voisins dans le marché unique numérique. On notera que cette directive est celle qui régit le droit d'auteur et non pas l'AI Act.
Je l'avais déjà expliqué ici et à nouveau assez récemment.

Nota : il serait intéressant de se renseigner pour savoir comment s'opposer. La directive dit :
de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne.
Ça reste vague et ça me semble impliquer le développement d'un standard.
Mais si juridiquement, les entreprises culturelles se défendent devant les tribunaux, la bataille ne semble plus se mener dans les ministères.
Cette phrase ne veut rien dire et semble s'appuyer sur la méconnaissance du sujet. Comme je le dis juste au dessus, dans l'UE, la loi existe et dans les pays où le Copyright existe, ce sont les tribunaux qui feront la jurisprudence (c'est comme ça que ça se passe). OpenAI s'appuie par exemple sur le fair use pour justifier son utilisation des œuvres, ils ont peut-être tort, mais pour l'instant personne n'en sait rien.
Encore une fois, ce sont les tribunaux qui trancheront.

En France, la CNIL publie des dossiers sur le sujet – par exemple, comment s’assurer que le traitement est licite (En cas de réutilisation des données, effectuer les tests et vérifications nécessaires) – en rappelant les grands principes.
Ceci ne concerne que le traitement des données personnelles pour l'entraînement des IA. La CNIL n'est pour le moment compétente que pour ce type de données (RGPD et loi du 6 janvier 1978), il est fort possible qu'elle soit l'autorité chargée de faire appliquer l'AI Act, mais ce n'est pas encore le cas.
Mais aucune sanction publique n’a pour le moment été rendue sur l’utilisation de données personnelles et/ou disponibles sur Internet sous copyright pour entraîner les intelligences artificielles.
Attention, il faut distinguer l'utilisation des données personnelles où des sanctions pourraient être prises en application du RGPD et celle des données disponibles sur Internet où là, c'est autorisé et donc pas punissable sauf si les titulaires des droits s'y étaient opposés ou si l'accès à l'œuvre est illicite.

Je sais que c'est un édito et donc, l'opinion de l'auteur apparaît clairement comme elle apparaissait tout aussi clairement dans ses articles sur le sujet. Il pense que les auteurs devraient être plus protégés, étant auteur lui-même, on peut comprendre ce point de vue.
Mais, ça serait bien malgré cela que son exposé s'appuie un peu plus sur la loi, les lois, j'aurais dû dire comme on a pu le voir, elles peuvent diverger ou ne pas exister. D'ailleurs si des divergences fortes apparaissent entre les USA ou autres pays de common law et l'UE, ça va être compliqué pour les sociétés qui bossent dans l'IA, sauf si ça leur permet au contraire de faire l'entraînement de leurs modèles dans les pays les plus permissifs. Je ne parle pas des autres, car je ne connais pas leur position.

Ce qui me dérange ici et dans les articles précédents, c'est une critique non argumentée juridiquement de l'utilisation des œuvres pour l'entraînement des IA.
votre avatar
Je trouvais l'argumentaire léger, mais tu y as répondu mieux que je ne l'aurais fait.

Aussi longtemps qu'il n'y aura pas eu de décision de justice, il est difficile de dire si les lois actuelles protègent suffisamment les auteurs. La comparaison avec l'envolée du piratage me semble hors de propos puis qu'à cette époque, le cadre légal manquait justement.
votre avatar
J'ai ouvert un éditeur de texte pour répondre point par point au fur et à mesure que je lisais. Sinon, si je rédige le commentaire après, j'oublie des trucs.

J'ai bien entendu complété mes notes prises au fil de l'eau.

Sur ton dernier point, je ne suis pas sûr que le cadre légal manquait pour le piratage. Les lois sur le droit d'auteur sont anciennes et le fait que la contrefaçon soit faite en ligne ne change rien. On a enrichi la loi pour le piratage, mais elle existait.
Et pour moi, c'est pour cela que la comparaison est mauvaise : pour le piratage, c'était interdit et pour l'entraînement des IA, c'est soit autorisé par défaut (UE) soit pas encore jugé (common law).
votre avatar
Sur le plan interdiction, le cadre ne manquait pas pour le piratage, oui (contrefaçon). C'est plutôt sur la surveillance et le temps de réponse que la législation a évolué, car le délit était passé à une toute autre échelle.

Dans les faits, ça n'a pas changé grand chose et l'automatisation du piratage est même arrivée à un niveau tel qu'aller sur un tracker pour chopper un torrent donne l'impression de tailler un silex. On créé sa liste d'envie et l'outil part chercher tout seul le fichier selon les critères demandés, il importe dans la bibliothèque multimédia, renomme, tagge, et c'est du prêt à l'emploi.
votre avatar
Il n'y a aucune violation de droits d'auteur dans l'entraînement des intelligences artificielles avec des documents protégés. Affirmer le contraire démontre une incompréhension fondamentale de ce qu'est une IA, particulièrement dans le cas des modèles de langage (LLM).

Le processus d'apprentissage d'une IA est comparable à celui d'un être humain. Personne ne contesterait le fait que des enfants apprennent à lire dans des livres ou étudient les mathématiques avec des manuels achetés dans le commerce.

Il est important de comprendre que le modèle ne stocke pas les données d'origine. Ce qui est conservé, ce sont uniquement les paramètres des réseaux de neurones après l'apprentissage, communément appelés "poids". Aucune donnée brute provenant des ensembles d'entraînement n'est conservée.

Pour faire une analogie, c'est similaire à notre propre apprentissage : lorsque nous écrivons, nous ne nous souvenons plus précisément dans quels livres nous avons appris chaque mot, ni même toutes les règles grammaticales que nous appliquons pourtant correctement.

En conclusion, il ne s'agit pas de pillage mais simplement d'une utilisation légitime des ressources à des fins d'apprentissage.

Cordialement,
votre avatar
Si j'écris une copie d'un livre existant en paraphrasant, en ajoutant des éléments et en en enlevant d'autres, ça reste une violation du droit d'auteur. Donc non, ce n'est pas similaire à notre propre apprentissage, car un être humain saura qu'il crée un copie alors qu'un LLM crache juste un résultat.

Un LLM n'a aucune notion de grammaire, d'orthographe ou quoi que ce soit d'autre, c'est uniquement un modèle probabiliste qui enchaîne des séquences de mots, séquences qu'il a bien entendu mémorisées en les copiant des données d'entrainement et qui a pour résultat que de temps en temps, il recrache des copies complètes de paragraphes.
votre avatar
Si j'écris une copie d'un livre existant en paraphrasant, en ajoutant des éléments et en en enlevant d'autres, ça reste une violation du droit d'auteur.
Je ne serais pas aussi tranché. La notion entre plagiat et inspiration reste à l'appréciation d'un tribunal dans le cas du droit d'auteur français (et US aussi, avec le cas par exemple de Ed Sheeran accusé de plagiat où il a démontré la différence entre les accords). Si tu modifies suffisamment le matériel d'origine, il est possible que ça devienne une oeuvre originale. Par contre, si tu gardes des éléments spécifiques (des personnages, des lieux propres au récit d'origine, ce qui caractérise son univers, etc) là ça peut être une contrefaçon. Tout comme le droit de citation n'est pas un plagiat du moment qu'il reste court, qu'il est entre guillemets, que l'auteur est mentionné et qu'il ne prive pas l'oeuvre originale de son intérêt à être lue.

Remarque, c'est déjà le cas avec le sujet épineux de la fan fiction où, en principe, on doit demander d'autorisation de l'auteur ou des ayants-droits puisque c'est couvert par les droits moraux. Je pense que c'est plutôt rare dans la réalité.

Même chose pour la parodie où en respectant les règles, on peut s'inspirer d'une oeuvre existante tout en créant une originale.
votre avatar
Sauf qu'un être humain n'est pas un LLM.
Ça n'a pas les mêmes droits, les mêmes utilisations, les mêmes commercialisations, ça ne se duplique ni se partage de la même manière, etc. : bref, cette comparaison n'a aucun sens.

Ensuite, un humain qui contrefait (peu importe le procédé) un peu trop fidèlement une œuvre culturelle protégée est attaquable devant les tribunaux. Au nom de quoi est-ce que les créateurs d'une machine qui feraient la même chose en seraient exemptés ?
votre avatar
Navré mais tu te trompes sur plusieurs points.
- Les règles de propriété des sites Internet n'a jamais autorisé l'usage des ressources pour l'entrainement des IA (LLM/Machine Learning/réseaux de neurone).
D'autant que ces outils sont construits à des fins clairement commerciales et donc rentrent en opposition avec plusieurs des règles (interdiction à des fins commerciales)

- La problématique n'est pas sur la donnée brute mais la (simili-)connaissance associée.

Situation/Exemple : Une personne (morale ou physique) publie un livre qui donne plusieurs techniques pour gagner de l'argent.
Le seul moyen d'accéder à cette connaissance est de lire le livre, donc soit de l'acheter soit de l'emprunter. Les droits d'auteurs s'appliquent et fournissent une (in)juste rémunération à l'auteur.

L'IA passe par là. Elle apprend le livre et est maintenant capable de donner des ~techniques pour gagner de l'argent, de la même façon. (Elles ne sont que statistiquement proches mais suffisamment proches pour donner l'illusion voire tomber juste).
Les personnes se servent de l'IA pour accéder à ces savoirs=> La personne ayant créé ces techniques n'est plus rémunérée.

C'est aussi valable pour les images, générable à foison sur la base créative d'artistes qui ne seront jamais rémunérés et qui ont globalement perdu un moyen de se rémunérer (qui payerait un artiste alors qu'une IA fait "la même chose" en 1 minute?).

- Et enfin, le droit d'auteur est plus complexe que simplement la donnée brute.
votre avatar
Navré mais tu te trompes sur plusieurs points.
En droit, tout ce qui n'est pas interdit est autorisé. Donc, faute d'interdiction l'utilisation des sites internets pour l'entraînement d'IA, serait plutôt autorisée.

Comme je l'ai expliqué dans mon premier commentaire, dans l'UE, le droit dit cela explicitement : sans interdiction par les détenteurs des droits, on peut entraîner une IA avec du contenu accédé légalement.
Aux USA, où le droit s'établit différemment, pour l'instant, on n'en sait rien. Il faut des jugements pour que le droit sur cette activité nouvelle se construise.
Donc pour ton premier point, dans l'UE, on sait qu'entraîner des IA sur des œuvres est autorisé par défaut. Aux USA et autres pays de common law, il faut que ce droit s'établisse, mais aujourd'hui personne ne peut dire ce qu'il sera.

Sur ton second point, puisqu'ici on parle de droit d'auteur ou de Copyright, on ne parle pas de connaissance écrite dans une œuvre. En fait, ce que tu appelles connaissance est plutôt une ou des idée(s) et les idées ne sont pas protégées, pas plus que la connaissance : on protège une œuvre (droit d'auteur) ou une réalisation (brevet) mais pas une idée qui ne se brevette pas.
Si quelqu'un lit le livre avec ces idées pour gagner de l'argent et ensuite fait des vidéos ou des cours, il n'enfreint aucune loi de protection du droit d'auteur et l'auteur d'origine ne gagnera pas non plus d'argent. Cet argument n'est donc pas valable.

Quant au fait que les artistes qui créent des images risquent de ne plus gagner leur vie, ça se passe comme ça pour plein d'autres métiers dont certains ont disparu. Ce n'est pas non plus un argument légal contre l'entraînement des IA sur des œuvres.

Ton troisième point n'est pas du tout développé, mais tel quel, ce n'est pas non plus un argument.
votre avatar
Pas complètement d'accord même si je suis d'accord que légalement il y a un certain flou juridique.
Après, effectivement, je ne voulais pas rentrer dans une argumentation longue.

Tu as des licences sur les médias (Common Media par exemple) qui définit les mécanismes de réutilisation des médias et qui oblige à identifier l'attribution de ces données/médias à l'auteur.
C'est donc bien une contrainte et une interdiction d'usage.

creativecommons.org Creative Commons

Avec le mécanisme d'apprentissage des LLM, on tombe dans cette interdiction.
C'est donc censé être interdit.

Pour mon deuxième et troisième point, on entre dans la notion de l'esprit de la loi :
une IA est capable de recréer une presque-copie d'une source existante.

J'ai vu de nombreuses reprises des tableaux de maitre qui en sont très proches, générés par IA.
Cela veut dire que l'IA peut recréer le tableau de maitre de façon suffisamment proche pour en créer une copie.

Si une IA peut recréer une quasi-copie à la demande d'un livre, d'une image ou d'une source peu importe la source, elle enfreint (à minima l'esprit de) la loi sur le droit d'auteur.
Maintenant, la loi sur le droit d'auteur est sans doute mal écrite car elle ne prévoyait pas encore ce genre d'usage.
votre avatar
La position de Creative Commons n'est pas aussi tranchée et ils considéraient en 2023 que l'entraînement rentrait généralement dans le fair-use. Depuis, ils ont lancé des travaux sur l'étude de signaux pour que l'auteur puisse transcrire sa volonté de manière plus précise au sujet de l'usage de son oeuvre dans ce domaine.
Maintenant, la loi sur le droit d'auteur est sans doute mal écrite car elle ne prévoyait pas encore ce genre d'usage.
Une copie presque à l'identique peut être condamnée pour contrefaçon. Le droit d'auteur n'a pas spécialement besoin d'être changé dans le cadre français. Cela reste in fine à l'appréciation d'un juge.
votre avatar
Pas complètement d'accord même si je suis d'accord que légalement il y a un certain flou juridique.
Où est le flou juridique dans l'UE ?
Tu as des licences sur les médias (Common Media par exemple) qui définit les mécanismes de réutilisation des médias et qui oblige à identifier l'attribution de ces données/médias à l'auteur.
C'est donc bien une contrainte et une interdiction d'usage.


Non. Ce n'est pas une interdiction d'entraînement des IA.

L'entraînement de IA ne correspond à aucune des actions :
distribute, remix, adapt, and build.
Et même le ND ( No derivatives or adaptations of the work are permitted.) n'interdit pas l'entraînement des IA. Ce qui résulte de cet entraînement n'est pas un travail dérivé ni un adaptation du travail initial.
J'ai vu de nombreuses reprises des tableaux de maitre qui en sont très proches, générés par IA.
Faire des copies de tableaux de maîtres n'est pas interdit. Il y a quelques restrictions sur la taille du tableau qui doit être différente et sur l'interdiction de le signer avec la signature de l'original. Je parle là de vrais tableaux sur de la toile, alors, quand la copie n'est qu'approximative et en plus numérique, même ces restrictions n'existent pas.
Si une IA peut recréer une quasi-copie à la demande d'un livre, d'une image ou d'une source peu importe la source, elle enfreint (à minima l'esprit de) la loi sur le droit d'auteur.
On nous a parlé ici de cas où des articles de journaux ont été restitués presque à l'identique. C'est effectivement dans ce cas de la violation de droit d'auteur, mais cela tenait plus du bug qu'autre chose : le texte en question était présent sur de nombreux sites et avait donc été utilisé de nombreuses fois comme source d'entraînement, ce qui fait qu'il avait été quasiment mémorisé (cela faussait des statistiques d'apparition des mots composant ce texte). OpenAI qui a eu ce problème filtre maintenant en amont de l'apprentissage ce genre de cas ce qui évitera qu'il se reproduise.
Maintenant, la loi sur le droit d'auteur est sans doute mal écrite car elle ne prévoyait pas encore ce genre d'usage.
Les lois les mieux écrites sont celles qui durent très longtemps quelle que soient les technologies inventées après. Les articles du premier Code Civil qui subsistent aujourd'hui sont des exemples remarquables de lois bien faites. Ils sont concis et sans ambiguïté.

La loi (directive) sur le droit d'auteur de l'UE a été modifiée en 2019 pour définir les usages des œuvres pour l'entraînement des IA.
Cela contredit ton affirmation.
Pour les USA et les autres pays de Common law, j'ai déjà expliqué le processus.
votre avatar
1/ Tu as compris la comparaison avec le tableau de maitre.
2/ c'est sur ce point que l'on est pas d'accord "remix, adapt".
tu le dis toi-même
"C'est donc bien une contrainte et une interdiction d'usage."
Il est interdit de "remix" ces données sans en respecter certaines contraintes.

Pour moi c'est évident qu'une IA tombe dans ce cas de "remix,adapt".

Un LLM, c'est un moteur mathématique qui s'appuie sur un réseau de neurone pour restructurer l'ensemble des mots écrits dans tous les articles donnés en entrée en ensembles de vecteurs de donnée avec un poids statistique.

C'est exactement une représentation structurelle différente (remixée) des mots des articles.

Cela lui permet ensuite de déduire statistiquement une suite de mots.
Il ne ressort ni plus ni moins que la tendance générale des réponses à une demande.

Quand tu dis qu'un article d'entrée est restitué est un bug, non.
C'est qu'il a été repris mot de pour mot une quantité de fois suffisamment importante dans les données d'entrainement pour que statistiquement il ressorte à la demande spécifique.

Un entrainement sur un jeu de données insuffisant crée ce genre d'artifacts par exemple.
Et il va te ressortir quasi exactement les données en entrée (article, livre, ...)

Ce qui est beau c'est que la modification de 2019 pour autoriser l'usage des plateformes IA dont tu parles me prouves que j'ai partiellement raison :

"Selon les résultats de recherche, la directive 2019/790 de l’Union européenne a introduit des modifications importantes relatives aux usages des œuvres pour l’entraînement des IA.

La directive permet la reproduction et l’extraction d’œuvres aux fins de la fouille des textes et de données, sous réserve que l’utilisation des œuvres n’ait pas été expressément réservée par leurs titulaires de droits par un système d’« opt-out ». Cela signifie que les plateformes d’IA peuvent utiliser des œuvres pour l’entraînement de leurs modèles, mais uniquement si les titulaires de droits n’ont pas spécifiquement refusé cette utilisation."

Les LLM actuellement disponible (chatGpt, Gemini, Claude, ...) ne respectent pas ces clauses.

J'apprécie aussi le foutage de gueule global puisque
1/ ça reste à la charge de la société victime de démontrer qu'elle le serait.
Or personne n'a accès aux jeux de données de ces sociétés d'IA.
2/ j'imagine que ça n'est pas rétroactif et que les OpenAI et consort pourront dire "Ah mais on a pompé les données avant, donc trop tard".

Enfin bref,
tu as l'air d'être porté sur le juridique, moi pas.
tu as l'air moins porté sur la technique, dommage pour le biais.

Chacun son point de vue.
votre avatar
Je suis autant porté sur le technique que le juridique. Je suis ingénieur de formation, donc plus porté par la technique.
J'ai très bien compris ce que faisaient les LMM Et non, ce n'est pas du remix. Le résultat de l'apprentissage des IA n'est pas un œuvre, tu as même décrit ce que c'était. Et ensuite un LMM ressort un résultat statistique sur un très grand nombre d'œuvres, ce résultat n'est pas inspiré de certaines œuvres identifiables.
Un bon exemple de remix est ce qui se pratique dans la musique : on intègre des bouts de musique provenant de diverses œuvre pour en faire une autre.
Quand je parlas de bug, c'était de bug de conception de la chaîne de traitement. Sans filtre pour supprimer les textes identiques en entrée, on fausse les statistiques et donc les modèles.
Les LLM actuellement disponible (chatGpt, Gemini, Claude, ...) ne respectent pas ces clauses.
Leur apprentissage étant a priori fait aux USA, ils n'ont pas à respecter les règles de l'UE.

En plus, comme je le disais dans mon premier commentaire, je ne suis pas sûr que les standards techniques pour exprimer ces clauses afin que les machines puissent les lire soient établis.

Quant à la preuve à apporter par la victime, c'est le cas dans toute procédure civile, pas juste ici.
votre avatar
@jobpilot Un humain fonctionne par heuristique. Il découvre des trucs et apprend en reproduisant quelque chose qui fonctionne.
Une machine a besoin d'une quantité astronomique de données pour avoir une chance de reproduire quelque chose d'utile.

Un robot va mettre un ballon de basket dans le panier parce qu'il a calculé précisément la trajectoire. Un humain va évaluer comment faire à partir de ce qu'il a déjà vu et fait, il va inventer une trajectoire qui sera la bonne si son intuition a été bonne. Un robot, à ce jour, n'a jamais rien inventé.
votre avatar
En effet, la violation n'a pas lieu lors de l'apprentissage, mais lors de la restitution.
Tu peux essayer avec ChatGPT : il est capable de réciter tel quel de longs fragments, en texte intégral, d'oeuvres faisant partie de son apprentissage.
votre avatar
Vous en parliez il y a quelques temps car c'était encore en draft, mais ça y est, l'OSI a délivré sa première version de la définition l'IA open source.

Sans surprise, elle intègre une obligation fournir la description des données d'entraînement, comment elles ont été obtenues, utilisées, labellisées, lister et indiquer comment se procurer celles issues d'un jeu public, même chose comment obtenir celles provenant d'un tiers.

En espérant que ça remette l'église au milieu du village sur le côté "open-mais-pas-trop" de nombreux modèles.

[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA

  • En 2000, la machine à bannir d’Internet... mais censurée par le Conseil constitutionnel

  • Des projets non commerciaux aussi

  • Des procès contre OpenAI and co mais pas de nouvelle loi en perspective

  • « Pas vu, pas pris »… et si en plus on fermait les yeux ?

  • À nos (IA) Act manqués

Fermer