Connexion
Abonnez-vous

[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA

©🔫 🤖

[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA

En 20 ans d'Internet, de partage et de publication massive de contenus soumis au copyright, le discours public a évolué. Il est passé d'une condamnation totale des pratiques d'échanges entre utilisateurs pairs à pairs à une acceptation tacite de l'entrainement des IA génératives, parfois sur les mêmes masses de données, pourvu que les données ne soient pas nommément citées.

Le 28 octobre à 18h02

Entre la répression contre les figures symboliques du partage de fichiers sur Internet – Shawn Fanning, Aaron Swartz et Alexandra Elbakyan – et l’utilisation massive des bases de données d’œuvres protégées par le Copyright par les entreprises de l’IA générative, le discours public et politique a bifurqué. D’un tout répressif dont le point d’orgue en France a été la loi Hadopi, nous sommes passés au jet d’un voile pudique sur l’utilisation de données culturelles par les startups qui promettent d’être les prochaines licornes de l’IA.

De la fin des années 90 à celle des années 2010, les politiques du numérique ont notamment été portées par la volonté de protéger du piratage les contenus numériques comme les musiques, les films, mais aussi les livres et les articles scientifiques.

Il reste 86% de l'article à découvrir. Abonnez-vous pour ne rien manquer.

Déjà abonné ? Se connecter

Abonnez-vous

Le 28 octobre à 18h02

Commentaires (4)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar
Copyright : droit des pays de Common law (USA et pays du Commonwealth principalement) et cet édito parle d'HADOPI et autres spécificités françaises.

Dont le sujet, ici est le droit d'auteur et le Copyright qui sont "réunis" dans la Convention de Berne qui laisse aux pays la gestion des différences.

C'est important de parler des deux d'autant plus que le fair use des USA ou l'utilisation équitable des autres pays common law sont des exceptions plus larges que dans les pays de droit civil (exceptions énumérées par la loi). Si comme je le pense on ne va parler que d'IA plus loin, ça a son importance de savoir de quel droit on parle.
Un « Pas vu, pas pris » des temps modernes, en quelque sorte.

Pourquoi ceux qui entraîne leur IA sur des œuvres accessibles publiquement devraient-ils être pris ? Et dans quel pays ?

Dans l'UE, c'est clair, on a le droit d'entraîner des IA (fouille de textes et de données) sur des œuvres et donc de copier les œuvres le temps nécessaire pour cela.
Sans restriction pour les chercheurs et avec le droit de s'opposer à cela pour les détenteurs des droits pour les "non-chercheurs".
La seule chose, c'est que l'accès à l'œuvre doit être fait de manière licite. Un accès à une œuvre par torrent risque de ne pas l'être, par exemple.

Articles 3 et 4 de la directive 2019/790 du 17 avril 2019 sur le droit d'auteur et les droits voisins dans le marché unique numérique. On notera que cette directive est celle qui régit le droit d'auteur et non pas l'AI Act.
Je l'avais déjà expliqué ici et à nouveau assez récemment.

Nota : il serait intéressant de se renseigner pour savoir comment s'opposer. La directive dit :
de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne.


Ça reste vague et ça me semble impliquer le développement d'un standard.
Mais si juridiquement, les entreprises culturelles se défendent devant les tribunaux, la bataille ne semble plus se mener dans les ministères.


Cette phrase ne veut rien dire et semble s'appuyer sur la méconnaissance du sujet. Comme je le dis juste au dessus, dans l'UE, la loi existe et dans les pays où le Copyright existe, ce sont les tribunaux qui feront la jurisprudence (c'est comme ça que ça se passe). OpenAI s'appuie par exemple sur le fair use pour justifier son utilisation des œuvres, ils ont peut-être tort, mais pour l'instant personne n'en sait rien.
Encore une fois, ce sont les tribunaux qui trancheront.

En France, la CNIL publie des dossiers sur le sujet – par exemple, comment s’assurer que le traitement est licite (En cas de réutilisation des données, effectuer les tests et vérifications nécessaires) – en rappelant les grands principes.


Ceci ne concerne que le traitement des données personnelles pour l'entraînement des IA. La CNIL n'est pour le moment compétente que pour ce type de données (RGPD et loi du 6 janvier 1978), il est fort possible qu'elle soit l'autorité chargée de faire appliquer l'AI Act, mais ce n'est pas encore le cas.
Mais aucune sanction publique n’a pour le moment été rendue sur l’utilisation de données personnelles et/ou disponibles sur Internet sous copyright pour entraîner les intelligences artificielles.


Attention, il faut distinguer l'utilisation des données personnelles où des sanctions pourraient être prises en application du RGPD et celle des données disponibles sur Internet où là, c'est autorisé et donc pas punissable sauf si les titulaires des droits s'y étaient opposés ou si l'accès à l'œuvre est illicite.

Je sais que c'est un édito et donc, l'opinion de l'auteur apparaît clairement comme elle apparaissait tout aussi clairement dans ses articles sur le sujet. Il pense que les auteurs devraient être plus protégés, étant auteur lui-même, on peut comprendre ce point de vue.
Mais, ça serait bien malgré cela que son exposé s'appuie un peu plus sur la loi, les lois, j'aurais dû dire comme on a pu le voir, elles peuvent diverger ou ne pas exister. D'ailleurs si des divergences fortes apparaissent entre les USA ou autres pays de common law et l'UE, ça va être compliqué pour les sociétés qui bossent dans l'IA, sauf si ça leur permet au contraire de faire l'entraînement de leurs modèles dans les pays les plus permissifs. Je ne parle pas des autres, car je ne connais pas leur position.

Ce qui me dérange ici et dans les articles précédents, c'est une critique non argumentée juridiquement de l'utilisation des œuvres pour l'entraînement des IA.
votre avatar
Je trouvais l'argumentaire léger, mais tu y as répondu mieux que je ne l'aurais fait.

Aussi longtemps qu'il n'y aura pas eu de décision de justice, il est difficile de dire si les lois actuelles protègent suffisamment les auteurs. La comparaison avec l'envolée du piratage me semble hors de propos puis qu'à cette époque, le cadre légal manquait justement.
votre avatar
Il n'y a aucune violation de droits d'auteur dans l'entraînement des intelligences artificielles avec des documents protégés. Affirmer le contraire démontre une incompréhension fondamentale de ce qu'est une IA, particulièrement dans le cas des modèles de langage (LLM).

Le processus d'apprentissage d'une IA est comparable à celui d'un être humain. Personne ne contesterait le fait que des enfants apprennent à lire dans des livres ou étudient les mathématiques avec des manuels achetés dans le commerce.

Il est important de comprendre que le modèle ne stocke pas les données d'origine. Ce qui est conservé, ce sont uniquement les paramètres des réseaux de neurones après l'apprentissage, communément appelés "poids". Aucune donnée brute provenant des ensembles d'entraînement n'est conservée.

Pour faire une analogie, c'est similaire à notre propre apprentissage : lorsque nous écrivons, nous ne nous souvenons plus précisément dans quels livres nous avons appris chaque mot, ni même toutes les règles grammaticales que nous appliquons pourtant correctement.

En conclusion, il ne s'agit pas de pillage mais simplement d'une utilisation légitime des ressources à des fins d'apprentissage.

Cordialement,
votre avatar
Si j'écris une copie d'un livre existant en paraphrasant, en ajoutant des éléments et en en enlevant d'autres, ça reste une violation du droit d'auteur. Donc non, ce n'est pas similaire à notre propre apprentissage, car un être humain saura qu'il crée un copie alors qu'un LLM crache juste un résultat.

Un LLM n'a aucune notion de grammaire, d'orthographe ou quoi que ce soit d'autre, c'est uniquement un modèle probabiliste qui enchaîne des séquences de mots, séquences qu'il a bien entendu mémorisées en les copiant des données d'entrainement et qui a pour résultat que de temps en temps, il recrache des copies complètes de paragraphes.

[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA

  • En 2000, la machine à bannir d’Internet... mais censurée par le Conseil constitutionnel

  • Des projets non commerciaux aussi

  • Des procès contre OpenAI and co mais pas de nouvelle loi en perspective

  • « Pas vu, pas pris »… et si en plus on fermait les yeux ?

  • À nos (IA) Act manqués

Fermer