Le débat sur l’IA générative et le respect du droit d’auteur refait surface en France

Alina Constantin / Better Images of AI / Handmade A.I / CC-BY 4.0

Martin Clavey

Le 12 décembre 2024 à 09h03

En cette fin d’année 2024 et deux ans après la sortie de ChatGPT, le débat sur le respect du droit d’auteur au sein des IA génératives émerge de nouveau avec la publication de deux rapports. L’un, du lobby France Digitale, préconise de faire reposer le respect de l’opt-out sur les ayants droit. L’autre est une étude de la Direction générale du Trésor.

Le débat sur l’IA générative et le respect du droit d’auteur refait surface en France

Alina Constantin / Better Images of AI / Handmade A.I / CC-BY 4.0

Martin Clavey

Le 12 décembre 2024 à 09h03

IA et algorithmes

6 min

En ce mois de décembre, le lobby France Digitale – dans lequel des entreprises comme BlaBlaCar, Make.org ou encore la société d’investissement Eurazeo sont représentées – vient de sortir un rapport sur l’IA générative et le droit d’auteur.

Cette association d’entreprises du numérique explique se poser des questions comme « peut-on nourrir des IA génératives par des contenus protégés par le droit d’auteur ? » ou encore « est-il possible de trouver un terrain d’entente entre ayants droit et concepteurs de modèles d’IA ? ».

L’opt-out, un encombrant système pour France Digitale

Mais dans ce document [PDF], France Digitale fait plus que se poser des questions. Le lobby propose de modifier la loi pour l’adapter aux pratiques de l’industrie de l’IA générative.

Pour France Digitale, « ce nouveau cadre juridique devrait » intégrer « la légalisation des opérations de TDM [text and data mining] sur le web, sans possibilité d’opt-out ».

Ce lobby français veut que les entreprises du numérique ne rencontrent pas d’obstacle dans leur fouille massive du web. Or, comme nous l’expliquions en 2022, une directive européenne adoptée en Europe en 2019 et transposée France en 2021 instaure deux dispositifs en faveur de la fouille de textes et de données.

Si tout un chacun a le droit de faire du TDM en fouillant le web, il doit respecter une condition d’opt-out pour les titulaires de droits d’auteur. Cet opt-out n’est par contre pas possible si la fouille est effectuée à des fins de recherche exclusivement.

Jusqu’à la fin 2022 et l’arrivée de ChatGPT, peu d’entreprises utilisaient ce droit pour des raisons commerciales. La recherche mondiale et la R&D américaine ont montré depuis la voie d’une utilisation massive du TDM pour l’entrainement des IA génératives.

Et comme le dit lui-même le lobby dans son document, « avant l’apparition du débat autour de l’IA générative, l’exception de TDM était largement acceptée par les ayants droits, permettant aux modèles d’IA traditionnels de s’entraîner librement sur les données du web ». Mais depuis, ceux-ci « ont réagi en réservant massivement leurs droits pour exclure leurs oeuvres du scraping ». France Digitale milite donc pour que les entreprises qu’il représente puissent fouiller sans entrave.

Revoilà une nouvelle compensation, mais à la sauce startups de l’IA

Mais pour faire passer la pilule aux sociétés d’ayants droits, le lobby propose la « création d’une nouvelle compensation forfaitaire des ayants droits par les fournisseurs de modèles d’IA générative, sur le modèle de la compensation pour copie privée ».

« Les fournisseurs de modèles d’IA à usage général, qu’ils soient basés en Europe ou à l’étranger, seraient tenus de verser une compensation lorsqu’ils mettent leur modèle à disposition en Europe, en contrepartie de la liberté de scraper le web », propose France Digitale qui oublie un peu rapidement que les sociétés d’ayants droit sont loin de représenter tous les auteurs de contenus publiés sur le web.

Enfin, France Digitale propose de faire une « différentiation entre l’IA générative et des autres modèles d’IA dans les débats sur le partage de valeur ». En clair, le lobby veut que les IA entrainées sur des contenus scrapés mais qui n’ont pas de risque de les régurgiter ne soient pas inquiétées par la législation.

Le Trésor cherche un « équilibre » sur la transparence des IA génératives

Un autre rapport a été publié en ce début de mois par la Direction générale du Trésor. Celui-ci analyse la structure de la chaîne de valeur de l’intelligence artificielle. Si ses 12 pages brossent le sujet de façon assez complète, son premier encadré a fait réagir Pascal Rogard.

« C’est une honte cette note du Trésor à Bercy qui pour favoriser les milliardaires de la Tech au détriment de la création culturelle explique que « la transparence est susceptible de nuire au développement des fournisseurs de système d’IA » a écrit le toujours directeur général de la SACD.

Bercy pose, dans cet encadré de son rapport [PDF], la question : « Quel équilibre entre accès aux données d’IA et protection de la propriété intellectuelle ? ». Le texte explique ensuite que « l’utilisation de données culturelles pour l’entraînement des modèles de fondation pose des questions importantes de respect du droit d’auteur » et rappelle, lui aussi, l’état actuel de l’encadrement de la fouille de textes et de données en Europe. Il ajoute que l’opt-out « doit permettre aux ayants droit de recouvrer une capacité de négociation ».

Bercy y rappelle aussi que l’AI Act européen prévoit une obligation de transparence s’agissant des sources d’entraînement des systèmes d’IA. Mais effectivement, le rapport s’appuie sur le fait que « les données constituent un élément de différenciation important pour les fournisseurs de systèmes d’IA » pour affirmer que « cette transparence est susceptible de nuire à leur développement ». Le Trésor affirme en conclusion que « la mise en œuvre de l’obligation de transparence de l’AI Act devra par conséquent trouver un équilibre entre les coûts pour les fournisseurs de modèles d’IA et la protection des ayants droit ».

La prise de position très vive de Pascal Rogard a déclenché une cascade de réponses. La ministre de la Culture démissionnaire, Rachida Dati, a abondé dans son sens en affirmant que « ceux qui opposent la transparence et le développement de l’IA n’ont rien compris. C’est au contraire en garantissant les droits des créateurs que nous offrirons aux IA l’accès à des contenus authentiques, qui sont la clé pour se différencier ».

Sa collègue et secrétaire d’État démissionnaire chargée de l’Intelligence Artificielle et du Numérique, Clara Chappaz, semble, elle, essayer d’éteindre le feu : « l’IA peut et doit être une chance pour les créateurs. Accompagnons, organisons et garantissons les conditions de notre réussite ! »

Commentaires (19)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

brupala Premium

Modifié le 12/12/2024 à 12h50

propriété intellectuelle == escroquerie

FrancoisA

Modifié le 12/12/2024 à 10h33

Selon Pierre-Joseph Proudhon, "la propriété c'est le vol".

Wikipedia!

cyp Premium

Le 12/12/2024 à 10h59

Moi je trouve que la proposition va plutôt dans le bon sens!
Faut juste travailler encore la compensation. Genre une obligation d'open sourcer les modèles et l'ensemble des outils mis en œuvre pour leur création et la gratuité d'usage pour toutes les créateurs des contenues exploité serait un bon début... ça ne devrait pas poser de souci à France Digitale puisqu'il semble avoir une vision très progressiste ;-p

Timanu69

Le 12/12/2024 à 10h51

La digitale est inconnue de la médecine de l'Antiquité méditerranéenne. Il est possible que la plante ait été distinguée dès le VIe siècle en Europe du nord, en faisant partie d'une médecine populaire d'origine celtique. Son utilisation est attestée à partir du XIIe siècle sous les termes anglais foxglove « gant de renard », et allemand Fuchskraut « herbe au renard » puis Fingerhut « dé à coudre »

ZeMeilleur

Le 12/12/2024 à 14h26

Meuh non, tu comprends rien.
De nos jours, digitale se réfère aussi aux doigts et pas seulement à la plante.

Aussi, France Digitale représente les artisans et les travaux manuels, j'ai bon ?

stantor

Le 12/12/2024 à 12h09

Et après les utilisateurs d'IA se plaignent que l'on "empoisonne" nos données, que nous reste il à nous créateurs ? Si je peux bien faire chier le scrap, je ne vais pas me gêner car je ne verrais jamais un centime de mes images scrappées.

fred42 Premium

Le 12/12/2024 à 12h56

La directive de l'UE sur le droit d'auteur et le code de propriété intellectuelle français qui la transpose te permettent de t'opposer au scrapping à des fin autres que la recherche. Quel est donc ton problème ?

Arkeen Premium

Le 12/12/2024 à 14h32

J'imagine que c'est le problème c'est l'absence de vérification et de transparence. Quelle garantie du respect de cette opposition par les scrapper ? Quels moyens pour vérifier si les créateurs de LLM ont utilisés des données qu'ils n'aurait pas dû dans leurs modèles ?

Sans ça, les créateurs de LLM ont un boulevard d'impunité devant eux.

Citan

Le 12/12/2024 à 15h56

C'est ça. Entre l'esprit du droit, l'écriture du droit et sa pratique il y a plusieurs mondes.
Une interdiction d'user d'oeuvres sans consentement est totalement inutile s'il n'y a pas moyen de contrôler correctement et si sa violation n'est pas assortie d'amendes réellement dissuasives (genre pourcentage du chiffres d'affaires jusqu'à 20% en fonction de la gravité).

stantor

Le 12/12/2024 à 17h11

Mon problème c'est que je vais sur un moteur de recherche bien connus pour voir si mes illustrations ont étés pompés (elles le sont) et tu te doute bien que je n'ai pas donné mon autorisation pour que les model de LLM soit entrainés sur mes trucs. Tu imagine bien que les recours sont impossibles pour un artiste indépendant et même pour les autres.

fred42 Premium

Le 12/12/2024 à 18h04

tu te doute bien que je n'ai pas donné mon autorisation pour que les model de LLM soit entrainés sur mes trucs

Ce n'est pas comme cela que ça marche. C'est expliqué dans l'article. Dans l'UE, ils n'ont pas besoin de ton accord. La directives sur la protection de la propriété intellectuelle le dit : il faut s'opposer à l'utilisation.

As-tu exprimé ton opposition à l'entraînement comme précisé dans les lois de l'UE et française ? Si comme je le pense la réponse est négative, tu ne peux effectivement pas faire de recours.
Sinon, tu portes plainte seul ou mieux avec d'autres qui sont dans ce cas. C'est simple.

stantor

Modifié le 14/12/2024 à 18h22

Par defaut ce ne devrait pas être au créateur de s'opposer à l'utilisation de ses oeuvres mais bien à la personne qui les utilisent de demander l'autorisation. C'est bien pour ça qu'existe des licences d'utilisations.

Les premières bases de données ont étées construites avec des images collectées bien avant que les artistes soit au courant de quoi que se soit, donc comment voulais tu qu'il y ai une opposition de notre part ?

S'y opposer, c'est une blague. Tu peux gérer le bazar sur ton propre site, mais tu te doute bien que la plupart des artistes publient sur des plateformes et réseaux sociaux pour promouvoir leur oeuvre. Sur Artstation par exemple c'est à l'utilisateur d'ajouter un tag "NoAi" sur ses images, j'ai ajouté des tags et autres et cela n'a pas empêché certaines de mes images d'être récup. C'est pour cela que dans mon premier message j’appuyais le fait qu'il ne reste finalement aux créateurs que empoisonnement des base.

fred42 Premium

Le 14/12/2024 à 18h48

Pourquoi répondrais-je à tes questions alors que tu ne réponds pas à la mienne ?

La loi dit qu'à partir du moment où l'œuvre est accédée de façon licite, on peut l'utiliser sauf si celui qui a les droits dessus s'y oppose.
Et c'est assez logique : l'auteur l'a rendu disponible et dans ce cas, les règles habituelles de la propriété intellectuelle disent que tout le monde a le droit d'accéder à l'œuvre. Je parle ici des œuvres disponibles en ligne. Le législateur dans sa grande bonté a en plus donné le droit de s'opposer au scrapping.
Si la loi ne te plaît pas, exprime le auprès législateurs de l'UE et de la France. Les lobbies divers des auteurs sont suffisamment puissants et écoutés pour avoir fait passer plein de lois en leur faveur.
Une bonne façon de protéger l'œuvre, c'est de ne pas la laisser accessible en ligne sans barrière d'accès. Mais bon, ça doit être moins facile de la vendre dans ce cas.

Vu la vitesse à laquelle les nouveaux modèles sont faits, les anciens modèles fabriqués avant la directive et ses transpositions nationales ne doivent plus beaucoup être utilisés.
La directive existe depuis 2019, ça fait 5 ans. Mais comme d'habitude, personne ne fait attention à ses retombées et après , tout le monde se plaint au lieu d'agir en mettant en place des moyens d'opposition à l'usage des œuvres si l'auteur ne le veut pas. Les organismes de protection des droits d'auteurs ou autres droits de propriété intellectuelle et autres syndicats de créateurs auraient pourtant dû faire attention à cette nouvelle directive qui les concernait directement. Si tu veux te plaindre, vraiment, fais le auprès d'eux, mais ici où justement on t'informe de tes droits.

Par contre, si effectivement, tes images sont récupérées pour entraîner de l'IA malgré ton opposition, il ne te reste qu'à porter plainte. Il suffit d'avoir 2 preuves : ton opposition et celle de l'utilisation de ton image.

SebGF Premium

Le 12/12/2024 à 13h27

Le syndicat national de l'édition propose des moyens pour manifester l'opt-out dans ses oeuvres.

Que ce soit par condition général du site, mais aussi des metadonnées sur les publications.

Aqua Premium

Le 12/12/2024 à 17h27

OpenAI a démontré et même dit publiquement qu'ils se foutaient de ça. "si on peut pas tout absorber gratos alors on peut pas faire de thune avec, ça sert à rien" (je paraphrase à peine).

Leur pratique (tout absorber, on verra après) prouve leur absence complète de respect pour l'état de droit.

SebGF Premium

Le 12/12/2024 à 17h50

Certes.

Mais il existe à minima un outil pour déclarer que l'auteur refuse que ses contenus soient utilisés pour du data mining. C'est déjà une première chose à faire pour ouvrir la voie à un recours.

Pour rappel, il y a eu un premier précédent de décision de justice dans l'UE concernant la directive DANUM en octobre dernier. Il s'agissait d'une plainte lancée par un photographe allemand contre LAION qui avait voulu faire retirer ses clichés du dataset de LAION.

Dans le cas présent, la justice allemande a tranché en faveur de LAION, car l'organisation coche les cases de la collecte à titre de recherche et sans but commercial. Ce qui est une des exceptions couvertes par la directive 2020/719.

Si à l'échelle individuelle les possibilités de recours risquent d'être difficile, en collectif il peut y avoir un espoir.

Aqua Premium

Modifié le 12/12/2024 à 17h26

Je propose qu'on ressorte hadopi avec les mêmes critères, pris 3x sur le fait et hop plus de connexion internet. (pour OpenAI, Claude, et les autres monstres sans tête).

Mieux...on déconnecte à la prise électrique, comme ça en plus on aide la planète.

Maintenant encore mieux, on ressort les peines prévues dans le droit avant hadopi pour les téléchargement illégaux. Quand y avait Napster, eMule etc... et que les peines théoriques étaient de centaines d'euros par chanson téléchargée. et encore les peines aux US ça faisait moins rigoler.

... enfin relisons encore ce magnifique article de ploum : quand Aaron Schwartz téléchargeait des articles scientifiques payés par l'argent publique, il le faisait pour le partage de la connaissance, pour le bien commun, donc il se fait harceler et pousser au suicide. Quand Altman fait pareil à l'échelle x100000, comme il fait ça pour faire de la thune alors c'est acceptable.

fred42 Premium

Le 12/12/2024 à 18h11

Qu'est-ce que tu ne comprends pas dans l'article qui dit que dans l'UE, il est autorisé d'utiliser les œuvres accédées légalement sauf opposition exprimée ?
Aux détenteurs des droits de s'organiser pour faire connaître la loi de l'UE et de mettre en place des outils pour exprimer son refus, comme celui cité par SebGF.

Petit rappel, pour la loi Hadopi, le Conseil Constitutionnel a supprimé la sanction de déconnexion d'Internet.

typhoe Premium

Le 12/12/2024 à 18h12

Et pour le barème, on leur fait les mêmes taux que pour la copie privé ? Chiche ?