IA et droit d’auteur : la proposition de loi qui inquiète Mistral arrive à l’Assemblée

Il faut sauver le soldat Mistral

Illustration : Flock

Alexandre Laurent

Le 03 juin à 18h21

La Commission des affaires culturelles de l’Assemblée nationale a adopté mardi 2 juin la proposition de loi qui prévoit la présomption d’utilisation des contenus culturels par les acteurs de l’IA au nom de la défense du droit d’auteur. Dénoncé par ses opposants comme un bâton tendu dans les roues du champion national Mistral, le texte sera débattu en séance publique le 11 juin prochain.

IA et droit d’auteur : la proposition de loi qui inquiète Mistral arrive à l’Assemblée

Il faut sauver le soldat Mistral

Illustration : Flock

Alexandre Laurent

Le 03 juin à 18h21

Droit

8 min

Le Sénat a voté le 8 avril dernier à l’unanimité la proposition de loi « relative à l’instauration d’une présomption d’utilisation des contenus culturels par les fournisseurs d’intelligence artificielle ». Le texte, réclamé à cor et à cri par les sociétés de gestion de droits françaises, dispose au travers d’un article unique un principe simple : l’inversion de la charge de la preuve concernant l’utilisation de contenus protégés par le droit d’auteur ou un droit voisin par les éditeurs de systèmes d’intelligence artificielle.

Dit autrement : aujourd’hui, il appartient à l’éditeur ou à l’auteur de démontrer qu’un éditeur d’IA a utilisé son œuvre pour l’entraînement de ses modèles. Demain, si la loi est adoptée, cette utilisation est présumée « dès lors qu’un indice afférent au développement ou au déploiement de ce système ou au résultat généré par celui-ci rend vraisemblable cette utilisation ». La mesure contraindrait, selon les défenseurs du texte, les grands noms de l’IA à passer des accords financiers avec les sociétés d’auteur pour se prémunir d’éventuelles poursuites, et contribuerait donc in fine à rémunérer la création culturelle.

Inversion de la charge de la preuve confirmée en Commission

« Ce ne sera plus au créateur de prouver le moissonnage de son œuvre, mais au fournisseur d’IA de prouver qu’il ne l’a pas utilisée. Notre objectif n’est pas de multiplier les procès, mais d’inciter les acteurs de l’IA à abandonner certains comportements de prédation pour un modèle fondé sur la transparence et la négociation. Aujourd’hui, les créateurs ne négocient pas ; ils subissent », faisait valoir en séance la sénatrice Agnès Evren (LR), auteure de la proposition de loi.

Après le Sénat, le texte a fait ses débuts, mardi 2 juin, à l’Assemblée nationale, dans le cadre d’un vote organisé à l’échelle de la commission des affaires culturelles et de l’éducation. Les débats s’y sont révélés relativement consensuels, la plupart des groupes représentés estimant, à l’exception du RN, que le texte défendait efficacement le droit d’auteur face au pillage orchestré par les acteurs de l’IA, sans pour autant obérer les chances de développement économique du secteur.

Le député Éric Bothorel (Côtes-d’Armor, Ensemble pour la République) a tout de même défendu un argument demandant la suppression de l’article unique, expliquant que ce dernier allait créer des risques juridiques, et qu’il serait préférable d’opter pour une obligation de transparence inspirée de ce que contient déjà l’article 34 du DSA. Un autre amendement, déposé par Prisca Thevenot (Renaissance, ex porte-parole du gouvernement Attal) proposait d’amoindrir la portée du texte en réduisant le seuil de déclenchement de la présomption d’utilisation. Les deux ont été rejetés, comme les 14 autres déposés, ce qui signifie que l’Assemblée nationale étudiera l’article unique de la proposition de loi tel qu’il est sorti des débats au Sénat. Elle a été placée à l’ordre du jour de la séance publique du 11 juin, et les débats s’y révèleront peut-être moins policés qu’en commission.

L’article unique de la proposition de loi « *relative à l’instauration d’une présomption d’utilisation des contenus culturels par les fournisseurs d’intelligence artificielle* » tel que voté par le Sénat

Il faut sauver le soldat Mistral

Certains ont en effet déjà annoncé leur intention de lutter contre l’adoption du texte au nom de la défense des intérêts français en matière de compétitivité sur le terrain de l’IA. C’est le cas du député Paul Midy (5e circonscription de l’Essonne), qui s’est alarmé publiquement mercredi de l’adoption du texte en commission, y voyant une entrave au développement du champion français du secteur, Mistral AI.

« Dans notre pays, tous les criminels ont le droit à la présomption d’innocence, même les terroristes et les pédophiles. Et les fournisseurs d’IA n’y auraient pas le droit ? On voudrait donc mieux traiter dans ce pays les terroristes et les pédophiles qu’Arthur Mensch ? », écrit le député, qui dit encore voir dans cette loi « un signal particulièrement préoccupant envoyé à l’un des secteurs les plus stratégiques pour l’avenir économique de notre pays ».

Sans même relever la comparaison outrancière osée par Paul Midy, la question de la légalité du renversement de la charge de la preuve a été éclaircie en amont par les défenseurs du texte, qui revendiquent une validation a priori par le Conseil d’État, et font par ailleurs valoir que l’esprit de la proposition de loi s’inscrit dans la lignée des recommandations formulées dans le récent rapport d’Alex Voss voté le 11 mars dernier au Parlement européen qui invite lui aussi à établir une « présomption réfragable ».

Il est en revanche probable que la proposition de loi ne fasse effectivement pas les affaires de Mistral AI et des autres acteurs du secteur. Arthur Mensch, PDG de Mistral, a multiplié les apparitions médiatiques et politiques ces dernières semaines pour dénoncer les risques d’un décrochage européen en matière d’innovation, un risque qu’aggraverait selon lui de nouvelles réglementations. L’entreprise se serait également livrée à un lobbying actif, révèle le Point, en faisant parvenir des argumentaires aux membres de la commission des affaires culturelles.

Certains soutiens du texte estiment par ailleurs que c’est en raison de pressions exercées par les acteurs de la tech que le texte a mis si longtemps à rejoindre formellement l’agenda de l’Assemblée nationale. Son examen n’a en effet pas été retenu par la conférence des présidents de groupe, et c’est via la niche parlementaire du groupe GDR (Gauche démocrate et républicaine) qu’il va finalement trouver le chemin de l’hémicycle le 11 juin prochain.

Rappelons que dans le sillage du procès ouvert aux États-Unis contre Meta pour entraînement de ses modèles sur les contenus de la bibliothèque clandestine LibGen, plusieurs articles de Mediapart ont montré ces derniers mois que Mistral AI avait aussi exploité des oeuvres protégées par le droit d’auteur pour l’entraînement de ses modèles.

Quand le New York Times appelle les médias à résister

À lobbying, lobbying et demi. On sait, chez Next, le poids qu’ont pu avoir les sociétés d’auteur lorsqu’il s’est agi de débattre des propositions de loi visant à lutter, au pif, contre le téléchargement illégal. Et en matière de droit d’auteur à l’ère de l’IA, les sociétés d’auteur, syndicats liés à l’édition culturelle et groupements d’éditeur de presse semblent bien décidés à faire front commun. En témoigne la publication, fin avril, d’une tribune cosignée par 81 organisations professionnelles, et que plus de 25 000 internautes auraient également signée (au travers d’un formulaire Google Docs, sic).

Dans le petit Landerneau des médias, le sujet vient de recevoir d’un coup de projecteur particulier. A.G. Sulzberger, le patron du New York Times est en effet intervenu le 1er juin à Marseille, lors du colloque annuel de la WAN-IFRA, l’association internationale des éditeurs de presse, et il a tenu un discours particulièrement vindicatif à l’égard des acteurs de l’IA, qu’il accuse de sciemment piller le monde des médias au risque de compromettre la viabilité à moyen terme des producteurs d’information.

« Leur mainmise sur l’espace public est rendue possible par le péché originel qui anime leurs produits d’IA : un vol éhonté de propriété intellectuelle d’une ampleur sans précédent. Les géants de la tech pillent les sites d’information sans autorisation ni compensation. Ils reconditionnent ces contenus volés sous leur propre marque, s’accaparant ainsi l’audience et les revenus qui, autrement, reviendraient aux organes de presse à l’origine de ces travaux. Et cela se produit non pas une seule fois lors de la phase d’apprentissage, mais d’innombrables fois chaque jour », a notamment déclaré A.G. Sulzberger.

Rappelons que le quotidien s’est engagé dans un long bras de fer juridique avec OpenAI et Microsoft au sujet de l’utilisation non consentie de ses contenus. En France, certains médias ou groupes média ont noué des accords au cas par cas avec certains acteurs de l’IA (Le Monde a par exemple signé avec OpenAI puis avec Perplexity), mais les autres en sont pour l’instant réduits au contentieux. L’Alliance de la presse d’information générale (Apig) et 53 groupes de presse français viennent ainsi d’assigner l’éditeur du navigateur Brave en justice, pour tenter d’obtenir une jurisprudence favorable.

Commentaires (21)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

ragoutoutou Premium

Le 3 juin à 19h31

Après le passage des ayant-droits, ce sera Quartsral ... et il fera encore moins le poids face aux solutions trumpistanaises.

SebGF Premium

Le 3 juin à 19h46

J'ai toujours du mal à voir en quoi c'est valide vis à vis de notre cadre légal, cette inversion de charge de la preuve.

En dehors de créer une insécurité juridique et torpiller notre économie qui est déjà à l'agonie, je ne vois pas de résultat pertinent. Le cadre légal est d'ores et déjà clair et en place, il faut l'utiliser. Point.

Renault Premium

Le 4 juin à 00h43

D'un point de vue juridique, ça n'aurait rien de totalement inédit de fonctionner comme ça.

Avant de pouvoir condamner par exemple Mistral, il faudrait que la partie qui poursuit Mistral sur cette question accumule pas mal d'indices que ses oeuvres protégées ont été utilisées lors de l'entrainement. Je ne pense pas que les juges se reposeront sur des arguments ou éléments faibles et qu'il faudra probablement bien étayer le dossier avec beaucoup d'éléments comme des reproductions "identiques" de tout ou partie d'une dite oeuvre (ce qui arrive de temps en temps même parfois sans le vouloir malgré les "gardes fous").

En justice on n'est pas obligés d'avoir une preuve ultime pour condamner quelqu'un ou une entreprise, un faisceau d'indice très convaincant peut suffire dans de nombreux dossiers et je pense que l'objectif ici est d'aller dans cette direction : comme constater le non respect de la loi ici est difficile pour les victimes potentielles, il faut leur garantir la possibilité de faire un procès même s'ils n'ont pas la preuve de l'infraction, afin de pousser la défense (ici Mistral par exemple) de démontrer que non la dite oeuvre n'a pas fait partie du corpus d'entrainement et qu'elle peut expliquer les résultats constatés autrement.

Et le fait de rendre cela possible ou du moins plus facile peut aider aussi à l'auto-gestion : au lieu de prendre un risque juridique important, on va dans le doute signer des contrats et faire attention à ce qu'on utilise comme sources de données pour entrainer les modèles. Car jusqu'ici ils n'étaient pas trop incités à faire très attention, ils n'hésitaient d'ailleurs pas à violer la loi clairement.

En dehors de créer une insécurité juridique et torpiller notre économie qui est déjà à l'agonie, je ne vois pas de résultat pertinent. Le cadre légal est d'ores et déjà clair et en place, il faut l'utiliser. Point.

Je ne vois pas ce que le cadre légal actuel permet de faire cela correctement.

SebGF Premium

Le 4 juin à 08h50

En justice on n'est pas obligés d'avoir une preuve ultime pour condamner quelqu'un ou une entreprise, un faisceau d'indice très convaincant peut suffire dans de nombreux dossiers

Quand on compare l'affaire du New York Times contre OpenAI, on est justement dans un faisceau d'indices. Le journal a présenté des interactions avec GPT montrant qu'il pouvait ressortir des morceaux un peu trop précis d'articles, ce qui est déjà une base pour mettre un doute.

afin de pousser la défense (ici Mistral par exemple) de démontrer que non la dite oeuvre n'a pas fait partie du corpus d'entrainement et qu'elle peut expliquer les résultats constatés autrement.

C'est précisément ce point que j'estime être une insécurité juridique : comment démontrer que l'on a pas fait quelque chose ?

J'y vois la même insécurité que les accusations d'utiliser l'IA : il est impossible de démontrer qu'on a pas eu recours à ces outils. Dans le cas d'un texte, les logiciels de vérification ne sont que du pifomètre algorithmique et le filigrane est lui aussi approximatif. Sauf que, malheureusement, l'accusation a été proférée, l'auteur est d'ores et déjà coupable dans l'opinion et tout le monde va y trouver son petit indice probant (coucou les cadratins, signe typographique parfaitement ordinaire...). Et, il ne peut rien prouver.

Quant au cadre légal :

Le droit d'auteur interdit d'ores et déjà l'utilisation non autorisée d'une oeuvre

L'exception au droit d'auteur sur la fouille de données, créée par la DAMUN (2019) et retranscrite en droit français dans le CPI, dispose que seules les oeuvres disponibles de manière publique et licite en font l'objet, sauf si l'auteur ou ses ayants droits en ont manifesté leur opposition. L'opposition peut être manifestée par tout moyen : CGU, mention légale, et indication technique (cf le TDM)

D'ailleurs, une parenthèse : on voit de plus en plus fleurir dans les livres récents, voire les génériques de films, une mention interdisant l'usage du matériel à des fins d'entraînement basée sur cette directive. Vieux motard.

La différence entre l'inspiration et le plagiat (ce qu'un LLM peut potentiellement faire de part sa nature) s'apprécie d'ores et déjà par un juge en cas de plainte en contrefaçon

Le secret des affaires (catégorie dans lequel les données d'entraînement peuvent tomber) est préservé dans une procédure judiciaire (directive UE de 2016 transposée en droit français en 2018)

L'inversion de la charge de la preuve et la présomption de culpabilité ne me plaisent pas. Elles ressemblent beaucoup trop au tribunal médiatique qui condamne, puis juge ensuite quand c'est bien trop tard. Ce n'est pas un cadre sain, de mon point de vue.

Darth_Judge Premium

Le 4 juin à 09h18

C'est précisément ce point que j'estime être une insécurité juridique : comment démontrer que l'on a pas fait quelque chose ?

Avec de la transparence sur les éléments utilisés pour l'entrainement ? Alors, ça ne sera pas certain à 100%, j'imagine, mais c'est déjà un début.

Après, la loi est effectivement déjà très claire. La question de l'inversion de la charge de la preuve a simplement pour objectif de sécuriser le justiciable le plus "faible".

Reste qu'on sait tous que toutes ces boîtes ont pris tout ce qu'elles pouvaient pour entrainer leurs outils, sans considération aucune pour qui que ce soit ; la question n'étant pas vraiment de savoir si une œuvre à été utilisée pour entrainer une IA, puisque c'est probablement le cas, mais de permettre à qui le souhaite de se faire indemniser pour ça.

Ça finira probablement avec des organismes de gestion de droits comme la SACEM, ou la copie privée, et comme d'hab', les "gros" auront leur part du gâteau, et les "petits" leurs yeux pour pleurer. Et tout le monde sera content.

SebGF Premium

Modifié le 4 juin à 10h54

Reste qu'on sait tous que toutes ces boîtes ont pris tout ce qu'elles pouvaient pour entrainer leurs outils, sans considération aucune pour qui que ce soit ; la question n'étant pas vraiment de savoir si une œuvre à été utilisée pour entrainer une IA, puisque c'est probablement le cas, mais de permettre à qui le souhaite de se faire indemniser pour ça.

C'est donc bien une présomption de culpabilité basé sur un "on le sait tous". Ce raisonnement permet de légitimer de nombreux concepts réputés intolérables dans la société.

"On le sait tous", c'est de l'arbitraire, pas du droit.

Darth_Judge Premium

Le 4 juin à 11h47

Oui, c'est une "présomption de culpabilité", comme, par exemple, pour les infractions routières, où le propriétaire de la voiture est présumé avoir commis l’infraction. C'est conforme, notamment s'il s'agit d'une présomption simple.

Et c'est une présomption simple ici : si Mistral n'a pas utilisé ton œuvre, ils pourront le démontrer en faisant preuve de transparence. Alors oui, ce n'est probablement pas idéal, mais c'est certainement plus facile dans ce sens, que pour des auteurs de démontrer l'usage, même si c'est discutable, je suis d'accord. Et ça vise à protéger le justiciable le plus "faible".

Et non, ma remarque sur le "on sait tous" ne vise pas à justifier quoi que ce soit. C'est une remarque purement personnelle sur la situation.

D'ailleurs, c'est du même niveau en termes de justification que de dire :

En dehors de créer une insécurité juridique et torpiller notre économie qui est déjà à l'agonie, je ne vois pas de résultat pertinent.

Parce que, partant de là, on peut également justifier toutes sortes de décisions arbitraires. :)

Là où je vous rejoins, c'est que le cadre légal existant est suffisant en soi. Je ne suis pas totalement pour ou contre cette loi, mais je ne vois pas d'énorme problème à inverser la charge de la preuve ici.

SebGF Premium

Modifié le 4 juin à 13h40

Oui, c'est une "présomption de culpabilité", comme, par exemple, pour les infractions routières, où le propriétaire de la voiture est présumé avoir commis l’infraction. C'est conforme, notamment s'il s'agit d'une présomption simple.

Sauf que dans ce cadre là, il y a constat (automatisé ou par agent) et une preuve opposable (la photo). On reste dans un contexte très déterminé et précis avec suffisamment de facteurs pour éviter des recours complexes.

Comparer ça avec le résultat d'un moteur probabiliste basé sur des facteurs aléatoires ne me semble pas pertinent.

Pour caractériser ici cette présomption d'usage, il faudra dans tous les cas que le plaignant établisse un dossier complet et une analyse sur base d'une étude des résultats du modèle. On est en réalité dans la même frontière floue et appréciée par un juge que celle du plagiat où il convient d'apporter les éléments caractérisant l'originalité de l'oeuvre plagiée.

Cette inversion de charge n'apporte strictement rien par rapport à comment ce genre de procédure devrait se dérouler, puisqu'on reste sur le même scénario :

Plaignant constate qu'un LLM pond des textes trop proches des siens

Plaignant constitue son dossier de preuve

Plaignant attaque

Entreprise accusée se défend, elle va forcément devoir montrer que l'oeuvre n'est pas dans les données d'entraînement vu que c'est sa seule défense possible

Sans oublier les potentielles perquisitions.

Sauf à imaginer que cet article de loi revu suffise à accepter des accusations faiblement étayées tout ça parce qu'un LLM a écrit un texte bardé de lieux communs de la littérature. Auquel cas, bonjour l'insécurité parce que n'importe quel trou du cul pourra attaquer sans fondement. Cela dit, je doute que ce soit aussi stupide.

Darth_Judge Premium

Le 5 juin à 09h28

Effectivement, l'utilité de cette présomption est discutable.

Au surplus, l'auteur devra de toute façon démontrer l'originalité de son œuvre, puisque l'éditeur de l'IA pourra se défendre en invoquant l'absence d'originalité, donc l'absence de protection, donc l'absence d'atteinte.

En pratique, vu les coûts, les délais et les enjeux, l'auteur, ou son conseil, adressera une mise en demeure à l'éditeur de l'IA, en premier lieu, ce dernier négociera un p'tit billet, et hop, on en parle plus, et ça ne passera probablement pas par la case contentieux (avec ou sans cette présomption d'ailleurs).

C'est pour ça que je disais plus haut qu'on finira probablement sur un nouvel organisme de gestion de droits, pour satisfaire tout le monde (ou presque).

SebGF Premium

Le 5 juin à 09h56

C'est pour ça que je disais plus haut qu'on finira probablement sur un nouvel organisme de gestion de droits, pour satisfaire tout le monde (ou presque).

C'est ce que j'anticipe depuis une paire d'année, avec un potentiel nouveau droit voisin comme la presse. On est plus ou moins dans le même cas de figure, mais à des échelles tout autre.

bingo.crepuscule Premium

Le 4 juin à 13h48

+42

Arkeen Premium

Le 4 juin à 03h43

Le cadre légal est d'ores et déjà clair et en place, il faut l'utiliser. Point.

C'est bien tout le problème : il est actuellement impossible de prouver qu'une IA à été entraînée avec telle ou telle œuvre, puisque les données d'entrainement relèvent du secret des affaires. Une boîte de LLM peut même très bien supprimer ses données d'entrainement pour effacer des preuves, ou juste parce que ça prend trop de place, et ainsi esquiver les poursuites.

Ce genre de PPL obligerait « juste » ces boîtes à être transparentes sur leurs données d'entrainement, j'ai du mal à voir en quoi ça serait un mal.

Thanatosus

Le 3 juin à 22h02

Le pillage de la culture par l'IA n'aurait dû jamais se produire... Vaut mieux tard que jamais.

Aqua Premium

Le 3 juin à 22h47

Voilà c'est plutôt par là qu'il faut regarder.

Le pillage de l'IP mondial, culturel entre autre, pour l'entrainement des modèle est tellement revendiqué par les boites d'IA , voir même avec une certaine fierté (coucou Sam "c'est pour faire de la thune" Altman). L'utilisation de cette même IP est tellement intrinsèquement liée au fonctionnement des LLMs que je vois mal quelle défense ils pourraient sortir. Ils arrivent sur le marché en annonçant crânement avoir avalé Internet tout entier...

Bref c'est facile de prouver que telle ou telle oeuvre n'a pas été utilisée : rendez publiques vos données d'entrainement.

Alexandre Laurent Équipe

Modifié le 4 juin à 07h36

C'est le point (judicieux) soulevé par Bothorel, mais ce n'est pas trivial, puisque ça se heurte au secret des affaires notamment. C'est sans doute pour ça qu'il suggère de faire ça via l'article 34 du DSA (qui impose aux fournisseurs de très grandes plateformes d’identifier, d’analyser et d’évaluer les risques systémiques découlant de la conception, du fonctionnement et de l’utilisation de leurs services)

deathscythe0666 Premium

Le 5 juin à 09h33

C'est le point (judicieux) soulevé par Bothorel, mais ce n'est pas trivial, puisque ça se heurte au secret des affaires notamment.

On peut probablement rapprocher ça de la rétention d'un an de données des réseaux par les opérateurs. On les oblige à le faire pour les besoins de la justice, mais ça ne veut pas pour autant dire que l'accès aux dites données est open bar.

cayan Premium

Le 4 juin à 08h04

C'est comme pour les colis arrivant de Chine
si c'est pas fait au niveau européen, c'est totalement inutile
Sauf bien entendu pour faire chier Mistral

On a les députés qu'on mérite ...

Aqua Premium

Le 4 juin à 17h47

les boites ricaines qui opèrent (proposent leur service) en Europe au bénéfice des européens sont soumis aux même lois.

Ca me fait penser aux normes anti-pollution Californiennes qui, de facto, à cause de la taille du marché, s'imposaient au constructeurs parce que c'était plus rentable de les respecter sur toute la gamme que de faire des modèles spécifiques pour le marché Californien.

fred2vienne Premium

Le 5 juin à 07h49

Cette façon d'inverser la charge de la preuve permettrait de créer des entreprises fournisseuses de données exemptes d'éléments protégés par le droits d'auteur, par ex.
Ça permettrait aussi d'améliorer la qualité des données d'entraînement, réduire les biais, etc, etc.
Et puis, pour Claude Code, y'a pas besoin de s'entraîner sur Ghibli hein? Ni sur les chansons de Madonna 🤣.

Sora (l'IA de génération d'images) a bien été arrêté, donc ça montre bien que des choix sont possibles.

deathscythe0666 Premium

Le 5 juin à 09h33

Sora (l'IA de génération d'images) a bien été arrêté, donc ça montre bien que des choix sont possibles.

J'avais compris ça comme un choix économique plutôt que légal ou éthique.

fred2vienne Premium

Le 5 juin à 13h31

Oui, c'est un choix économique mais qui relève de l'arbitrage.
Arrêter la génération d'images (qui rapporte moins) au profit d'autres services qui rapportent plus.