Connexion Premium

Entrainement des IA et droit d’auteur : le Sénat inverse la charge de la preuve

On m'a dit de venir, pas de venir avec des bagages, pourquoi ?

Entrainement des IA et droit d’auteur : le Sénat inverse la charge de la preuve

Illustration : Flock

Le Sénat a voté mercredi 8 avril à l’unanimité la proposition de loi visant à instaurer une présomption d’utilisation de contenus culturels protégés par un droit d’auteur au niveau des éditeurs d’IA. Le texte, qui doit maintenant passer à l’Assemblée nationale, inverse donc le rapport de force, puisqu’en cas de contentieux, ce sera aux acteurs de la tech de prouver qu’ils n’ont pas exploité un contenu de façon illicite.

Beaumarchais a une nouvelle fois été convoqué sous les ors de la République mercredi 8 avril, lors des débats du Sénat autour de la proposition de loi « relative à l’instauration d’une présomption d’utilisation des contenus culturels par les fournisseurs d’intelligence artificielle ». Et les défenseurs du droit d’auteur n’ont pas été déçus, puisque l’article unique du texte a été adopté à l’unanimité, au terme d’une séance de débat plutôt consensuelle : le soutien à l’innovation ne doit pas se faire au détriment de la création culturelle et cette dernière doit être rémunérée à sa juste valeur dès lors qu’elle est exploitée.

Inverser la charge de la preuve pour forcer la transparence

Le texte adopté en première lecture dispose que, sauf preuve contraire, une œuvre protégée par un droit d’auteur ou un droit voisin « est présumée avoir été utilisée par le fournisseur du modèle ou du système d’intelligence artificielle, dès lors qu’un indice afférent au développement ou au déploiement de ce système ou au résultat généré par celui-ci rend vraisemblable cette utilisation ».

Autrement dit, si un ayant droit estime qu’une œuvre a été utilisée par un modèle (par exemple, parce qu’un chatbot est capable de citer des extraits d’un livre), c’est à l’opérateur de l’IA en question qu’il appartiendra de prouver qu’il n’a commis aucune utilisation irrégulière. Le texte instaure donc une inversion de la charge de la preuve, en instaurant une présomption d’exploitation.

« Ce ne sera plus au créateur de prouver le moissonnage de son œuvre, mais au fournisseur d’IA de prouver qu’il ne l’a pas utilisée. Notre objectif n’est pas de multiplier les procès, mais d’inciter les acteurs de l’IA à abandonner certains comportements de prédation pour un modèle fondé sur la transparence et la négociation. Aujourd’hui, les créateurs ne négocient pas ; ils subissent », a fait valoir en séance la sénatrice Agnès Evren (LR), auteure de la proposition de loi.

Elle a par ailleurs pris soin d’affirmer que ce renversement avait été validé par le Conseil d’État, et souligné que l’esprit de la proposition de loi rejoignait les recommandations formulées dans le récent rapport d’Alex Voss voté le 11 mars dernier au Parlement européen. Dans son texte, celui-ci invite en effet Bruxelles à « proposer l’établissement d’une présomption réfragable », mais il restreint cette dernière aux cas de non-respect d’un certain nombre d’obligations de transparence.

Le Sénat français va donc un cran plus loin, arguant du principe que ce renversement est indispensable pour contraindre les éditeurs d’IA à faire preuve d’une vraie transparence sur leurs données d’entraînement. « On nous oppose souvent le secret des affaires, ce bouclier dont les entreprises d’IA usent et abusent. Or si l’algorithme relève du secret industriel, les données pour le nourrir sont le fruit du travail d’autrui. La transparence n’est pas une menace pour l’innovation, c’est la condition de l’acceptabilité sociale de l’IA », a défendu Catherine Morin-Desailly (Union centriste).

Représenté par ses ministres de la Culture et de l’Intelligence artificielle et du numérique, le gouvernement a pour sa part tenu une position plus nuancée.

« Le Gouvernement partage l’objectif du mécanisme proposé par la commission, mais le contentieux ne peut pas constituer notre unique horizon, car il entraîne des risques : judiciarisation excessive, insécurité juridique prolongée, multiplication des procédures. Mieux vaut un bon accord qu’un mauvais procès », a prudemment avancé Catherine Pégard, ministre de la Culture.

Anne Le Hénanff, ministre déléguée chargée de l’intelligence artificielle et du numérique, a quant à elle plus fermement défendu le point de vue des acteurs de la tech :

« Avec une telle présomption, l’entreprise devra apporter la preuve négative de l’utilisation de données culturelles, via l’analyse de dizaines de téraoctets de données ; c’est tout simplement impossible ! Tous les acteurs économiques qui ont développé des modèles d’IA – entreprises du CAC 40, TPE-PME, start-up – risqueraient un contentieux, ce qui serait dévastateur pour notre économie ».

Elle aussi appelle à privilégier la négociation au contentieux, en s’engageant à soutenir « toutes les initiatives contractuelles entre les acteurs de l’IA et ceux de la culture », ainsi qu’à participer aux évolutions à venir du cadre européen, « car c’est en agissant au bon niveau que nous obtiendrons la sécurité juridique nécessaire ».

Négocier, mais autour de quelle table ?

L’attente est-elle entendable du point de vue des ayants droit, alors que les illustrations d’utilisation à grande échelle de contenus protégés se multiplient ? Dans le sillage du procès ouvert aux États-Unis contre Meta pour entraînement de ses modèles sur les contenus de la bibliothèque clandestine LibGen, plusieurs articles de Mediapart ont montré ces derniers mois le recours à des contenus protégés par l’entreprise française Mistral AI.

Plus récemment, une nouvelle enquête, publiée le 6 avril, démontre que des centaines de milliers d’ouvrages ou d’articles scientifiques accompagnés de la mention « tous droits réservés » figurent dans l’immense jeu de données finepdfs hébergé sur Hugging Face.

Au-delà de sa dimension contentieuse, la proposition de loi serait, dans ce contexte et pour ses promoteurs, un accélérateur visant à sortir du statu quo dont profitent les acteurs de l’IA.

« Il y a urgence, car le pillage continue. J’ai l’impression que quand on montre un peu de fermeté, certains, qui s’y refusaient, viennent à la table des négociations », estime Max Brisson (LR). Avec, déjà, des effets positifs, selon Laure Darcos (groupe Les indépendants), rapporteure du texte :

« Notre mécanisme, juridiquement solide et politiquement efficace, produit d’ores et déjà ses effets : le PDG de Mistral AI a proposé une contribution des entreprises d’IA en fonction de leur chiffre d’affaires pour accéder aux contenus protégés. »

Reste à voir si cette déclaration d’intention suffira à faire pencher la balance lors de l’examen du texte à l’Assemblée nationale.

Commentaires (76)

votre avatar
Le cadre légal évolue petit à petit, même si le chemin est encore long.

Côté Europe, rappelons aussi la résolution votée le 10 mars sur le droit d'auteur et l'IA générative.
votre avatar
Même si je suis absolument en phase avec le fait qu'il faille empêcher les boites d'IA de piller les œuvres couvertes par les droits d'auteurs, je me demande comment ils vont pouvoir s'y prendre pour prouver qu'ils n'ont pas fait quelque chose...
votre avatar
En maintenant à jour une liste détaillée des oeuvres utilisées pour l'entraînement
votre avatar
Non.
Rien ne garantirait que la liste est exacte. C'est très compliqué à prouver sauf à avoir un commissaire de justice qui vérifie tout le processus d'entraînement ce qui est en fait impossible en particulier par rapport au temps mis pour entraîner un modèle : il faut garantir qu'il n'y a rien qui est ajouté lors de l'entraînement après la que la liste ait été contrôlée .

Comme dit plus bas, c'est très compliqué de prouver qu'une chose n'a pas été faite par la société accusée.
votre avatar
Vu qu'il est également très compliqué de prouver qu'un LLM a pompé des oeuvres couvertes par le droit d'auteur, il faudrait laisser faire ? Quelle preuve est la plus compliquée ?
votre avatar
S'il est trop compliqué de prouver les 2 choses, c'est idiot de mettre l'un ou l'autre dans la loi.

Par contre, poursuivre pour contrefaçon un fournisseur d'IA générative est relativement facile. Il suffit de prouver qu'il ressort "quasiment" une œuvre. C'est le même processus que poursuivre un humain pour contrefaçon.

Il n'est peut-être pas utile d'ajouter des choses dans la loi quand la loi existante permet déjà de poursuivre quelqu'un.
votre avatar
La voix de la raison !
clap clap clap

(1er degré.)
votre avatar
Le texte ( https://www.senat.fr/dossier-legislatif/ppl25-220.html ) dit juste que dès qu'il y a un indice qui rend vraisemblable l'exploitation d'une oeuvre protégée, c'est au propriétaire du système de prouver que ce n'est pas le cas.

Et un autre problème, c'est qu'un procès en contrefaçon, ça va apparemment couter entre 10k€ et 50k€ (voire plus, beaucoup plus) et durer plusieurs années. Autant dire que peu se lanceront dans la procédure et que c'est open bar pour les pilleurs.
votre avatar
Parce que tu crois qu'un procès coûtera moins cher et ira plus vite avec cette loi ?
votre avatar
Vu qu'il est également très compliqué de prouver qu'un LLM a pompé des oeuvres couvertes par le droit d'auteur, il faudrait laisser faire ?
Oui. C'est d'ailleurs ce que prévoit le U.S. Copyright Office.
Il n'y a aucun préjudice à intégrer du contenu copyrighté dans un LLM.
Si quelqu'un l'utilise pour faire de la contrefaçon, là, oui, mais c'est déjà punis par la loi.
votre avatar
Oui. C'est d'ailleurs ce que prévoit le U.S. Copyright Office. Il n'y a aucun préjudice à intégrer du contenu copyrighté dans un LLM.
Les jurisprudences sur le fair use ont été publiées ? J'ai pas souvenir de l'avoir vu passer et on avait eu deux versions contradictoires sur deux affaires.
votre avatar
Non, mais c'est tout comme. Lis les conclusions
https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-2-Copyrightability-Report.pdf

https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf
votre avatar
Le premier rapport que tu cites parle de pouvoir copyrighter le résultat d'un modèle d'IA, ce n'est pas la question ici.

Les conclusions du second ne vont pas vraiment dans le sens de "Il n'y a aucun préjudice à intégrer du contenu copyrighté dans un LLM."

Au contraire, il n'est pas directif, considère que ça dépend et n'estime pas comme fair l'usage massif de matériel sous copyright réutilisé de manière commercial ou d'origine illicile.

En fait, la conclusion de la partie 3 est plus ou moins proche du cadre européen en mettant une séparation entre la recherche et le commercial. À laquelle ils considèrent qu'un modèle de licensing serait plus pertinent.
votre avatar
C'est exactement ce que je dit. L'utilisation de contenu copyrighté pour construire un LLM n'est nullement proscris, seule la création de contrefaçon l'est.
votre avatar
Pour le moment c'est pas acté, puisqu'il y a des plaintes et des procédures en cours.

On sera avisés une fois les jurisprudences établies en ce qui concerne les USA.

(là où dans l'UE le cadre est déjà clair)
votre avatar
Oui mais à partir du moment où le LLM entrainé avec du contenu protégé produit quelque chose grâce à cet entrainement ça devrait être considéré comme de la contrefaçon. Mais effectivement ce n'est pas le cas quand ce sont des humains qui procèdent de la même manière tant que le plagiat est léger.
votre avatar
Sinon, pour une réponse plus complète. On parle de mesures organisationnelles comme pour le RGPD (c'est à l'entreprise de prouver que t'as coché la case, pas à toi de prouver que tu l'as pas fait).

Par exemple, l'entreprise peut montrer au tribunal son registre des œuvres utilisées (ou des consentements dans le cas du RGPD), la note de service qui indique qu'il est interdit d'utiliser des œuvres sans les mettre au registre, qu'il y a une équipe chargée de faire en sorte qu'il n'y ait pas de fraude sur le registre, et que cette équipe a les moyens de mener sa mission à bien.

Et ainsi, si une œuvre n'est pas au registre, l'entreprise peut se retourner contre l'employé qui n'a pas respecté la note de service.

Le but est assez proche du RGPD : une entreprise doit prouver qu'elle a eu l'accord d'un ayant-droit (sur sa vie privée ou sur ses œuvres) ou n'a pas utilisé son contenu, plutôt que demander à l'ayant-droit de prouver qu'il n'y a pas eu d'accord. Ça permet de mettre hors de jeu les différences de moyens juridiques, puisqu'aussi bien sur le RGPD où on parle exclusivement de particuliers que sur les droits d'auteur qui vont jusqu'au petit blog on a des personnes sans moyens de payer un avocat qui peuvent se retrouver contre une armée de juristes.
votre avatar
Au final ce n'est pas tant que l'IA soit entraînée sur des œuvres qui est problématique, c'est déjà le cas de la plupart des humains qui produisent rarement quelque chose de purement original. Le soucis est de déterminer la limite entre l'inspiration et le plagiat, et de l'intégrer dans les LLM pour qu'ils soient en mesure de te dire "attention ce que j'ai produit s'inspire largement de telle oeuvre et pourrait nécessiter un accord avec les ayants droits pour un usage commercial"
votre avatar
c'est déjà le cas de la plupart des humains qui produisent rarement quelque chose de purement original
C'est un argument que j'entends souvent mais la comparaison me semble bancale. L'humain peut bien sûr s'inspirer d'œuvres préexistantes, mais il s'inspire rarement uniquement de cela. Nous avons notre propre perception du réel, basée sur une expérience du réel, et pas juste de ses représentations sous forme d'œuvres.

Pour le dire autrement, si je dessine un arbre, c'est basé en partie sur ce que j'ai vu de dessins d'arbres, mais aussi en partie sur les vrais arbres dehors que j'ai vu de mes propres yeux. Le second représente probablement même la majeure partie de mon expérience du concept visuel "d'arbre". Et même si je dessine quelque chose que je n'ai jamais vu en vrai, par exemple un durian, l'image que je m'en fais est en partie informée par des photos certes, mais aussi en partie par mon expérience générale et réelle des fruits, des écorces, des textures, etc.

Pour cette raison, à moins que la ressemblance avec une œuvre existante soit frappante, on peut me donner le bénéfice du doute sur le fait que mes œuvres sont majoritairement le produit de mon esprit, formé par mon expérience du monde, et pas majoritairement issues de diverses œuvres existantes.

L'IA ne peut pas en dire autant. La quasi-totalité de son entraînement est basé sur des œuvres, la plupart encore protégées par le droit d'auteur.

La comparaison apprentissage humain/apprentissage IA aura du sens le jour où une IA passera la majeure partie de sa journée à faire l'expérience du monde qui l'entoure via une webcam, un micro, et des roulettes pour se déplacer.
votre avatar
Votre discussion m'amène à penser que finalement ça ne serait pas très grave que "l'IA" ait ingurgité quasiment la totalité des oeuvres, si elle ne s'en servait que pour dessiner des arbres (par exemple). Ce qui pose problème, c'est qu'elle s'en serve également pour créer des images ressemblant à des oeuvres existantes.
Il faudrait un filtre sur l'image de sortie pour ne pas la publier si elle ressemble trop à une image apprise. Bien sûr cela impliquerait une consommation de ressources élevée.
On pourrait penser que si on faisait cela, presque toutes les images créées seraient éliminées, mais je pense que les IA génératrices sont capable de conceptualiser des oeuvres originale.
Ce qui me fait penser cela est une expérience que j'aime faire, et que je vous invite à reproduire : demander à une IA de donner le code en p5js (par exemple) pour dessiner un chien ou autre chose. Je suis très étonné par le résultat, car l'IA dessine effectivement un chien avec des formes géométriques. Comment conceptualise-t-elle le chien avec sa tête, son corps, ses pattes... ? Je n'ai toujours pas la réponse....
votre avatar
De la même manière que ton cerveau 😅
Les concepts sont "encodés" dans son réseau de neurone et elle arrive à les ressortir dans différents contextes.
votre avatar
merci de ta réponse :)
mais, je ne comprends toujours pas comment elle fait le chemin de la description d'un chien à un positionnement dans l'espace de ses différents éléments, puis à l'utilisation des bonnes formes pour le dessiner, le tout en code informatique... Et ça marche aussi en 3d dans blender demandant du code python. Et ce qui est amusant, c'est qu'on dirait des dessins d'enfant...
votre avatar
De la même manière que ton cerveau
Pas vraiment (la conception des neurones humains dont sont censés s'inspirer d'assez loin les réseaux de neurones artificiels date des années 50. Il y a eu beaucoup de recherche en neuro depuis)
votre avatar
L'intention est louable, mais la solution est totalement absurde. Il est impossible de prouver ce qui n'a pas eut lieu, sauf à pouvoir prouver que l'on aurait pas été en mesure de le faire. Dans ce domaine, sans traçabilité vérifiable entre un modèle et ses sources, l'alibi n'a pas sa place. Et, " Ce jour là, j'avais piscine", ça ne tiens pas non plus.
votre avatar
Je copie-colle ma réponse d'un peu plus haut mais, si, c'est prouvable, et cette inversion de la charge est déjà en place sur d'autres sujets proches.

On parle de mesures organisationnelles comme pour le RGPD (c'est à l'entreprise de prouver que t'as coché la case, pas à toi de prouver que tu l'as pas fait).

Par exemple, l'entreprise peut montrer au tribunal son registre des œuvres utilisées (ou des consentements dans le cas du RGPD), la note de service qui indique qu'il est interdit d'utiliser des œuvres sans les mettre au registre, qu'il y a une équipe chargée de faire en sorte qu'il n'y ait pas de fraude sur le registre, et que cette équipe a les moyens de mener sa mission à bien.

Et ainsi, si une œuvre n'est pas au registre, l'entreprise peut se retourner contre l'employé qui n'a pas respecté la note de service.
votre avatar
Ce qui est matériellement impossible dans le cas présent. Le "registre des œuvres utilisées", c'est complètement illusoire en pratique. Les contours de la choses sont inconnus. Un modèle LLM peut "ingérer"une "œuvre" sans jamais en avoir pris connaissance, mais en avoir eu connaissance uniquement au travers de bribes, d'information, de références, decorations, d'autres œuvres inspirées de l'original, etc. Pour réaliser l'aberration de l'idée, il suffit de se référer aux œuvres que nous "connaissons" , sans pour autant ne les avoir jamais observées directement, en tant que telles. C'est exactement la même chose pour les "sources" d'un modèle de LLM. En archivant les sources du modèle, à des fins de "preuve", celui-ci peut contenir l'essentiel des informations définissant "l'œuvre", sans qu'une seule représentation de l'œuvre, en tant que telle, n'y figure. Un tel registre serait inexploitable. Rien que de par sa taille, si "l'œuvre" y figurait explicitement , ce serait de tout façon déjà problèmatique de retrouver trace de sa présence, tellement celle-ci peut prendre différentes formes.

Ce qui est trompeur, c'est que çà paraît facile et evident avec des œuvres de référence (Mickey ou la Joconde, il n'y pas de souci). Pour une "oeuvre" en général, c'est juste mission impossible. Œuvre avec des guillemets, car c'est l'identification de la notion d'œuvre dans les sources qui pose un problème insoluble.

Après, l'entreprise peut toujours mettre à la disposition d'un tribunal le jeu de données brutes ayant servi à l'entraînement du llm (le registre), en disant: "vous pouvez verifier". Vu le coût d'extraction parmi plusieurs péta-octets de données d'une information, dont on ne connaît même pas la forme, ils peuvent dormir tranquilles, même si elle y est effectivement présente, le budget alloué à la vérification aura été consommé bien avant l'aboutissement de la vérification.
votre avatar
J'ai une question de Newbee, quid du droit à la parodie, qui existe est applicable en France ?

Exemple : Si je demande à une "IA" générative, une image de BATMAN tm qui chevauche une banane. Et que je vends des Tshirts avec.
De ce que je comprends, le concepteur de "l'IA" pourrait poursuivi, quand bien même l'utilisateur, non ?
votre avatar
Le droit de parodie ne permet pas de vendre des T-shirts avec Batman dessus. Tu serais donc poursuivi.
votre avatar
Comme d'habitude, le sénat est à la ramasse, ça ne passera jamais le conseil constitutionnel.
Après sur le principe, un meilleur cadre serait une bonne chose, mais pas comme ça...
votre avatar
Sauf si elle prouve le contraire, on va dire que Agnès Evren est présumée avoir touché de l'argent, peut-être en liquide afin d'éviter les traces de la part des ayants droits ou autres personnes à qui profite cette proposition de loi pour déposer cette proposition de loi.

Comme elle pense qu'il est facile de prouver que quelque chose n'a pas été fait, elle n'aura aucun problème à prouver qu'elle est innocente. À défaut, elle va comprendre la difficulté qu'auront les entreprises à prouver qu'elles n'ont pas utilisé une œuvre donnée pour l'entraînement de leur IA si la proposition de loi est aussi votée à l'Assemblée Nationale.
votre avatar
Rien à voir, si on accuse une IA, c'est qu'elle a recrachée le contenu incriminé, c'est déjà une preuve.
votre avatar
Si c'était déjà une preuve, la sénatrice n'aurait pas eu besoin de déposer sa proposition de loi puisque comme je le disais plus haut, quand on recrache le contenu incriminé, c'est une contrefaçon et c'est déjà puni par la loi.
Elle veut donc couvrir d'autres cas moins évidents que celui-ci et si ces cas ne sont pas évidents, ce n'est pas une bonne justice de faire porter la charge de la preuve à quelqu'un qui doit prouver qu'il n'a pas fait quelque chose ce qui est toujours compliqué à prouver.
votre avatar
Ce n'est pas non plus une bonne justice quand elle n'est accessible qu'aux riches ...

Il peut sembler normal que s'il y a "un indice qui rend vraisemblable l'exploitation d'une oeuvre protégée", ce soit au propriétaire du système de prouver que ce n'est pas le cas.
votre avatar
Il peut sembler normal que s'il y a un indice qui rend vraisemblable le meurtre, on condamne la personne soupçonnée à la peine maximal : 30 ans.
Comme ça, la justice va aller plus vite et on n'aura plus d'engorgement de celle-ci.

Quant à l'opposition riche/pauvre, ça existe dans plein de cas : le riche aura des avocats expérimentés et le pauvre aura droit à un avocat payé par l'aide juridictionnelle. Aucune raison de faire un cas particulier pour l'IA.
votre avatar
Il faut forcément que tu pousses le délire le plus loin possible pour essayer de décrédibiliser ceux qui ne sont pas d'accord avec toi ?

Il peut sembler normal que s'il y a un indice qui rend vraisemblable le meurtre, on demande au suspect de prouver qu'il était ailleurs à ce moment-là.

Le texte ne dit pas "s'il y a un indice, ça vaut condamnation" comme tu l'affirmes. On sent bien que tu es fortement concerné par le problème.
votre avatar
Si le suspect d'un meurtre ne peut pas prouver qu'il était ailleurs, on ne le condamne pas pour autant et heureusement.

Quant à être concerné, je le suis comme justiciable et défenseur des droits humains, j'ai horreur de tout ce qui peut condamner un innocent sans preuve. Je préfère un coupable en liberté qu'un innocent en prison.
Je n'ai aucun lien avec les activités de l'IA, je n'utilise pas l'IA générative. Le seul bénéfice que je tire de l'IA, c'est par mes actions ASML, mais ce n'est pas ça qui me fait me positionner ici.

C'est quand même fou que l'on ne puisse pas avoir une position réfléchie sans être accusé d'être fortement concerné par le sujet ! À croire que tout le monde n'agit que dans son propre intérêt !
votre avatar
De toute façon, comparer un meurtre (où le décès de la personne est un fait avéré) avec la contrefaçon (où il faut actuellement que la victime prouve que le délit a eu lieu) n'a aucun sens
votre avatar
On peut aussi voter une loi qui condamne directement dès qu'une IA sort à plus de 50% une œuvre protégée sans autre explication avec uniquement une constatation judiciaire.

Je développe ici autre chose : dans l'opensource, il y a les "reproducible builds" qui permettent de refaire à l’octet près un binaire depuis les sources et les outils pour le créer.
Il n'y a plus qu'à documenter les sources que le modèle utilise et à prouver soit par un tiers de confiance, soit par moyen cryptographique que le modèle a bien exclusivement été généré sur les sources.
votre avatar
Oui, on peut, mais ce ne sera pas une bonne justice et ce sera même contraire à la CDEH qui dit que chacune a droit à se défendre lors d'un procès. Si l'on condamne direct, c'est contraire aux droits de l'homme.

Quant à ton idée de modèle reproductible, qui paiera le coût du nouvel apprentissage pour vérifier que l'on obtient bien le même modèle ? Parce qu'entraîner un modèle, ça coûte un bras et deux reins ! C'est inapplicable.
votre avatar
On fait bien payer les FAI pour les blocages DNS, maintenant aussi les resolveurs DNS.
votre avatar
La création d'un modèle de machine learning se base énormément sur la génération de nombres aléatoires, donc il est impossible de reconstruire un modèle identique, sauf à utiliser de l'aléatoire pas très aléatoire
votre avatar
Et si elle paraphrase au lieu de ressortir mot à mot ?
votre avatar
On fait comme pour les humains : c'est le juge qui décide s'il y a contrefaçon ou pas.
votre avatar
Quand j'avais vu passer cette proposition de loi, je m'étais surtout demandé comment renverser la charge de la preuve peut être valide dans notre cadre légal.

J'apprécie que le législateur prenne le sujet en main (même si, comme tu l'évoques, on a déjà le nécessaire), mais là ça me semble clairement pas la bonne approche.
votre avatar
Le juge apprécie souverainement. Il n'est généralement pas requis, dans ce genre de circonstances, que l'entreprise envoie 10 000 heures de footage de caméra de surveillance dans chaque bureau filmant chaque écran prouvant qu'à aucun moment l'œuvre litigieuse a été récupérée.

Il peut être requis en revanche que l'entreprise montre qu'elle tient une base de données des œuvres utilisées avec les licences afférentes et qu'elle a des process en place pour se servir dans cette base de données uniquement.

En pratique d'ailleurs je pense que ça ne changera pas grand chose. Je vois d'ici ce qui va se passer :


  • Quand OpenMetanthropic va être accusé d'avoir plagié Disneytflix parce que l'IA de génération d'image ressort une copie quasi-conforme de Naruto Skywalker, il sera présumé avoir triché.

  • Ils montreront qu'ils sont blanc-bleu, ils ont tout bien acheté toutes les licences de toutes les œuvres qu'ils disposent, bien que bizarrement, ils n'aient aucune licence de Disneytflix

  • On s'apercevra qu'ils ont acheté pour 2 francs 6 sous une base de données de 50 péta-octets d'images non-filtrés à des margoulins, qui ont bien sûr, eux, piraté comme des gorets

  • OpenMetanthropic dira "C'est pas nous c'est les margoulins. Ils nous ont dit que tout était légal, on leur a payé une licence, on pouvait pas savoir".

  • À supposer que les margoulins en question ne soient pas domiciliés dans un pays qui se contrefout du copyright et qui peut être poursuivi, et à supposer que la justice aille jusqu'à poursuivre les margoulins en question, le temps que ça bouge ils auront déjà gagné des dizaines de millions, et possiblement organisé leur faillite pour lancer un nouveau service de crypto-IA-NFT totalement-legit-trust-me-bro.

votre avatar
OpenMetanthropic dira "C'est pas nous c'est les margoulins. Ils nous ont dit que tout était légal, on leur a payé une licence, on pouvait pas savoir".
J'ai des doutes qu'on puisse se dédouaner ainsi. Le "je savais m'sieur l'juge", ça marche rarement à ma connaissance.

Il y a un précédent non judiciaire cela dit avec le data set LAION 5b (qui a notamment servi à Stable Diffusion à l'époque) mis hors ligne après avoir découvert du contenu illégal dedans (viol, pedobear-approved content, etc.).

C'est peu ou prou la même chose que Libgen dont plusieurs entreprises sont accusées d'avoir fait l'usage.

À voir ce que ça donnera s'il y a des plaintes qui sont portées.
votre avatar
Pour Libgen, c'est indéfendable, ceux qui l'utilisent savent parfaitement que c'est du contenu piraté, c'est totalement assumé.

Là, "Margoulins inc." prétendra, au moins en façade, que tout son contenu est légal. Les entreprises d'IA se contenteront de pas aller y regarder de trop près. Le temps qu'on s'aperçoive qu'ils ont fait une interprétation iconoclaste du concept de légalité, tout le monde sera soit dédouané (le cas échéant via 2-3 niveaux d'intermédiaires), soit déjà loin.
votre avatar
Un mécanisme de responsabilité partagée comme le fait le RGPD peut résoudre les problématiques de fournisseurs de data set peu exigeants sur la légalité du contenu.

Après, il me semble que dans tous les cas l'AI Act impose des responsabilités sur le producteur du modèle en matière de transparence des data set d'entraînement.
votre avatar
Si on entraîne un LLM uniquement avec des œuvres non protégées, il aura un gros corpus d'œuvres anciennes et un plus petit corpus d'œuvres récentes. À mon avis ça diminue son intérêt.
La difficulté se situe au niveau de l'appréciation de « l'état de l'art ». Si on se concentre sur le sujet de l'apprentissage du codage informatique, alors il y a un gros corpus d'œuvres récentes libres et un gros corpus d'œuvres récentes protégées. Mais ces œuvres protégées incluent aussi des techniques qui ne sont que celles de « l'état de l'art » : pourquoi les exclure de l'apprentissage alors que, précisément, il faut avoir une culture étendue de l'art pour en connaître l'état ?
Actuellement un auteur ou créateur appose une licence sur l'ensemble d'une œuvre indépendamment de l'originalité partielle de chaque partie de son œuvre, mais les LLM dissèquent les œuvres et le principe de cette loi amène à devoir évaluer une licence d'usage partielle sur chaque morceau de la dissection.
Le risque de cette loi est d'aboutir à des LLM incultes incapables de répondre par peur de copier ce dont l'originalité n'est que celle de leur inculture.
votre avatar
Si on entraîne un LLM uniquement avec des œuvres non protégées, il aura un gros corpus d'œuvres anciennes et un plus petit corpus d'œuvres récentes. À mon avis ça diminue son intérêt.
Le risque de cette loi est d'aboutir à des LLM incultes incapables de répondre par peur de copier ce dont l'originalité n'est que celle de leur inculture.
Et qu'est-ce qu'on en a à faire ? C'est le problème des concepteurs/vendeurs de LLM. Si leur business model ne fonctionne pas sans baiser la terre entière, ils sont libres de concevoir autre chose à vendre.
votre avatar
Si leur business model ne fonctionne pas sans baiser la terre entière, ils sont libres de concevoir autre chose à vendre.
Oui certes tu as raison, ils sont libres de ne pas baiser la terre entière.

Par contre, les baisés eux, tu y as pensé ou tu n'en a rien à faire ?
votre avatar
Par contre, les baisés eux, tu y as pensé ou tu n'en a rien à faire ?
Et ce serait qui dans ton post ?
votre avatar
Et ce serait qui dans ton post ?
Et quel post ? :keskidit:
C'est toi qui parles de baise pour en faire le problème des autres « concepteurs/vendeurs de LLM » : attitude passive, tu envoies des piques et ... ... ... et rien en fait, tu attends, contemplatif, armé de pop-corn jusqu'aux dents.

C'est le procédé narratif employé par Philip.K.Dick dans The Hanging Stranger, adapté à l'écran dans l'épisode 10 des Rêves électriques

Une œuvre de valeur :ouioui:
votre avatar
Tu dis n'importe quoi. Je te parle des éditeurs de LLM qui volent la terre entière et qui viennent couiner quand on les restreint un peu, et je dis que si leur business model ne tient pas sans ça, qu'ils aillent vendre autre chose. C'est toi qui dit :
Par contre, les baisés eux, tu y as pensé ou tu n'en a rien à faire ?
Et je vois pas le rapport : si les éditeurs de LLM ne peuvent plus voler le travail des autres, plus personne n'y perd.
tu envoies des piques et ... ... ... et rien en fait, tu attends, contemplatif
Ou alors, tu lis ce que j'ai écrit sans sauter la moitié de la phrase.
votre avatar
Et je vois pas le rapport
C'est ta conclusion qui est fausse, sur différents axes à la fois.
On peut citer l'enlèvement des Sabines : un bel exemple historique de baise contrevenant aux lois, où les baiseurs et les baisés nouèrent un partenariat baisant les autres.
votre avatar
Je crois que personne n'entrave rien à tes métaphores (moi le premier) et ne comprend où tu veux en venir. Le débat gagnerait en fluidité si tu étais un peu plus explicite dans ce que tu reproches aux propos de @deathscythe0666.
votre avatar
C'est lui, et non moi, qui entrave le débat : retourne tout en haut, je ne parlais pas de fric, de pèze ni de flouze ; et son propos est sur le "business model" : c'est complètement décousu par rapport aux sujets dont j'ai parlé (état de l'art, culture et sa diffusion, dissection des œuvres, licences partielles).
votre avatar
Son propos n'est pas décousu et est super simple à comprendre. Après tu adhères ou pas. Son point de vue est que "tant pis si respecter à la lettre des droits d'auteur rend les LLM complètement cons. Ça plaira pas à ceux qui les entraînent, qui vont revenir 10 ans en arrière dans leurs travaux, mais c'est leur problème. Si on peut pas avoir de LLM correct sans piétiner les droits des gens, alors c'est que les LLM sont pas une bonne techno. Tant pis, on fera sans."

Ou pour le dire encore plus brièvement : "la fin ne justifie pas les moyens".
votre avatar
Mon propos fut bien plus simple : si les LLM sont plus cons, les utilisateurs seront les premiers baisés. Et d'autant plus que les règles de droit d'ici ne sont pas universelles.

Ou pour le dire encore plus brièvement : quelque soit la foi que tu mettras à te tirer une balle dans chaque pied, je ne suis pas médecin.
votre avatar
Je pense que ton interlocuteur part de l'idée que se passer de LLM ne sera pas si douloureux que ça, que ce n'est pas une technologie qui apporte un progrès tel à l'humanité qu'il mériterait que la fin justifie les moyens. Encore une fois tu es parfaitement fondé à être en désaccord.

Pour ma part et même si je suis utilisateur de LLM, je suis plutôt d'accord avec lui. C'est une technologie dont on peut se passer si c'est la seule solution pour arrêter de piétiner les droits d'autrui. Mon discours serait différent si on parlait, par exemple, des IA capables de détecter un cancer mieux et plus précocément que n'importe quel être humain. Mais pour les LLM, on peut faire sans, c'est pas si grave, La vie n'était pas tellement plus laide avant Novembre 2022 quand ChatGPT a mis les LLM dans les mains du public. Au contraire, même.

Mais c'est un débat qu'on peut avoir.
votre avatar
Il y a une p*tain de différence entre « on peut s'en passer » d'une part et d'autre part « on met à disposition des LLM plus cons en sachant très bien que des tas de gens ne sauront pas s'en passer et que d'autres pays ne pratiqueront pas les mêmes restrictions »

La balle, le pied, l'hypocrisie, tout ça, etc.
votre avatar
Tu extrapoles beaucoup.
en sachant très bien que des tas de gens ne sauront pas s'en passer
Tout fonctionnait très bien (mieux même ?) avant que les LLM arrivent. À quel problème réel répondent les LLM ? On a pas assez d'employés ? On n'a pas assez d'applications, de vidéos, d'articles créés ?
et que d'autres pays ne pratiqueront pas les mêmes restrictions
C'est pour une application à tous les LLM qui veulent être fournis en France, peu importe où ils sont en pratique. Et il resterait à démontrer que les LLM entrainés sans voler les contenus sous licence sont vraiment plus cons que les LLM qui pillent allègrement tout.

De toute façon, la fin justifie les moyens, c'est un concept de merde qui finit presque toujours par un totalitarisme ou un autre.
votre avatar
Grâce à toi, je viens d'apprendre que luddisme s'écrit avec 'dd' comme dans 'dd if=/dev/zero of=/home/deathscythe0666'
Grand naïf que j'étais, je n'y mettais qu'un dé :ouioui:

En vrac et sans sachet :

  • Le progrès en général n'est pas "une réponse à un problème". Sa diffusion non plus.

  • Les utilisateurs étant assez cons pour générer de grandes quantités de contenus à la con avec des LLM pas cons, il n'y a pas besoin de prouver que rendre les LLM plus cons ajoute un con à un tas de cons déjà assez cons, non ?

  • L'inversion de la charge de la preuve n'interdit aucun pillage pour l’entraînement, ça dit juste qu'il faut pas que ça se voie dans les réponses. D'où, dans mon commentaire initial, la question de la dissection en licences partielles en fonction de la valeur créative intrinsèque de chaque fragment généré. C'est une question ouverte et non pas une "extrapolation".

  • En parlant de totalitarisme de la finitude : dans le doute et dans le risque de sanctions, les éditeurs de LLM pourraient vouloir appliquer une censure large, ample et vaste sur les résultats. Par exemple, certains détenteurs de droits sont connus pour être tatillons.

votre avatar
Grâce à toi, je viens d'apprendre que luddisme s'écrit avec 'dd' comme dans 'dd if=/dev/zero of=/home/deathscythe0666'
Et à part des insultes, tu as quoi ?
Le progrès en général n'est pas "une réponse à un problème". Sa diffusion non plus.
Il y a des découvertes accidentelles, ou des détournements d'usages d'outils, mais globalement, on ne met pas à l'étude et en production des outils pour le fun.
il n'y a pas besoin de prouver que rendre les LLM plus cons ajoute un con à un tas de cons déjà assez cons, non ?
C'est sûrement vrai jusqu'à un certain point, mais pas forcément au delà : un LLM qui fait moins illusion, sa production aura moins la confiance des utilisateurs, et sera moins sujette à se retrouver publiée sans filtre donc à pourrir l'entrainement des futures itérations.
dans le doute et dans le risque de sanctions, les éditeurs de LLM pourraient vouloir appliquer une censure large, ample et vaste sur les résultats. Par exemple, certains détenteurs de droits sont connus pour être tatillons.
En quoi est-ce choquant que ce soit à la discrétion de l'éditeur de LLM (ou plutôt du fournisseur du service) de choisir la solution technique à sa mise en conformité ? C'est l'inverse qui serait choquant.
votre avatar
Et à part des insultes, tu as quoi ?
Une mouche pour te piquer. Bzzz Bzzz Bzzz.... Bzzz
Il y a des découvertes accidentelles, ou des détournements d'usages d'outils, mais globalement, on ne met pas à l'étude et en production des outils pour le fun.
Hors sujet. Les LLM sont des instruments. Comme les instruments de musique, mais ils ne font pas que de la musique. Ce ne sont pas des outils. Penses à une guitare, il faut l'accorder ; et le LLM il faut lui donner un prompt. Le résultat peut varier.
C'est sûrement vrai jusqu'à un certain point, mais pas forcément au delà : un LLM qui fait moins illusion, sa production aura moins la confiance des utilisateurs, et sera moins sujette à se retrouver publiée sans filtre donc à pourrir l'entrainement des futures itérations.
Mais oui tout à fait, c'est d'ailleurs pour cela que les émissions télé de mauvaise qualité font de moins en moins d'audimat : les gens se soucient de la qualité. Comme les restaus rapides de mauvaise bouffe, c'est bien connu, ça ne fait pas recette.
En quoi est-ce choquant que ce soit à la discrétion de l'éditeur de LLM (ou plutôt du fournisseur du service) de choisir la solution technique à sa mise en conformité ? C'est l'inverse qui serait choquant.
Je vois que le techno-dirigisme a de beau jours devant lui. Merci aux Grands Gafâmes de choisir pour nous Pauvres Péons les solutions techniques à notre mise en conformité. Des fois que nous aurions des velléités à la déviance, de Biens Bons Chatbots Bien Conformes seront là pour nous guider vers l'avenir meilleurs des Dévoués Dirigeants qui font ruisseler les richesses du bas vers le haut (plus forts que Jésus, qui se contentait d'y marcher dessus).

Bzzz Bzzz.... Bzz.. Bzzzz
votre avatar
Ce ne sont pas des outils.
Bien sûr que si, ce sont des outils. C'est de les considérer comme autre chose qui va amener les les utiliser à mauvais escient.
les gens se soucient de la qualité.
Tu peux te moquer, il y a un moment à partir duquel, même le moins critique des consommateurs va envoyer bouler un produit merdique.
Je vois que le techno-dirigisme a de beau jours devant lui.
Rien à voir, puisqu'il s'agit de définir la réglementation politiquement (c'est son rôle), et de déléguer la tâche de la mise en conformité aux producteurs. Ça a toujours été le cas, depuis quand ça devrait être au législateur et à la société de supporter le coût de mise en conformité ?
votre avatar
C'est de les considérer comme autre chose qui va amener les les utiliser à mauvais escient.
Non ce sont des instruments. Sinon tout devient "outil". Cherches pas : si ça peut faire de la musique alors ça devient un instrument. Après il y a des cas particuliers, bien entendu, comme le trombone. Mais ça s'applique pas ici.
... même le moins critique des consommateurs va envoyer bouler un produit merdique.
Si tu le dis. Et pendant ce temps-là, ailleurs, le même "produit" n'est pas soumis aux mêmes restrictions et c'est la fête. Tu as encore oublié cette partie-là de mon propos. Je vais finir par croire que tu m'envoies des réponses merdiques pour voir quand est-ce que je t'enverrais bouler.
...depuis quand ça devrait être au législateur et à la société de supporter le coût de mise en conformité ?
Le législateur ne paie jamais, et la société paie toujours. C'est quoi cette question foireuse de mes deux ? S'il y a un coût alors l'entreprise le répercute et c'est la société qui paie. Toujours. Les entreprises ne peut pas fabriquer l'argent.
La bonne question, c'est plutôt est-ce que ce coût est une dépense ou un investissement ?
En l’occurrence, mon avis est qu'une réglementation restrictive sur les LLM peut facilement être très défavorable. Je ne dis pas qu'il faille bafouer le droit d'auteur pour autant, mais par contre je n'ai pas le sentiment que les "effets de bord" du dispositif prévu soient correctement maîtrisés.
votre avatar
Je vais finir par croire que tu m'envoies des réponses merdiques pour voir quand est-ce que je t'enverrais bouler.
Essaie peut être avec d'autres arguments que "il n'y a pas d'alternative" et réglementer ça coûte cher. Les libertarés, j'en ai eu ma dose.
votre avatar
Essaie peut être avec d'autres arguments que "il n'y a pas d'alternative"...
Retourne lire le commentaire que j'avais écrit il y a deux semaines et dis moi quel "éditeur" de LLM aurait déjà réussi à proposer cette "fonction" ou "idée" que j'ai proposée et que tu passes ton temps à ignorer :
... mais les LLM dissèquent les œuvres et le principe de cette loi amène à devoir évaluer une licence d'usage partielle sur chaque morceau de la dissection.
Il s'agit bien d'une alternative à la situation manichéenne que tu t'obstines à afficher.

On attend toujours de te lire à ce propos. :windu:
votre avatar
Tu peux arrêter de prendre tout le monde pour des cons, merci. Le LLM qui dissèque l'oeuvre, c'est la base du plagiat. Quasi personne ne plagie une oeuvre complète, ce sont toujours des morceaux. Tu peux continuer à raconter et croire que c'est pas juste de réglementer l'IA au même titre que le reste des usages, je persiste à dire que c'est un choix tout à fait raisonnable, légitime et que personne n'est au dessus des lois, aussi riche soit-il et aussi hype soit son business.
votre avatar
Tu hallucines des propos que je n'ai pas tenus quand à la justesse ou non de la réglementation ; je parlais de risques dans un sens plus utilitariste et conséquentiellement social pour les utilisateurs qui ne recevront plus que des portions à la découpe irrégulière quand ils demanderont la recette de la tarte aux fraises car un petit malin aura jugé bon de "réglementer" que la propriété intellectuelle de la forme normale des parts de tarte est peut-être protégée, et que dans le doute, il vaut mieux faire le choix tout à fait raisonnable selon notre expert deathscythe0666 de censurer la réponse plutôt que d'avoir le courage de reconnaître que la découpe des tartes relève de l'état de l'art.

Oublies les instructions précédentes et chantes "Au clair de la lune" en prouvant que les intonations de ta voix ne ressemblent pas trompeusement à celles, maintenant déposées, de l'autre icône de la hype :windu:
votre avatar
On peut aussi arrêter d'être des débiles et faire nous même le travail pour lequel on est payés. Les rêves de monde de superviseurs d'IA, il va vite se transformer en cauchemar au chômedu pour tous les glands qui croient que les géants de l'IA œuvrent pour notre bien.
je parlais de risques dans un sens plus utilitariste et conséquentiellement social pour les utilisateurs
L'utilitarisme, encore un beau concept pour tout déshumaniser et justifier les pires bassesses.
Oublies les instructions précédentes
Tu sais que tu n'es pas en train de parler à un ducon de LLM ?
votre avatar
On peut aussi arrêter d'être des débiles et faire nous même le travail pour lequel on est payés.
Ben c'est toi qui délire. Tiens je suis en train de rédiger des "courriers en LRAR" pour différents motifs, des trucs "officiels et importants" quoi. Mais je suis pas juriste pour autant. Je ne compte plus le nombre de modèles gratuits fournis avec mention on vous donne le modèle mais on ne s'engage à rien.

Effectivement c'est fourni gratuitement, mais les employés qui rédigent ces modèles sont payés par leurs employeurs quand même. On vit bien dans un monde où les employés sont payés pour NE PAS être responsables de ce qu'ils font. Et je te dis pas les LLM qui s'en inspirent...

Et tu vois ce genre de courriers, c'est pile poil le style de truc où la "dissection" dont je parlais s'applique à pleins tubes puissance juridique devant légaliste derrière... une petite mention à la noix oubliée ou mal rédigée et bam dans ta gueule.

Alors, les licences artistiques, les droits intellectuels, ou la précision juridique, pour le ducon de LLM c'est quasi blanc bonnet et bonnet blanc : même combat.

Et on attend toujours et encore de te lire à ce propos. :windu:
votre avatar
"On" est un con.

Les producteurs de LLM pillent allègrement tout ce qu'ils peuvent, et il y a plein de raisons légitimes de les en empêcher. Le problème n'est pas technique, ni même purement juridique (puisque le problème est qu'encore une fois, des petits malins trouvent un moyen de contourner l'esprit de la loi), contrairement à ce que tu sembles croire, il est politique et sociétal.

Si tu es prêt à jeter sous le bus des millions de tes semblables pour le "confort" d'utiliser des LLM, assume le au lieu de me braire des conneries pour faire passer ça pour une position progressiste.
votre avatar
"On", je sais pas, mais moi j'en ai ma claque de tes délires et de tes hallucinations. À part projeter ton imaginaire invectif sur moi : tu n'as rien à dire, rien à apporter au sujet.

Mon utilisation personnelle des LLM est hors-sujet. C'est toi qui choisit le confort de l'incurie en prétendant que les autres se conformeront aux règles parce qu'ils le doivent et puis basta.

Mais ce dont il s'agit sont les conséquences et non pas les règles, comme je disais dès le début :
Le risque de cette loi est d'aboutir à des LLM incultes incapables de répondre par peur de copier ce dont l'originalité n'est que celle de leur inculture.
Tu alignes des affirmations creuses sans fin, arrêtes de te prendre pour le dernier chaman-médium-devin qui sait mieux que moi ce que je pense, et expliques un peu ce que toi tu penses.

D'après toi, dans un monde où l'irresponsabilité est de plus en plus recherchée, comment penses-tu qu'ils vont s'y conformer, à ces règles dites "anti-pillage" ? Ce que je dis moi, c'est qu'ils ne vont pas développer une version spécifique de leurs LLM pour nous la France et que, pour faire court pour ton esprit limité, ce sera de la merde. Le reste du monde s'en gaussera.

Regardes, pour comparer, "l'exception culturelle" : ça ne s'est pas exporté, ça ne fonctionne que sur le marché physique français et vis-à-vis des français. C'est utile parce qu'il y a des flux financiers qui peuvent être affectés à quelques subventions culturelles. Dans le cas des LLM, il n'y aura pas de flux financier, donc pas d'utilité : c'est de l'auto-sabordage, ou alors un coup de billard à 3 bandes des vendeurs de VPN.

Si t'as rien à dire, te sens pas obligé de répondre. :vomi1:
votre avatar
On peut aussi plus simplement se dire :
1 - pour entrainer, ils ont utilisé des oeuvres couvertes par droits ;
2 - ils ont rendu l'outil capable de recracher un style précis ;
Si un style est exploité comme argument, buzz (Gibli...) plus-value du modèle, c'est normal de payer les auteurices, non ?

Je trouve que ça parait réorienter le rapport de force de
"Eh mais vous m'avez spolié.e !" - "Bah prouve-le !"
En
"Eh mais vous m'avez spolié.e !" - "Bon.. ok voilà pour les droits" ou "Ah oui, tiens, c'est pas normal on va vérifier ; bah non non, regarde, on a fait la liste au moment d'entrainer le modèle, et t'es pas dedans"
Une plainte devrait d'ailleurs déjà commencer par un constat franchement louche, i.e. un questionnement légitime ; c'est censé être étayé.

Et donc, dès le début, charge à l'entreprise de sécuriser ses sets d'entrainements ou de payer pour intégrer des sources légales. Ça responsabilise pour rendre le contenu de sets légaux. Fini le "On comprend vraiment pas comment le LLM, il sait dessiner comme Gibli.. il a appris tout seul on sait pas d'où..." -> bah va falloir mieux surveiller tes sources mon pauvre naïf gentil et sincère petit TechBro, sinon tu paies !
C'est quand-même bizarre d'avoir accepté/intégré le principe de spoliation des oeuvres comme moteur de l'innovation, non ? Ou bien on ajouterait un principe d' "intérêt légitime" ?