Entrainement des IA et droit d’auteur : le Sénat inverse la charge de la preuve
On m'a dit de venir, pas de venir avec des bagages, pourquoi ?
Illustration : Flock
Le 09 avril à 12h22
Le Sénat a voté mercredi 8 avril à l’unanimité la proposition de loi visant à instaurer une présomption d’utilisation de contenus culturels protégés par un droit d’auteur au niveau des éditeurs d’IA. Le texte, qui doit maintenant passer à l’Assemblée nationale, inverse donc le rapport de force, puisqu’en cas de contentieux, ce sera aux acteurs de la tech de prouver qu’ils n’ont pas exploité un contenu de façon illicite.
Entrainement des IA et droit d’auteur : le Sénat inverse la charge de la preuve
On m'a dit de venir, pas de venir avec des bagages, pourquoi ?
Illustration : Flock
Le Sénat a voté mercredi 8 avril à l’unanimité la proposition de loi visant à instaurer une présomption d’utilisation de contenus culturels protégés par un droit d’auteur au niveau des éditeurs d’IA. Le texte, qui doit maintenant passer à l’Assemblée nationale, inverse donc le rapport de force, puisqu’en cas de contentieux, ce sera aux acteurs de la tech de prouver qu’ils n’ont pas exploité un contenu de façon illicite.
Droit
Droit
6 min
Beaumarchais a une nouvelle fois été convoqué sous les ors de la République mercredi 8 avril, lors des débats du Sénat autour de la proposition de loi « relative à l’instauration d’une présomption d’utilisation des contenus culturels par les fournisseurs d’intelligence artificielle ». Et les défenseurs du droit d’auteur n’ont pas été déçus, puisque l’article unique du texte a été adopté à l’unanimité, au terme d’une séance de débat plutôt consensuelle : le soutien à l’innovation ne doit pas se faire au détriment de la création culturelle et cette dernière doit être rémunérée à sa juste valeur dès lors qu’elle est exploitée.
Inverser la charge de la preuve pour forcer la transparence
Le texte adopté en première lecture dispose que, sauf preuve contraire, une œuvre protégée par un droit d’auteur ou un droit voisin « est présumée avoir été utilisée par le fournisseur du modèle ou du système d’intelligence artificielle, dès lors qu’un indice afférent au développement ou au déploiement de ce système ou au résultat généré par celui-ci rend vraisemblable cette utilisation ».
Autrement dit, si un ayant droit estime qu’une œuvre a été utilisée par un modèle (par exemple, parce qu’un chatbot est capable de citer des extraits d’un livre), c’est à l’opérateur de l’IA en question qu’il appartiendra de prouver qu’il n’a commis aucune utilisation irrégulière. Le texte instaure donc une inversion de la charge de la preuve, en instaurant une présomption d’exploitation.
« Ce ne sera plus au créateur de prouver le moissonnage de son œuvre, mais au fournisseur d’IA de prouver qu’il ne l’a pas utilisée. Notre objectif n’est pas de multiplier les procès, mais d’inciter les acteurs de l’IA à abandonner certains comportements de prédation pour un modèle fondé sur la transparence et la négociation. Aujourd’hui, les créateurs ne négocient pas ; ils subissent », a fait valoir en séance la sénatrice Agnès Evren (LR), auteure de la proposition de loi.
Elle a par ailleurs pris soin d’affirmer que ce renversement avait été validé par le Conseil d’État, et souligné que l’esprit de la proposition de loi rejoignait les recommandations formulées dans le récent rapport d’Alex Voss voté le 11 mars dernier au Parlement européen. Dans son texte, celui-ci invite en effet Bruxelles à « proposer l’établissement d’une présomption réfragable », mais il restreint cette dernière aux cas de non-respect d’un certain nombre d’obligations de transparence.
Le Sénat français va donc un cran plus loin, arguant du principe que ce renversement est indispensable pour contraindre les éditeurs d’IA à faire preuve d’une vraie transparence sur leurs données d’entraînement. « On nous oppose souvent le secret des affaires, ce bouclier dont les entreprises d’IA usent et abusent. Or si l’algorithme relève du secret industriel, les données pour le nourrir sont le fruit du travail d’autrui. La transparence n’est pas une menace pour l’innovation, c’est la condition de l’acceptabilité sociale de l’IA », a défendu Catherine Morin-Desailly (Union centriste).
Représenté par ses ministres de la Culture et de l’Intelligence artificielle et du numérique, le gouvernement a pour sa part tenu une position plus nuancée.
« Le Gouvernement partage l’objectif du mécanisme proposé par la commission, mais le contentieux ne peut pas constituer notre unique horizon, car il entraîne des risques : judiciarisation excessive, insécurité juridique prolongée, multiplication des procédures. Mieux vaut un bon accord qu’un mauvais procès », a prudemment avancé Catherine Pégard, ministre de la Culture.
Anne Le Hénanff, ministre déléguée chargée de l’intelligence artificielle et du numérique, a quant à elle plus fermement défendu le point de vue des acteurs de la tech :
« Avec une telle présomption, l’entreprise devra apporter la preuve négative de l’utilisation de données culturelles, via l’analyse de dizaines de téraoctets de données ; c’est tout simplement impossible ! Tous les acteurs économiques qui ont développé des modèles d’IA – entreprises du CAC 40, TPE-PME, start-up – risqueraient un contentieux, ce qui serait dévastateur pour notre économie ».
Elle aussi appelle à privilégier la négociation au contentieux, en s’engageant à soutenir « toutes les initiatives contractuelles entre les acteurs de l’IA et ceux de la culture », ainsi qu’à participer aux évolutions à venir du cadre européen, « car c’est en agissant au bon niveau que nous obtiendrons la sécurité juridique nécessaire ».
Négocier, mais autour de quelle table ?
L’attente est-elle entendable du point de vue des ayants droit, alors que les illustrations d’utilisation à grande échelle de contenus protégés se multiplient ? Dans le sillage du procès ouvert aux États-Unis contre Meta pour entraînement de ses modèles sur les contenus de la bibliothèque clandestine LibGen, plusieurs articles de Mediapart ont montré ces derniers mois le recours à des contenus protégés par l’entreprise française Mistral AI.
Plus récemment, une nouvelle enquête, publiée le 6 avril, démontre que des centaines de milliers d’ouvrages ou d’articles scientifiques accompagnés de la mention « tous droits réservés » figurent dans l’immense jeu de données finepdfs hébergé sur Hugging Face.
Au-delà de sa dimension contentieuse, la proposition de loi serait, dans ce contexte et pour ses promoteurs, un accélérateur visant à sortir du statu quo dont profitent les acteurs de l’IA.
« Il y a urgence, car le pillage continue. J’ai l’impression que quand on montre un peu de fermeté, certains, qui s’y refusaient, viennent à la table des négociations », estime Max Brisson (LR). Avec, déjà, des effets positifs, selon Laure Darcos (groupe Les indépendants), rapporteure du texte :
« Notre mécanisme, juridiquement solide et politiquement efficace, produit d’ores et déjà ses effets : le PDG de Mistral AI a proposé une contribution des entreprises d’IA en fonction de leur chiffre d’affaires pour accéder aux contenus protégés. »
Reste à voir si cette déclaration d’intention suffira à faire pencher la balance lors de l’examen du texte à l’Assemblée nationale.
Commentaires (76)
Abonnez-vous pour prendre part au débat
Déjà abonné ou lecteur ? Se connecter
Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles d'un média expert
Profitez d'au moins 1 To de stockage pour vos sauvegardes
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 9 avril à 12h45
Côté Europe, rappelons aussi la résolution votée le 10 mars sur le droit d'auteur et l'IA générative.
Le 9 avril à 12h53
Modifié le 9 avril à 12h59
Le 9 avril à 13h15
Rien ne garantirait que la liste est exacte. C'est très compliqué à prouver sauf à avoir un commissaire de justice qui vérifie tout le processus d'entraînement ce qui est en fait impossible en particulier par rapport au temps mis pour entraîner un modèle : il faut garantir qu'il n'y a rien qui est ajouté lors de l'entraînement après la que la liste ait été contrôlée .
Comme dit plus bas, c'est très compliqué de prouver qu'une chose n'a pas été faite par la société accusée.
Le 9 avril à 13h29
Le 9 avril à 13h34
Par contre, poursuivre pour contrefaçon un fournisseur d'IA générative est relativement facile. Il suffit de prouver qu'il ressort "quasiment" une œuvre. C'est le même processus que poursuivre un humain pour contrefaçon.
Il n'est peut-être pas utile d'ajouter des choses dans la loi quand la loi existante permet déjà de poursuivre quelqu'un.
Le 9 avril à 13h55
clap clap clap
(1er degré.)
Modifié le 9 avril à 19h38
Et un autre problème, c'est qu'un procès en contrefaçon, ça va apparemment couter entre 10k€ et 50k€ (voire plus, beaucoup plus) et durer plusieurs années. Autant dire que peu se lanceront dans la procédure et que c'est open bar pour les pilleurs.
Le 9 avril à 20h29
Le 10 avril à 01h28
Il n'y a aucun préjudice à intégrer du contenu copyrighté dans un LLM.
Si quelqu'un l'utilise pour faire de la contrefaçon, là, oui, mais c'est déjà punis par la loi.
Le 10 avril à 08h25
Modifié le 10 avril à 12h59
https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-2-Copyrightability-Report.pdf
https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf
Le 10 avril à 14h16
Les conclusions du second ne vont pas vraiment dans le sens de "Il n'y a aucun préjudice à intégrer du contenu copyrighté dans un LLM."
Au contraire, il n'est pas directif, considère que ça dépend et n'estime pas comme fair l'usage massif de matériel sous copyright réutilisé de manière commercial ou d'origine illicile.
En fait, la conclusion de la partie 3 est plus ou moins proche du cadre européen en mettant une séparation entre la recherche et le commercial. À laquelle ils considèrent qu'un modèle de licensing serait plus pertinent.
Le 10 avril à 15h39
Le 10 avril à 16h41
On sera avisés une fois les jurisprudences établies en ce qui concerne les USA.
(là où dans l'UE le cadre est déjà clair)
Le 10 avril à 23h00
Modifié le 9 avril à 14h32
Par exemple, l'entreprise peut montrer au tribunal son registre des œuvres utilisées (ou des consentements dans le cas du RGPD), la note de service qui indique qu'il est interdit d'utiliser des œuvres sans les mettre au registre, qu'il y a une équipe chargée de faire en sorte qu'il n'y ait pas de fraude sur le registre, et que cette équipe a les moyens de mener sa mission à bien.
Et ainsi, si une œuvre n'est pas au registre, l'entreprise peut se retourner contre l'employé qui n'a pas respecté la note de service.
Le but est assez proche du RGPD : une entreprise doit prouver qu'elle a eu l'accord d'un ayant-droit (sur sa vie privée ou sur ses œuvres) ou n'a pas utilisé son contenu, plutôt que demander à l'ayant-droit de prouver qu'il n'y a pas eu d'accord. Ça permet de mettre hors de jeu les différences de moyens juridiques, puisqu'aussi bien sur le RGPD où on parle exclusivement de particuliers que sur les droits d'auteur qui vont jusqu'au petit blog on a des personnes sans moyens de payer un avocat qui peuvent se retrouver contre une armée de juristes.
Le 9 avril à 12h54
Le 9 avril à 13h36
Pour le dire autrement, si je dessine un arbre, c'est basé en partie sur ce que j'ai vu de dessins d'arbres, mais aussi en partie sur les vrais arbres dehors que j'ai vu de mes propres yeux. Le second représente probablement même la majeure partie de mon expérience du concept visuel "d'arbre". Et même si je dessine quelque chose que je n'ai jamais vu en vrai, par exemple un durian, l'image que je m'en fais est en partie informée par des photos certes, mais aussi en partie par mon expérience générale et réelle des fruits, des écorces, des textures, etc.
Pour cette raison, à moins que la ressemblance avec une œuvre existante soit frappante, on peut me donner le bénéfice du doute sur le fait que mes œuvres sont majoritairement le produit de mon esprit, formé par mon expérience du monde, et pas majoritairement issues de diverses œuvres existantes.
L'IA ne peut pas en dire autant. La quasi-totalité de son entraînement est basé sur des œuvres, la plupart encore protégées par le droit d'auteur.
La comparaison apprentissage humain/apprentissage IA aura du sens le jour où une IA passera la majeure partie de sa journée à faire l'expérience du monde qui l'entoure via une webcam, un micro, et des roulettes pour se déplacer.
Le 10 avril à 10h28
Il faudrait un filtre sur l'image de sortie pour ne pas la publier si elle ressemble trop à une image apprise. Bien sûr cela impliquerait une consommation de ressources élevée.
On pourrait penser que si on faisait cela, presque toutes les images créées seraient éliminées, mais je pense que les IA génératrices sont capable de conceptualiser des oeuvres originale.
Ce qui me fait penser cela est une expérience que j'aime faire, et que je vous invite à reproduire : demander à une IA de donner le code en p5js (par exemple) pour dessiner un chien ou autre chose. Je suis très étonné par le résultat, car l'IA dessine effectivement un chien avec des formes géométriques. Comment conceptualise-t-elle le chien avec sa tête, son corps, ses pattes... ? Je n'ai toujours pas la réponse....
Le 10 avril à 11h31
Les concepts sont "encodés" dans son réseau de neurone et elle arrive à les ressortir dans différents contextes.
Le 10 avril à 12h46
mais, je ne comprends toujours pas comment elle fait le chemin de la description d'un chien à un positionnement dans l'espace de ses différents éléments, puis à l'utilisation des bonnes formes pour le dessiner, le tout en code informatique... Et ça marche aussi en 3d dans blender demandant du code python. Et ce qui est amusant, c'est qu'on dirait des dessins d'enfant...
Le 10 avril à 14h16
Le 9 avril à 13h08
Modifié le 9 avril à 14h27
On parle de mesures organisationnelles comme pour le RGPD (c'est à l'entreprise de prouver que t'as coché la case, pas à toi de prouver que tu l'as pas fait).
Par exemple, l'entreprise peut montrer au tribunal son registre des œuvres utilisées (ou des consentements dans le cas du RGPD), la note de service qui indique qu'il est interdit d'utiliser des œuvres sans les mettre au registre, qu'il y a une équipe chargée de faire en sorte qu'il n'y ait pas de fraude sur le registre, et que cette équipe a les moyens de mener sa mission à bien.
Et ainsi, si une œuvre n'est pas au registre, l'entreprise peut se retourner contre l'employé qui n'a pas respecté la note de service.
Le 14 avril à 14h43
Ce qui est trompeur, c'est que çà paraît facile et evident avec des œuvres de référence (Mickey ou la Joconde, il n'y pas de souci). Pour une "oeuvre" en général, c'est juste mission impossible. Œuvre avec des guillemets, car c'est l'identification de la notion d'œuvre dans les sources qui pose un problème insoluble.
Après, l'entreprise peut toujours mettre à la disposition d'un tribunal le jeu de données brutes ayant servi à l'entraînement du llm (le registre), en disant: "vous pouvez verifier". Vu le coût d'extraction parmi plusieurs péta-octets de données d'une information, dont on ne connaît même pas la forme, ils peuvent dormir tranquilles, même si elle y est effectivement présente, le budget alloué à la vérification aura été consommé bien avant l'aboutissement de la vérification.
Le 16 avril à 13h15
Exemple : Si je demande à une "IA" générative, une image de BATMAN tm qui chevauche une banane. Et que je vends des Tshirts avec.
De ce que je comprends, le concepteur de "l'IA" pourrait poursuivi, quand bien même l'utilisateur, non ?
Le 16 avril à 13h20
Modifié le 9 avril à 13h30
Après sur le principe, un meilleur cadre serait une bonne chose, mais pas comme ça...
Le 9 avril à 13h28
Comme elle pense qu'il est facile de prouver que quelque chose n'a pas été fait, elle n'aura aucun problème à prouver qu'elle est innocente. À défaut, elle va comprendre la difficulté qu'auront les entreprises à prouver qu'elles n'ont pas utilisé une œuvre donnée pour l'entraînement de leur IA si la proposition de loi est aussi votée à l'Assemblée Nationale.
Modifié le 9 avril à 18h56
Le 9 avril à 18h57
Elle veut donc couvrir d'autres cas moins évidents que celui-ci et si ces cas ne sont pas évidents, ce n'est pas une bonne justice de faire porter la charge de la preuve à quelqu'un qui doit prouver qu'il n'a pas fait quelque chose ce qui est toujours compliqué à prouver.
Modifié le 9 avril à 19h52
Il peut sembler normal que s'il y a "un indice qui rend vraisemblable l'exploitation d'une oeuvre protégée", ce soit au propriétaire du système de prouver que ce n'est pas le cas.
Le 9 avril à 20h20
Comme ça, la justice va aller plus vite et on n'aura plus d'engorgement de celle-ci.
Quant à l'opposition riche/pauvre, ça existe dans plein de cas : le riche aura des avocats expérimentés et le pauvre aura droit à un avocat payé par l'aide juridictionnelle. Aucune raison de faire un cas particulier pour l'IA.
Le 10 avril à 12h34
Il peut sembler normal que s'il y a un indice qui rend vraisemblable le meurtre, on demande au suspect de prouver qu'il était ailleurs à ce moment-là.
Le texte ne dit pas "s'il y a un indice, ça vaut condamnation" comme tu l'affirmes. On sent bien que tu es fortement concerné par le problème.
Le 10 avril à 12h53
Quant à être concerné, je le suis comme justiciable et défenseur des droits humains, j'ai horreur de tout ce qui peut condamner un innocent sans preuve. Je préfère un coupable en liberté qu'un innocent en prison.
Je n'ai aucun lien avec les activités de l'IA, je n'utilise pas l'IA générative. Le seul bénéfice que je tire de l'IA, c'est par mes actions ASML, mais ce n'est pas ça qui me fait me positionner ici.
C'est quand même fou que l'on ne puisse pas avoir une position réfléchie sans être accusé d'être fortement concerné par le sujet ! À croire que tout le monde n'agit que dans son propre intérêt !
Modifié le 10 avril à 14h18
Le 9 avril à 20h04
Je développe ici autre chose : dans l'opensource, il y a les "reproducible builds" qui permettent de refaire à l’octet près un binaire depuis les sources et les outils pour le créer.
Il n'y a plus qu'à documenter les sources que le modèle utilise et à prouver soit par un tiers de confiance, soit par moyen cryptographique que le modèle a bien exclusivement été généré sur les sources.
Le 9 avril à 20h27
Quant à ton idée de modèle reproductible, qui paiera le coût du nouvel apprentissage pour vérifier que l'on obtient bien le même modèle ? Parce qu'entraîner un modèle, ça coûte un bras et deux reins ! C'est inapplicable.
Le 9 avril à 21h08
Le 10 avril à 12h38
Le 9 avril à 20h09
Le 9 avril à 20h16
Le 9 avril à 20h20
J'apprécie que le législateur prenne le sujet en main (même si, comme tu l'évoques, on a déjà le nécessaire), mais là ça me semble clairement pas la bonne approche.
Le 10 avril à 12h13
Il peut être requis en revanche que l'entreprise montre qu'elle tient une base de données des œuvres utilisées avec les licences afférentes et qu'elle a des process en place pour se servir dans cette base de données uniquement.
En pratique d'ailleurs je pense que ça ne changera pas grand chose. Je vois d'ici ce qui va se passer :
Modifié le 10 avril à 14h29
Il y a un précédent non judiciaire cela dit avec le data set LAION 5b (qui a notamment servi à Stable Diffusion à l'époque) mis hors ligne après avoir découvert du contenu illégal dedans (viol, pedobear-approved content, etc.).
C'est peu ou prou la même chose que Libgen dont plusieurs entreprises sont accusées d'avoir fait l'usage.
À voir ce que ça donnera s'il y a des plaintes qui sont portées.
Le 10 avril à 18h14
Là, "Margoulins inc." prétendra, au moins en façade, que tout son contenu est légal. Les entreprises d'IA se contenteront de pas aller y regarder de trop près. Le temps qu'on s'aperçoive qu'ils ont fait une interprétation iconoclaste du concept de légalité, tout le monde sera soit dédouané (le cas échéant via 2-3 niveaux d'intermédiaires), soit déjà loin.
Le 10 avril à 20h12
Après, il me semble que dans tous les cas l'AI Act impose des responsabilités sur le producteur du modèle en matière de transparence des data set d'entraînement.
Le 9 avril à 17h58
La difficulté se situe au niveau de l'appréciation de « l'état de l'art ». Si on se concentre sur le sujet de l'apprentissage du codage informatique, alors il y a un gros corpus d'œuvres récentes libres et un gros corpus d'œuvres récentes protégées. Mais ces œuvres protégées incluent aussi des techniques qui ne sont que celles de « l'état de l'art » : pourquoi les exclure de l'apprentissage alors que, précisément, il faut avoir une culture étendue de l'art pour en connaître l'état ?
Actuellement un auteur ou créateur appose une licence sur l'ensemble d'une œuvre indépendamment de l'originalité partielle de chaque partie de son œuvre, mais les LLM dissèquent les œuvres et le principe de cette loi amène à devoir évaluer une licence d'usage partielle sur chaque morceau de la dissection.
Le risque de cette loi est d'aboutir à des LLM incultes incapables de répondre par peur de copier ce dont l'originalité n'est que celle de leur inculture.
Le 10 avril à 14h20
Le 10 avril à 21h37
Par contre, les baisés eux, tu y as pensé ou tu n'en a rien à faire ?
Le 12 avril à 21h31
Le 13 avril à 19h49
C'est toi qui parles de baise pour en faire le problème des autres « concepteurs/vendeurs de LLM » : attitude passive, tu envoies des piques et ... ... ... et rien en fait, tu attends, contemplatif, armé de pop-corn jusqu'aux dents.
C'est le procédé narratif employé par Philip.K.Dick dans The Hanging Stranger, adapté à l'écran dans l'épisode 10 des Rêves électriques
Une œuvre de valeur
Le 14 avril à 18h02
Et je vois pas le rapport : si les éditeurs de LLM ne peuvent plus voler le travail des autres, plus personne n'y perd.
Ou alors, tu lis ce que j'ai écrit sans sauter la moitié de la phrase.
Le 14 avril à 18h41
On peut citer l'enlèvement des Sabines : un bel exemple historique de baise contrevenant aux lois, où les baiseurs et les baisés nouèrent un partenariat baisant les autres.
Le 15 avril à 01h07
Le 15 avril à 18h26
Modifié le 16 avril à 00h01
Ou pour le dire encore plus brièvement : "la fin ne justifie pas les moyens".
Le 16 avril à 22h57
Ou pour le dire encore plus brièvement : quelque soit la foi que tu mettras à te tirer une balle dans chaque pied, je ne suis pas médecin.
Le 17 avril à 23h56
Pour ma part et même si je suis utilisateur de LLM, je suis plutôt d'accord avec lui. C'est une technologie dont on peut se passer si c'est la seule solution pour arrêter de piétiner les droits d'autrui. Mon discours serait différent si on parlait, par exemple, des IA capables de détecter un cancer mieux et plus précocément que n'importe quel être humain. Mais pour les LLM, on peut faire sans, c'est pas si grave, La vie n'était pas tellement plus laide avant Novembre 2022 quand ChatGPT a mis les LLM dans les mains du public. Au contraire, même.
Mais c'est un débat qu'on peut avoir.
Le 18 avril à 20h04
La balle, le pied, l'hypocrisie, tout ça, etc.
Modifié le 19 avril à 13h03
Tout fonctionnait très bien (mieux même ?) avant que les LLM arrivent. À quel problème réel répondent les LLM ? On a pas assez d'employés ? On n'a pas assez d'applications, de vidéos, d'articles créés ?
C'est pour une application à tous les LLM qui veulent être fournis en France, peu importe où ils sont en pratique. Et il resterait à démontrer que les LLM entrainés sans voler les contenus sous licence sont vraiment plus cons que les LLM qui pillent allègrement tout.
De toute façon, la fin justifie les moyens, c'est un concept de merde qui finit presque toujours par un totalitarisme ou un autre.
Le 21 avril à 21h21
Grand naïf que j'étais, je n'y mettais qu'un dé
En vrac et sans sachet :
Le 22 avril à 10h40
Il y a des découvertes accidentelles, ou des détournements d'usages d'outils, mais globalement, on ne met pas à l'étude et en production des outils pour le fun.
C'est sûrement vrai jusqu'à un certain point, mais pas forcément au delà : un LLM qui fait moins illusion, sa production aura moins la confiance des utilisateurs, et sera moins sujette à se retrouver publiée sans filtre donc à pourrir l'entrainement des futures itérations.
En quoi est-ce choquant que ce soit à la discrétion de l'éditeur de LLM (ou plutôt du fournisseur du service) de choisir la solution technique à sa mise en conformité ? C'est l'inverse qui serait choquant.
Le 22 avril à 20h27
Hors sujet. Les LLM sont des instruments. Comme les instruments de musique, mais ils ne font pas que de la musique. Ce ne sont pas des outils. Penses à une guitare, il faut l'accorder ; et le LLM il faut lui donner un prompt. Le résultat peut varier.
Mais oui tout à fait, c'est d'ailleurs pour cela que les émissions télé de mauvaise qualité font de moins en moins d'audimat : les gens se soucient de la qualité. Comme les restaus rapides de mauvaise bouffe, c'est bien connu, ça ne fait pas recette.
Je vois que le techno-dirigisme a de beau jours devant lui. Merci aux Grands Gafâmes de choisir pour nous Pauvres Péons les solutions techniques à notre mise en conformité. Des fois que nous aurions des velléités à la déviance, de Biens Bons Chatbots Bien Conformes seront là pour nous guider vers l'avenir meilleurs des Dévoués Dirigeants qui font ruisseler les richesses du bas vers le haut (plus forts que Jésus, qui se contentait d'y marcher dessus).
Bzzz Bzzz.... Bzz.. Bzzzz
Le 23 avril à 10h14
Tu peux te moquer, il y a un moment à partir duquel, même le moins critique des consommateurs va envoyer bouler un produit merdique.
Rien à voir, puisqu'il s'agit de définir la réglementation politiquement (c'est son rôle), et de déléguer la tâche de la mise en conformité aux producteurs. Ça a toujours été le cas, depuis quand ça devrait être au législateur et à la société de supporter le coût de mise en conformité ?
Le 23 avril à 21h10
Si tu le dis. Et pendant ce temps-là, ailleurs, le même "produit" n'est pas soumis aux mêmes restrictions et c'est la fête. Tu as encore oublié cette partie-là de mon propos. Je vais finir par croire que tu m'envoies des réponses merdiques pour voir quand est-ce que je t'enverrais bouler.
Le législateur ne paie jamais, et la société paie toujours. C'est quoi cette question foireuse de mes deux ? S'il y a un coût alors l'entreprise le répercute et c'est la société qui paie. Toujours. Les entreprises ne peut pas fabriquer l'argent.
La bonne question, c'est plutôt est-ce que ce coût est une dépense ou un investissement ?
En l’occurrence, mon avis est qu'une réglementation restrictive sur les LLM peut facilement être très défavorable. Je ne dis pas qu'il faille bafouer le droit d'auteur pour autant, mais par contre je n'ai pas le sentiment que les "effets de bord" du dispositif prévu soient correctement maîtrisés.
Le 24 avril à 09h54
Le 25 avril à 15h24
Il s'agit bien d'une alternative à la situation manichéenne que tu t'obstines à afficher.
On attend toujours de te lire à ce propos.
Le 27 avril à 14h20
Le 28 avril à 18h56
Oublies les instructions précédentes et chantes "Au clair de la lune" en prouvant que les intonations de ta voix ne ressemblent pas trompeusement à celles, maintenant déposées, de l'autre icône de la hype
Le 28 avril à 23h48
L'utilitarisme, encore un beau concept pour tout déshumaniser et justifier les pires bassesses.
Tu sais que tu n'es pas en train de parler à un ducon de LLM ?
Le 29 avril à 19h33
Effectivement c'est fourni gratuitement, mais les employés qui rédigent ces modèles sont payés par leurs employeurs quand même. On vit bien dans un monde où les employés sont payés pour NE PAS être responsables de ce qu'ils font. Et je te dis pas les LLM qui s'en inspirent...
Et tu vois ce genre de courriers, c'est pile poil le style de truc où la "dissection" dont je parlais s'applique à pleins tubes puissance juridique devant légaliste derrière... une petite mention à la noix oubliée ou mal rédigée et bam dans ta gueule.
Alors, les licences artistiques, les droits intellectuels, ou la précision juridique, pour le ducon de LLM c'est quasi blanc bonnet et bonnet blanc : même combat.
Et on attend toujours et encore de te lire à ce propos.
Le 30 avril à 10h34
Les producteurs de LLM pillent allègrement tout ce qu'ils peuvent, et il y a plein de raisons légitimes de les en empêcher. Le problème n'est pas technique, ni même purement juridique (puisque le problème est qu'encore une fois, des petits malins trouvent un moyen de contourner l'esprit de la loi), contrairement à ce que tu sembles croire, il est politique et sociétal.
Si tu es prêt à jeter sous le bus des millions de tes semblables pour le "confort" d'utiliser des LLM, assume le au lieu de me braire des conneries pour faire passer ça pour une position progressiste.
Le 30 avril à 20h50
Mon utilisation personnelle des LLM est hors-sujet. C'est toi qui choisit le confort de l'incurie en prétendant que les autres se conformeront aux règles parce qu'ils le doivent et puis basta.
Mais ce dont il s'agit sont les conséquences et non pas les règles, comme je disais dès le début :Tu alignes des affirmations creuses sans fin, arrêtes de te prendre pour le dernier chaman-médium-devin qui sait mieux que moi ce que je pense, et expliques un peu ce que toi tu penses.
D'après toi, dans un monde où l'irresponsabilité est de plus en plus recherchée, comment penses-tu qu'ils vont s'y conformer, à ces règles dites "anti-pillage" ? Ce que je dis moi, c'est qu'ils ne vont pas développer une version spécifique de leurs LLM pour nous la France et que, pour faire court pour ton esprit limité, ce sera de la merde. Le reste du monde s'en gaussera.
Regardes, pour comparer, "l'exception culturelle" : ça ne s'est pas exporté, ça ne fonctionne que sur le marché physique français et vis-à-vis des français. C'est utile parce qu'il y a des flux financiers qui peuvent être affectés à quelques subventions culturelles. Dans le cas des LLM, il n'y aura pas de flux financier, donc pas d'utilité : c'est de l'auto-sabordage, ou alors un coup de billard à 3 bandes des vendeurs de VPN.
Si t'as rien à dire, te sens pas obligé de répondre.
Le 9 avril à 22h57
1 - pour entrainer, ils ont utilisé des oeuvres couvertes par droits ;
2 - ils ont rendu l'outil capable de recracher un style précis ;
Si un style est exploité comme argument, buzz (Gibli...) plus-value du modèle, c'est normal de payer les auteurices, non ?
Je trouve que ça parait réorienter le rapport de force de
"Eh mais vous m'avez spolié.e !" - "Bah prouve-le !"
En
"Eh mais vous m'avez spolié.e !" - "Bon.. ok voilà pour les droits" ou "Ah oui, tiens, c'est pas normal on va vérifier ; bah non non, regarde, on a fait la liste au moment d'entrainer le modèle, et t'es pas dedans"
Une plainte devrait d'ailleurs déjà commencer par un constat franchement louche, i.e. un questionnement légitime ; c'est censé être étayé.
Et donc, dès le début, charge à l'entreprise de sécuriser ses sets d'entrainements ou de payer pour intégrer des sources légales. Ça responsabilise pour rendre le contenu de sets légaux. Fini le "On comprend vraiment pas comment le LLM, il sait dessiner comme Gibli.. il a appris tout seul on sait pas d'où..." -> bah va falloir mieux surveiller tes sources mon pauvre naïf gentil et sincère petit TechBro, sinon tu paies !
C'est quand-même bizarre d'avoir accepté/intégré le principe de spoliation des oeuvres comme moteur de l'innovation, non ? Ou bien on ajouterait un principe d' "intérêt légitime" ?
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?