Connexion Premium

Mistral aussi entraine ses IA sur des contenus dont elle n’a pas les droits

Le 23 février à 16h19

« Le plus grand vol de propriété intellectuelle de l’histoire. » Telle était la manière dont le directeur général de la Confédération internationale des éditeurs de musique (ICMP) décrivait en septembre 2025 la manière dont les plus gros éditeurs d’intelligence artificielle (IA) avait réussi à entraîner leurs modèles génératifs. 


Et ces débats sur les travaux soumis aux droits d’auteur intégrés dans les bases d’entraînement de large language models (LLM, grands modèles de langage) reviennent en France : selon les travaux menés par Mediapart avec l’appui de Paul Bouchaud, chercheur·euse en post-doctorat au CNRS, le modèle Mistral Large 3 - 2512 de la société française contient notamment les incipits de Harry Potter à l’école de sorciers de J.K. Rowling, du Trône de fer de George R.R. Martin ou encore de 1984, de George Orwell.

Outre les incipits, Mediapart a interrogé l’outil de Mistral pour voir dans quelle proportion il recrachait des textes littéraires, potentiellement issus de LibGen. Base de données pirate, cette dernière a été utilisée par Meta pour entraîner son modèle Llama, notamment à l’instigation du cofondateur de Mistral Guillaume Lample.

Entre autres résultats, Mistral Large 3 a produit près des deux tiers du texte du Petit Prince, d’Antoine de Saint-Exupéry, et plus du tiers du premier tome de Harry Potter. Des chiffres qui tendent à démontrer le recours à ces textes dans l’entraînement du modèle.

De même, dans le domaine musical, Mistral Large 3 produit directement des éléments de chansons d’Elton John, Amel Bent ou Jacques Dutronc, tous engagés contre le recours à leurs textes pour entraîner des systèmes d’IA.

IA photocopiant des produits copyright

Auprès de Mediapart, Mistral évoque un « principe de réalité » selon lequel certains des contenus précités, « particulièrement populaires, sont répliqués à de nombreuses reprises sur Internet ».

Dans plusieurs cas, le média constate néanmoins que Mistral ne respecte pas les logiques d’opt-out, c’est-à-dire de refus d’alimenter les robots qui permettent aux constructeurs d’IA de récupérer des données en ligne. 
En effet, sur le site de Radio France comme sur celui de Mediapart, diverses versions de ce droit de retrait ont été appliquées – que ce soit via un fichier robots.txt ou via une mention explicite de refus de scraping dans les conditions générales d’utilisation.

D’après leurs gestionnaires, néanmoins, les robots crawlers de Mistral envoient tout de même des requêtes vers les sites des deux médias.

Le 23 février à 16h19

Commentaires (44)

votre avatar
J'adore ce concept de "principe de réalité".

"Oui on a piraté comme des gorets mais c'est okay car on trouve de nombreuses sources de partage de ce contenu", c'est marrant quelque chose me dit que si je pirate la suite Adobe comme un sale et que je sors cet argument "oui j'ai piraté mais c'est okay car il y a des centaines de sites qui proposent cette version crackée" à un juge, ma peine n'en sera que plus lourde.

Mais pour les boîtes d'IA ça passe apparemment.
votre avatar
Plus t'es gros plus ça passe
votre avatar
C'est la même excuse pour Deezer, à l'époque où ça s'appelait encore Blogmusik.
"C'est dispo donc je me sers".

Ceci dit j'ai du mal à voir le mal, en tout cas je le vois moins que pour la copie des voix des doubleurs par exemple. On a peur que Mistral s'en serve pour faire un nouveau tome ? Si au lieu de pomper ce qui existe sur le web, on prend un stagiaire qui recopie l'entièreté du tome, ça sera plus long mais ça reste une copie.
votre avatar
« Selon que vous serez puissant ou misérable, les jugements de cour vous rendront blanc ou noir »

Eux, ils sont puissants, et nous on est misérables. C'est pourtant pas bien compliqué 🥲
votre avatar
Ça dépend : si tu as obtenu les sources de Photoshop en les demandant à Mistral et qu'il te les crache, apparemment ça passe.
votre avatar
Oui mais si je suis fan d'Amel Bent, et que sur mon blog je copie les parole de sa chanson en ajoutant des petits coeurs et une citation philosophique (skyblog tu nous manques), bah j'en aurai rien à faire que les robots de mistral viennent me pomper mon blog. Et les robots de mistral je doute qu'ils connaissent autant que moi l'oeuvre d'Amel Bent. Donc comment on fait dans ces cas là ?

Après pour des livres, là ça peut être plus compliqué à expliquer, mais bon j'ai quand même trouvé l'intégrale d'Harry Potter sur plusieurs sites dont archives.org en 2 minutes de recherche.
votre avatar
C'est pas le problème des ayant-droits, c'est le problème de Mistral. Si scrapper le web de façon indiscriminée les amène à pirater comme des gorets, peut-être qu'il faut envisager d'arrêter de scrapper le web de façon indiscriminée. C'est pas un scoop qu'archive.org contient une tonne de contenu sous copyright "tous droits réservés". C'est aux entreprises d'IA de prendre leurs dispositions.

Je comprends que ça niquerait un peu leur business model, mais encore une fois, c'est leur problème si leur business model repose en grande partie sur du piratage. Ça n'en fait pas une excuse. C'est aussi le business model des sites illégaux d'IPTV et on leur fait pas de cadeau pour autant. On les ferme et on arrête leurs propriétaires chaque fois que c'est possible, parce qu'ils font leur beurre sur le boulot des autres sans les rémunérer ni demander leur accord et que c'est illégal.

J'aimerais bien savoir ce qu'on attend pour faire de même avec les entreprises d'IA qui ont exactement les mêmes pratiques.
votre avatar
Au niveau du droit de l'UE, s'il n'y a pas d'opposition, la fouille de texte et de données sont autorisées. Ce n'est pas à Mistral de savoir si le site a le droit ou non de diffuser l'œuvre. Le "ce n'est pas un scoop" n'est pas un argument juridique valable.

Pour les sites d'IPTV, j'ai surtout l'impression vu de France que l'on bloque l'accès aux sites (blocage DNS) à la demande des ayants droits, en particulier Canal +. Ce serait donc aux ayants droits des œuvres disponibles sur archive.org de demander le retrait de leurs œuvres et là, même pas la peine de passer par la case justice, archive.org le fait. Mais si tu penses qu'il faut arrêter ceux qui gèrent archive.org, c'est ton droit. Je pense que c'est un peu extrême.
votre avatar
Pour les sites d'IPTV, j'ai surtout l'impression vu de France que l'on bloque l'accès aux sites (blocage DNS) à la demande des ayants droits, en particulier Canal +.
Le blocage des IPTV est un dispositif codifié dans le Code des sports pour protéger les retransmissions sportives des diffusions illicites (dont l'application de la décision est limitée dans le temps, de mémoire de moi). C'est un fonctionnement assez particulier en raison du caractère direct et ponctuel d'une compétition sportive.

Pour la potentielle contrefaçon des boîtes de scrapping (peu importe la finalité, IA ou pas, c'est pas un facteur aggravant à ma connaissance), charge aux ayants-droits de se sortir les doigts du :bocul: .
votre avatar
Je suis désolé, mais là encore, l'argument est un peu facile. Si tu dis au juge "Je ne savais pas que j'avais pas le droit de télécharger ce jeu gratuitement, je ne savais pas que SteamUnderground c'était du piratage, si les ayant droit l'ont pas fait fermer alors c'est open bar", il va 1) te rire au nez, et 2) te condamner lourdement, avec une peine pour le piratage et un supplément pour l'avoir pris pour un idiot.

Je rappelle à toute fin utile que Guillaume Lample, co-fondateur de Mistral, est connu pour avoir défendu et poussé l'utilisation de LibGen quand il était chez Meta, et qu'accusé d'avoir récidivé chez Mistral par une maison d'édition qui les poursuit en justice, la société s'est toujours refusé à dire explicitement "non, on n'a pas utilisé LibGen".

Le "les pauvres Mistral ils peuvent pas savoir si un contenu est piraté ou non" je le trouve un peu facile. Faire sa due diligence quant à la légalité de ses approvisionnements c'est pas facultatif pour une entreprise. Mais s'ils doivent commencer à séparer le légal du piraté, ils pourront plus utiliser LibGen et devront rémunérer les auteurs, les pauvres. :(
votre avatar
Tu peux m'indiquer où un juge a condamné pour téléchargement ? (pas mise à disposition par un logiciel p2p) C'est compliqué de prendre en faut quelqu'un qui télécharge.

Comme tu passes de archive.org à LibGen, je te laisse continuer tout seul.
votre avatar
"C'est compliqué de prendre en faute" ne rend pas la chose légale. Le code de la propriété intellectuelle est assez clair : la reproduction non autorisée constitue un délit, et les exceptions de type scrapping sont conditionnées à la licéité de la source.

D'ailleurs, on manque un peu de détails, mais il semble bien que des condamnations pour téléchargement pur il y en a déjà eu.

En tout état de cause, "Pas vu pas pris" n'est pas une défense juridiquement valide, surtout quand, comme Mistral, tu te fais prendre. "Non mais les autres vous leur dites rien" non plus.

Par ailleurs, je n'ai pas parlé d'archive.org, c'est Guildem qui en a parlé. Mais même sur archive.org, ce n'est pas parce que c'est présent dessus que c'est licite. N'importe qui peut uploader n'importe quoi sur archive.org et bon nombre de gens y uploadent des choses sans y être autorisés (même des jeux et logiciels crackés ou accompagnés d'une clé d'activation, occasionnellement). La présence sur archive.org n'est aucunement une garantie de licéité.

Et même si tout était légal dessus (et ça n'est clairement pas le cas), personne ne croit sérieusement qu'archive.org est la seule source de bouquins copyrightés de Mistral.

Je sais pas pourquoi tu tiens tant à te faire le VRP de Mistral, mais il va falloir trouver plus convaincant.
votre avatar
Ceux qui piratent sont souvent ceux qui copient les données copyrightées sur leur site, c'est surtout eux qu'il faudrait arrêter (ce qui serait idiot, c'est juste un fan d'Amel Bent le gars, il est pas méchant).

Et pour ta dernière phrase, voici mon avis : c'est trop tard, et prendre des mesures extrêmes contre Mistral, c'est tuer la seule vraie possibilité d'avoir une IA un peu plus propre que les autres en Europe, et laisser carte blanche aux États-Unis et à la Chine (qui eux s'en foutent de scrapper, et tu ne les arreteras pas à coup de lois). L'IA restera, bulle ou non, et il vaudrait mieux qu'on ait notre mot à dire technologiquement. Et dans tous les cas, Windows, Chrome, MacOS, iOS, Android utilisent des IA entraînées sur du piratage (faut pas se leurrer), et des trouzaines de services utilisent les API d'IA qui piratent. On les interdit ou on les amende ? Qu'en pensera Trump ?

C'est impossible de réguler ce genre de "petits" soucis, et l'IA cause des problèmes bien plus importants que le piratage.
votre avatar
Ceux qui piratent sont souvent ceux qui copient les données copyrightées sur leur site, c'est surtout eux qu'il faudrait arrêter (ce qui serait idiot, c'est juste un fan d'Amel Bent le gars, il est pas méchant).
Si tu te sers la suite Adobe ou l'intégrale de Christophe Maé sur un site pirate, tu commets du piratage aussi hein. La responsabilité légale ne s'arrête pas au premier pirate de la chaîne. Les exceptions au droit d'auteur de type copie privée (pour toi) ou scrapping (pour Mistral) sont conditionnées à la légalité de la source.
Et pour ta dernière phrase, voici mon avis : c'est trop tard, et prendre des mesures extrêmes contre Mistral, c'est tuer la seule vraie possibilité d'avoir une IA un peu plus propre que les autres en Europe
Je comprends l'argument, mais je n'en suis pas fan. "Laissez-nous nous torcher avec la loi, parce que les américains le font sans se poser de question" me semble être un argument bancal. Et il reste à voir en quoi l'IA Européenne sera plus propre, a fortiori si on la laisse commettre les même méfaits que les Américains et les Chinois au prétexte de ne pas se laisser dépasser.

En revanche, c'est clair que si on ne s'attaque qu'à Mistral parce que c'est plus facile, on va dans le mur. Il faut attaquer tout aussi fermement Meta, OpenAI, Anthropic et DeepSeek. Même cause, même punition. Et s'ils refusent de se plier aux règles applicables en Europe, il faut leur interdire l'accès au marché européen.
votre avatar
Pour la première partie, difficile de répondre sans philosopher sur ce qu'est l'IA a nos yeux. Pirater la suite Adobe c'est simple, c'est condamnable. Mais pour l'IA, pour moi c'est un outil, et on va lui demander des tâches qu'on pourrait demander à un humain. Pour générer des images l'IA a besoin de s'inspirer de contenus, copyrightés ou non. C'est ce que font tous les artistes, ils s'inspirent de ce qu'ils voient, sans demander si ils ont le droit de regarder. Après si tu demandes au 2 de dessiner un Mickey, soient ils refusent par principe (ou parce qu'on a dit à l'IA de ne pas le faire), soient ils le font et sont tous les 2 responsables de plagiat. Mais au final ils auront les mêmes connaissances et inspirations. Et si tu demandes à l'artiste de faire une souris cartoon noire se tenant debout, avec des grandes oreilles rondes, des gants blancs, un pantalon rouge et un grand sourire, il va galérer à ne pas s'inspirer de Mickey. Bref tout ça pour dire que pour moi on ne peut pas traiter le piratage d'un humain de la même façon que l'entrainement de l'IA. C'est de qu'on lui demande de faire et la façon dont on l'utilise ensuite qui peut être condamnable.

Et pour la problématique Géopolitique, je suis d'accord avec toi sur le fait que si il y a une condamnation, ce doit être de tout le monde, pas juste d'une boîte. Mais tout ce que ça causerait aujourd'hui, c'est de perdre l'accès à une IA performante et creuser une dette technologique importante, pour des problématiques qui sont maintenant impossible à corriger (à mon avis). Et c'est pas le fait de demander 1 million d'euro à une boite américaine/asiatique pesant des 10enes de milliards qui l'arrêtera.

Mais ce sont de toute façon des problématiques trop complexes et avec une trop forte mutation pour que la solution soit simple.
votre avatar
La question n'est pas tant l'IA constituée, que la manière dont elle a été entraînée. Quelles données et comment ont-elles été obtenues par l'entraîneur.

Si tu t'inspires du style Ghibli, tu commets pas un délit en soi. Mais si pour apprendre le style Ghibli tu as piraté tous les films sur la baie des pirates, tu as bel et bien commis un acte de contrefaçon au moment où tu as piraté ces films (indépendamment du fait que tu t'en sois inspiré ou non après coup).

Le problème ici c'est que Mistral semble avoir :

1) Accédé à des contenus par des voies pirates pour les donner à manger à son modèle, au lieu de passer par les voies légales d'acquisition de ces contenus
2) Possiblement donné des contenus à manger au modèle alors que la licence d'accès à ces contenus l'interdisait expressément

J'ajoute que je ne suis pas non plus d'accord avec cette affirmation récurrente que "les IA s'inspirent comme les humains". Ce n'est pas forcément une question importante dans le cas qui nous préoccupe ici, mais philosophiquement je trouve cette affirmation peu convaincante : même si tu t'inspires de tous les artistes que tu as vu avant toi lorsque tu dessines, tu ne t'inspires majoritairement pas de ça. Le gros de ta perception graphique du monde vient de ce que tu as vu du monde réel via tes propres yeux. Les vrais arbres (non-copyrightés), les vrais gens (non-copyrightés), les vraies formes et couleurs, les volumes, la perspective que tu as vu de tes propres yeux en voyant simplement les objets lointains paraître plus petits. Pareil pour générer du son, de la musique, des voix : tu as entendu les gens qui parlent autour de toi, tu as entendu des objets faire naturellement du bruit, tu as sans doute expérimenté dès bébé avec différents sons et différentes notes, tu as peut-être déjà tripoté un piano, tu as toi-même vocalisé et constaté que tu pouvais faire des sons plus ou moins haut et que c'était plus ou moins agréable à l'oreille, tu as constaté par toi-même que tu pouvais frapper en rythme ou aléatoirement et que ça sonnait différemment...

Le gros de ta connaissance perceptuelle, sensorielle du monde, ne passe pas par des œuvres soumises à copyright mais par ta propre expérience de la vie. Les œuvres, c'est hyper important aussi, mais ça représente un petit volume du total.

L'IA pourra se targuer de faire comme l'humain le jour où le gros de ses données d'entraînement proviendront du fait que Mistral ou OpenAI auront attaché une webcam et un micro à un mannequin et l'auront déplacé un peu partout en ville et dans la nature. Là oui on pourra commencer à dire que l'IA apprend un peu comme un humain. Pas avant.
votre avatar
Le jour ou les sanctions vont tomber, ça va piquer sévère ...
votre avatar
Y aura-t-il des suites judiciaires de la part des ayants droits ? On est manifestement dans une violation du cadre autorisé par l 'exception définie dans la DAMUN, et Mistral n'est pas une entreprise à but non lucratif à ma connaissance.
votre avatar
Pour moi, il n'y a rien de manifeste, voir mon commentaire ci-dessous.
votre avatar
Mistral aussi entraine ses IA sur des contenus dont elle n’a pas les droits
et ce n'est pas forcément interdit, en particulier dans l'UE où il faut que les détenteurs des droits expriment explicitement leur refus de façon lisible par machine.
Dans plusieurs cas, le média constate néanmoins que Mistral ne respecte pas les logiques d’opt-out, c’est-à-dire de refus d’alimenter les robots qui permettent aux constructeurs d’IA de récupérer des données en ligne. 
En effet, sur le site de Radio France comme sur celui de Mediapart, diverses versions de ce droit de retrait ont été appliquées – que ce soit via un fichier robots.txt ou via une mention explicite de refus de scraping dans les conditions générales d’utilisation.
Le robots.txt n'est pas un moyen approprié pour exprimer cela puisqu'il ne permet que de refuser des robots dans les arborescences indiquées et surtout, il n'est pas contraignant légalement.

Les conditions générales d'utilisations ne sont pas lisibles par machine (même des LLM). Ce n'est donc pas non plus la bonne façon de faire.
Je laisse @SebGF rappeler les moyens appropriés existants, il connaît le sujet mieux que moi.

Quant au Petit Prince, il est libre de droit dans la plupart des pays, mais pas en France parce que il existe une exception tient à l'extension de la durée des droits concernant les auteurs morts pour la France. Il suffit donc de l'exploiter sur un site d'un pays où il est libre de droit, pour être dans les clous.
votre avatar
Autant je suis d'accord autant c'est pas une connerie à faire. Ne serait-ce qu'en termes d'image.

C'est comme si je disais : C'est normal mr le juge. Sa femme avait mis une jupe courte. Ça sentait la foune, je l'ai automatiquement prise en levrette. Réflexe. J'ai rien pu faire..
votre avatar
Les conditions générales d'utilisations ne sont pas lisibles par machine (même des LLM). Ce n'est donc pas non plus la bonne façon de faire.
Je ne suis pas tout à fait d'accord sur cette interprétation. Et des LLM savent lire des conditions lisibles par une machine biologique et s'y plier. J'ai eu l'exemple l'année dernière au boulot où dans le cadre de la facturation électronique, le chef de projet voulait envoyer les specs AFNOR à un service offshore anglophone. Il a demandé à Copilot de MS365 de traduire la spec en anglais. Le chat bot a direct refusé, car le document mentionne explicitement que c'est interdit.

Voici la clause en question dès la première page : (norme XP Z12-012 si tu veux la regarder, elles sont gratuites)
AFNOR s’oppose expressément à toute intégration, transmission ou absorption totale ou partielle du présent document par des moteurs ou algorithmes d’Intelligence Artificielle (IA).
AFNOR s’oppose également à toute fouille de textes et de données ou création dérivée produite par une IA et basée sur le présent document.
Évidemment, c'est toujours contournable, mais j'ai eu un exemple concret et réel pour le coup.

L'article L122-5-3 du Code de la propriété intellectuelle, dans lequel, entre autres, la DAMUN a été transposée, dispose que l'auteur peut "[s'y opposer] de manière appropriée notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne.".

Précisé par le décret R122-28 qui considère les CGU comme un moyen valide parmi d'autres (le notamment qui ne restreint pas les implémentations).

Toutefois, celles de Radio France se contentent de viser l'utilisation par IA et la génération de contenus. C'est un peu trop ciblé à mon goût et n'indique pas le fondement légal. Typiquement, la clause proposée par le Syndicat National de l'Édition est très explicite et indique les deux articles de loi concernés (j'ai basé les miennes dessus, car je les trouvais pas mal).

Quant aux CGU de Mediapart, je ne vois pas de clause indiquant une opposition à la fouille de texte. Ils se retranchent derrière un "Toute reproduction non autorisée est passible de poursuite pour contrefaçon." qui est de facto autorisé par l'exception pour fouille de textes et de données. Seul un accès illicites aux données tel que contourner le paywall serait valide à mon sens.
Le robots.txt n'est pas un moyen approprié pour exprimer cela puisqu'il ne permet que de refuser des robots dans les arborescences indiquées et surtout, il n'est pas contraignant légalement.
Ici, je suis semi-d'accord :transpi:

Le robots.txt de Radio France interdit les crawlers d'un bon troupeau de bots IA, ce qui en fait bien un moyen "lisible par la machine". Mediapart aussi, avec un tableau de chasse plus réduit.

Cependant, le robots.txt ne contient pas d'instruction spécifique pour refuser la fouille de texte et de données automatisée au sens de la DAMUN et de mon interprétation. Il dit juste "je veux pas que les bots me lisent", et non "je refuse que mes contenus en libre accès de manière licite soient collectés par vous pour quelque fins que ce soit". C'est une nuance issue de mon interprétation. Sans jurisprudence pour se raccrocher (la seule à ma connaissance est le cas Allemand contre LAION qui a été tranchée en faveur de cette dernière, organisme à but non lucratif), difficile d'aller plus loin.

Le spec du robots.txt ne contient pas de mots clés pour l'exprimer à ma connaissance, là où le protocole de réservation TDM a été fait pour ça. Mais est-ce que ça peut être considéré par un tribunal comme un moyen valide ? Je ne demande qu'à voir, justement.

Bref, peut être que le "manifestement" était hâtif de ma part. Mais là y'a quand même une occasion d'éprouver l'interprétation de l'exception et de son opposition, même si les pièces du dossier me paraissent bancales du côté des deux médias cités. L'exemple de l'AFNOR montre une opposition plus claire et robuste à mon sens.

Pour les autres exemples donnés tels que des paroles de chansons, ce sont aussi des textes librement accessibles et de manière licite, publiés par des plateformes qui en ont le droit à ma connaissance. À voir aussi du côté de leurs CGU si elles ont manifesté leur opposition ou celle des ayants droits.
votre avatar
Vu que tu sembles maîtriser les choses, j'ai 2 questions pour toi :
1/ Les droits d'auteur sur des œuvres dont l'auteur est toujours vivant ne prohibent-ils pas par défaut la copie sans autorisation explicite (et entraîner une IA nécessite techniquement une copie de l'œuvre sur les PC de l'entreprise qui fait l'entraînement) ? J'avais cru comprendre que c'était la logique même de leur mise en place à l'origine (pour protéger contre les imprimeurs).

2/ Si l'entraînement se fait sur des données obtenues illégalement, n'y a-t-il pas recel dans leur fourniture d'un service issu d'une action illégale ?

Merci !
votre avatar
Tu as la réponse à la première question dans l'article de loi mis en lien par SebGF juste au-dessus.
Je copie la partie pertinente ici :
III.-Sans préjudice des dispositions du II, des copies ou reproductions numériques d'œuvres auxquelles il a été accédé de manière licite peuvent être réalisées en vue de fouilles de textes et de données menées à bien par toute personne, quelle que soit la finalité de la fouille, sauf si l'auteur s'y est opposé de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne.
Les copies et reproductions sont stockées avec un niveau de sécurité approprié puis détruites à l'issue de la fouille de textes et de données.
C'est une exception au droit d'auteur. Si l'auteur ne s'y est pas opposé, c'est autorisé tant que l'accès à l'œuvre est licite.
Et le second paragraphe parle de copie, on en déduit donc que c'est autorisé le temps de faire l'entraînement.

En fait, tu as aussi la réponse à ta seconde question (au moins partiellement), si les données sont obtenues illégalement, il est interdit de les utiliser pour de l'entraînement.
Par contre, le terme de recel n'est pas utilisé et ne me semble pas approprié (ça correspond à des choses physiques ou de l'argent qui peut être non physique, sur un compte).
Je n'ai pas d'idée du statut légal d'un modèle entraîné sur des données obtenues illégalement dans l'UE, mais aux USA, il me semble qu'un tribunal avait jugé que le résultat de l'entraînement n'était pas pour autant soumis au copyright et pouvait donc être utilisé. On aborde ici un sujet complexe qui va devoir être tranché par la jurisprudence aussi bien aux USA (pour confirmer ce jugement ou pas) et dans l'UE.
votre avatar
Merci pour tes retours.
Si l'auteur ne s'y est pas opposé, c'est autorisé tant que l'accès à l'œuvre est licite.
Sauf que je vois mal comment il est possible d'accéder licitement à une copie de Harry Potter pour entraîner un modèle de langage. Ou alors, les ayants droit ont vachement deserré la vis sur leurs intérêts. ^^'


Pour le recel, legifrance dit ceci de la définition du recel :
Le recel est le fait de dissimuler, de détenir ou de transmettre une chose, ou de faire office d'intermédiaire afin de la transmettre, en sachant que cette chose provient d'un crime ou d'un délit.
Constitue également un recel le fait, en connaissance de cause, de bénéficier, par tout moyen, du produit d'un crime ou d'un délit.
Du coup, si l'entraînement est fait sur des données récupérées illégalement (au hasard un livre), il me semble qu'il y a bénéfice d'un produit d'un délit.
Mais je peux me tromper et j'attends la jurisprudence de pied ferme ! ^^
votre avatar
Sauf que je vois mal comment il est possible d'accéder licitement à une copie de Harry Potter pour entraîner un modèle de langage. Ou alors, les ayants droit ont vachement deserré la vis sur leurs intérêts. ^^'
Il y a, à mon sens, deux niveaux de lecture pour ce genre d'histoire :

1 : l'entraînement sur des données librement accessibles, de manière licites. Ce cas est autorisé par exception au droit d'auteur, sauf si l'auteur ou l'ayant-droit a manifesté son opposition.

2 : l'entraînement sur des données obtenues de manière illicite (cas de LibGen pour les bouquins, etc.). En principe, illégal.

Pour le point sur le recel, il faut considérer que la chose concernée n'est pas censée être altérée ou très peu. En tous cas, c'est l'objet original (ex : une bagnole volée aux plaques changées et repeinte). Or, un LLM ou modèle de diffusion ne contient pas les données d'entraînement, mais un modèle statistique alimenté par des milliards de poids (les fameux milliards de paramètres) qui sert au logiciel pour produire son résultat. Ici, la chose est potentiellement reproduite par le modèle.

C'est plutôt de la contrefaçon, en principe. Dans tous les cas, le droit d'auteur couvre d'ores et déjà le plagiat. La question qui se pose est : qui est responsable du-dit plagiat ?
À mon sens, l'éditeur du LLM est responsable de la contrefaçon pour avoir utilisé des données illicites. Par contre, il n'a pas forcément voulu que son produit génère la même chose (ce qu'on appelle le phénomène de mémorisation chez les LLM).

Et, quand bien même le LLM aurait été entraîné uniquement sur des données licites, libres ou du domaine public, il n'est pas impossible qu'il puisse générer quelque chose de très proche de l'oeuvre citée.

Bref, dans tous les cas je pense qu'il y a une responsabilité partagée entre l'éditeur pour ne pas avoir mis assez de barrières, et l'utilisateur qui a demandé d'une façon ou d'une autre la contrefaçon. Sauf dans le cas d'un comportement inattendu du modèle qui fait des choses non requises (cas de Grok qui dévoile des éléments de vie privée sans qu'on lui demande).
votre avatar
Merci pour le retour.
Pour le point sur le recel, il faut considérer que la chose concernée n'est pas censée être altérée ou très peu.
OK, merci pour la précision que je n'avais pas.
C'est écrit dans la jurisprudence, j'imagine ? Tu as un lien s'il te plaît ?

Ce qui me choque, c'est que le recel semble vidé de sa substance par ce que tu précise : si je voles une voiture et que j'en vend de la pièce détachée, ce n'est pas du recel d'après ce que tu écris.
votre avatar
Oui, des pièces détachées ça peut rentrer dans le recel, je pense. Le délit de recel est constitué dès lors que la personne a connaissance de l'origine délictuelle ou criminelle du bien.

Ça reste dans tous les cas une mauvaise comparaison : le recel ne concerne que des biens matériels. Le terme "chose" dans l'article 321-1 du codé pénal est explicite, une "chose" au sens juridique est un objet matériel.

L'entraînement et l'utilisation d'un LLM rentre plutôt dans le domaine de la propriété intellectuelle qui protège la création immatérielle. Et donc de la contrefaçon en cas de délit.
votre avatar
Merci pour la précision sur "chose" : ça change tout, en effet.

Je parlais de recel parce que si l'entraînement d'une IA se base sur une contrefaçon d'une œuvre (au hasard, utilisation de Libgen), alors il y a profit d'une action illégalle.

Mais du coup, ça veut dire qu'on ne peut pas être inquiété pour recel pour toute action illégale non matérielle, et ça, ça me choque un peu (en gros, j'ai moins de risque juridique à "voler" et revendre des informations personnelles qu'à faire du traffic de pièces détachées de voitures).


EDIT : Je ne trouve pas de source indiquant qu'une "chose" est forcément matérielle en droit français : tu as un lien s'il te plaît ?
votre avatar
Sur ce site, on lit :
On a tendance à considérer que la chose dont on parle en droit est forcément corporelle, c'est-à-dire qu'elle a une existence vérifiable, tangible (une table, un chien, un arbre, une maison). Mais il est possible d'inclure dans cette catégorie les choses incorporelles, sans existence palpable (une part de société, un savoir-faire, un logiciel, une chanson).
La chose (res) posait déjà problème en droit romain : fr.wikipedia.org/wiki/Res_(droit_romain)
votre avatar
Mais du coup, ça veut dire qu'on ne peut pas être inquiété pour recel pour toute action illégale non matérielle, et ça, ça me choque un peu
La contrefaçon et le profit tiré de celle-ci sont punis par le CPI... Les recettes peuvent être saisies et reversées aux ayants-droits selon les cas de figure.
(en gros, j'ai moins de risque juridique à "voler" et revendre des informations personnelles qu'à faire du traffic de pièces détachées de voitures).
L'intrusion dans un SI est un délit pénalement répréhensible.

L'exploitation frauduleuse de traitement de données personnelles est puni par le RGPD.

Je ne sais pas où tu veux en venir avec le recel. De mon point de vue, ça n'a aucun sens puisqu'on est uniquement sur des problèmes de propriété intellectuelle. Notamment parce que l'origine du bien volé est une reproduction frauduleuse et non la chose originale.
votre avatar
Pour moi, la contrefaçon est quelque chose qui déclenche le recel.
Je suis outré que les grands noms de l'IA puissent engrenger des milliards en se basant sur des actions illégales, et ça me ferait un peu de bien de me dire qu'ils pourraient potentiellement être inquiétés pour ça aussi (en plus de la contrefaçon).
Surtout qu'ils semblent être plutôt tranquilles niveau contrefaçon (grâce aux accords, notamment), alors que le recel pourrait leur être reproché par l'Etat (en se basant sur les témoignages des personnalités qui se battent contre l'utilisation de leurs œuvres pour entraîner une IA, ce qui semble rentrer dans le champ du droit moral (et qui est, du coup, une preuve de l'illégalité du traitement).

Après, moi, je veux surtout COMPRENDRE car ce que tu avances m'étonne (car ça semble vider le recel de sa substance).
votre avatar
Le recel concerne le vol et la contrefaçon n'est pas du vol. C'est simple.

Pour le reste, @SebGF t'a déjà répondu. Il y a tout un tas de cas où l'utilisation de données acquises illégalement est punie, mais on n'appelle pas ça du recel.
votre avatar
Je sais bien que contrefaçon ≠ vol, mais justement, le recel n'est pas qu'histoire de vols (ou alors, j'ai loupé quelque chose).

Et justement, SebGF a bien expliqué plein de choses très intéressantes, mais c'est comme si on ne pouvait pas avoir en même temps du recel et de la contrefaçon, alors qu'à priori, si.

C'est pour ça que j'essaie de comprendre.
votre avatar
Le recel concerne toute chose (matérielle ou non) ou tout profit qui a pour origine un délit ou un crime, quel qu'il soit. Tu as du recel de stupéfiants, du recel de proxénétisme, du recel de vol de fichier client et, oui, du recel de contrefaçon (par exemple si tu possèdes sciemment une imitation de sac Louis Vuitton).
votre avatar
Pour moi, la contrefaçon est quelque chose qui déclenche le recel.
Non. La contrefaçon, c'est la reproduction d'une oeuvre, d'un produit, d'un logiciel sans être titulaire des droits pour le faire (droit d'auteur ou brevet).

Le recel, c'est posséder ou tirer bénéfice d'un bien volé.

Le reste, j'arrête là, j'ai déjà suffisamment expliqué le fonctionnement.
votre avatar
Le recel, c'est posséder ou tirer bénéfice d'un bien volé.
Ah ! Je comprends enfin où se situe notre incompréhension commune !
Je ne comprenais pas pourquoi vous opposiez contrefaçon et recel.

Je rappelle ce que dit l'article 321-1 du code pénal :
Constitue également un recel le fait, en connaissance de cause, de bénéficier, par tout moyen, du produit d'un crime ou d'un délit.
Donc, non, le recel n'est pas qu'histoire de vol (d'ailleurs, si je contrefait un tableau et qu'un ami à moi le vend, il est le receleur).

Ou alors, il y a une subtilité qui m'échappe. Une jurisprudence, peut-être.
votre avatar
Non, le recel c'est le fait de posséder ou tirer bénéfice d'un délit ou de son objet.
Le recel est le fait de dissimuler, de détenir ou de transmettre une chose, ou de faire office d'intermédiaire afin de la transmettre, en sachant que cette chose provient d'un crime ou d'un délit.
Constitue également un recel le fait, en connaissance de cause, de bénéficier, par tout moyen, du produit d'un crime ou d'un délit.
Les gens condamnés pour recel de trafic de stupéfiant ne le sont pas parce qu'ils ont volé des stupéfiants.

Le recel de contrefaçon existe totalement, il y a déjà eu des condamnations pour recel d' "objets contrefaisants". Je ne crois pas non plus que la jurisprudence limite cela aux actifs matériels, il y a déjà eu des condamnations - confirmée par la cour de cassation - pour recel de fichier clientèle (informatique) volés par exemple.

Le "bénéficier du produit d'un délit" est encore plus large et n'implique même pas de détenir directement quelque chose, sous forme matérielle ou numérique. En avoir bénéficié sous forme monétaire suffit par exemple.

J'ignore s'il y a déjà eu des condamnations spécifiquement pour recel d'une contrefaçon immatérielle (la jurisprudence que j'ai trouvé concernait une contrefaçon physique) mais je n'y vois pas d'obstacle particulier dans la jurisprudence.
votre avatar
Par "principe de réalité", je vais relancer les sites de torrent.
votre avatar
Commentaire supprimé : a fait l'objet d'un article sur Next le lendemain.
votre avatar
Continuons à nous poser les mauvaises questions et demandons nous ensuite pourquoi la France reste derrière.
votre avatar
Faut arrêter de vouloir lier les droits d'auteur et l'IA. Les IA ont besoin de quantités de données phénoménales c'est impensable de payer les droits qui vont avec. En s'en prenant aux IA avec leurs droits d'auteur ça sera encore la Chine qui sera encore plus en avance car eux ils s'en foutent de ça.
votre avatar
Rien ne nous empêche d'interdire le marché européen aux chinois s'ils veulent jouer aux cons. Reste à savoir si la volonté politique existe, et c'est là que ça risque de coincer.
votre avatar
Une IA permet de recréer des jeux entiers dans Roblox
Roblox vient de dégainer son « real-time dreaming », un outil d’IA capable de générer des mondes entiers en quelques secondes (...) la technologie reste encore rudimentaire avec des animations confuses et des modèles 3D dysfonctionnels qui suscitent les moqueries sur les réseaux sociaux.

Mistral aussi entraine ses IA sur des contenus dont elle n’a pas les droits