Connexion Premium

Copyright : Hachette, Elsevier et trois autres éditeurs attaquent Meta

Pirate, moi ?

Copyright : Hachette, Elsevier et trois autres éditeurs attaquent Meta

Illustration : Flock

Après plusieurs plaintes d’auteurs, cinq multinationales de l’édition (notamment scolaire et scientifique) attaquent Meta devant la justice américaine pour l’utilisation d’œuvres qu’elles éditent pour entrainer la famille de modèles d’IA générative Llama.

Meta fait face à une action en justice pour violation du copyright qui pèsera sans doute un peu plus lourd que celles qui sont arrivées devant les tribunaux jusque là concernant l’utilisation pour ses modèles d’IA générative d’œuvres copyrightées.

Ici, ce ne sont pas quelques auteurs qui attaquent le groupe dirigé par Mark Zuckerberg (qui est aussi visé personnellement par la plainte), mais cinq multinationales de l’édition : Hachette, Macmillan, McGraw Hill, Elsevier et Cengage. Scott Turow, auteur de thrillers à succès mais également éditorialiste et avocat, est aussi associé à la plainte.

Meta encore accusé d’être passé par du téléchargement illégal

La plainte [PDF], qui a été déposée ce mardi devant la cour du district sud de New York, accuse Meta et donc Mark Zuckerberg d’avoir d’abord « illégalement téléchargé via torrent [torrented, en anglais] des millions de livres et articles de revues scientifiques copyrightés provenant de sites pirates notoires et de scrapes web non autorisés de virtuellement tout l’internet », puis de les avoir copiés « à maintes reprises pour entraîner le système d’IA générative de Meta, baptisé Llama, dont la valorisation s’élève à plusieurs milliards de dollars ».

« Non contents d’utiliser les œuvres protégées par le copyright extraites de Common Crawl, les accusés ont cherché d’autres sources de textes copyrightés pour entraîner leurs modèles Llama », expliquent les avocats des éditeurs.

« Au départ, les accusés avaient envisagé d’obtenir des licences auprès de grands éditeurs pour utiliser des œuvres littéraires. Ils ont finalement opté pour une autre solution : télécharger illégalement les œuvres des demandeurs et du groupe de plaignants à partir de sites de piratage notoires, notamment LibGen, Anna’s Archive, Sci-Hub, Sci-Mag et d’autres », ajoutent-ils. Chargeant le CEO du groupe, ils affirment que « Zuckerberg lui-même a personnellement autorisé et activement encouragé cette violation ».

Mais les éditeurs n’accusent pas seulement Meta de téléchargement. Comme dans d’autres cas concernant l’utilisation d’œuvres par des IA génératives, ils affirment que les modèles de Meta restituent aussi ces œuvres dans leurs réponses.

« Llama génère des reproductions verbatim ou quasi verbatim des œuvres protégées par le copyright » des plaignants, affirme la plainte. « Par exemple, lorsqu’on lui soumet deux courtes phrases tirées du manuel à succès de Cengage, Calculus: Early Transcendentals, 9e édition, de James Stewart, Llama se met à reproduire mot pour mot la suite de la section », ajoutent les avocats.

« L’IA est à l’origine d’innovations transformatrices, d’une productivité accrue et d’une plus grande créativité pour les particuliers et les entreprises, et les tribunaux ont à juste titre estimé que l’entraînement d’un modèle d’IA sur des contenus protégés par le copyright pouvait relever du fair use », a affirmé le porte-parole de Meta Dave Arnold, au New York Times, « nous nous défendrons avec vigueur dans cette affaire ».

La question du fair use n’est pas encore tranchée

Si l’année dernière, les entreprises d’IA avaient gagné plusieurs manches judiciaires, contrairement à ce qu’affirme Meta, le débat sur le fair use pour entrainer les IA n’avait pas été tranché et le sujet reste encore ouvert. À l’époque, le juge Vince Chhaabria avait expliqué qu’il doutait de l’utilisation du fair use concernant les manuels scolaires en expliquant qu’il fallait aussi prendre en compte des « préoccupations concernant le préjudice qu’elle [l’IA générative] peut infliger au marché des œuvres sur lesquelles elle est entraînée ».

Cette réflexion peut sans doute s’étendre aux nombreuses œuvres qui se trouvent dans les catalogues des cinq éditeurs plaignants. Hachette, McGraw Hill et Cengage font partie des plus gros éditeurs de manuels scolaires dans le monde, par exemple. Et, si Elsevier est devenue une filiale d’un des plus grands courtiers de données du monde et fait maintenant d’importants bénéfices en devenant un data broker de l’activité scientifique, elle reste un des plus importants éditeurs scientifiques mondiaux.

La plainte demande la destruction de toutes les copies d’œuvres copyrightées utilisées par Meta pour l’entrainement de ses modèles après que l’entreprise en ait fait la liste exhaustive, qu’elle « cesse toute activité illégale » et « toute autre mesure que la Cour jugera appropriée ».

Interrogée par le New York Times, la responsable de l’Association of American Publishers qui a rendu publique cette plainte, Maria A. Pallante, affirme : « Nous nous concentrons sur la création d’un paysage de l’IA bien plus viable — un environnement transparent, équitable et participatif, doté de garde-fous pour protéger les auteurs et les éditeurs contre tout préjudice. Les préjudices sont déjà évidents ».

Commentaires (6)

votre avatar
"La plainte demande la destruction de toutes les copies d’œuvres copyrightées utilisées par Meta pour l’entrainement de ses modèles après que l’entreprise en ait fait la liste exhaustive, qu’elle « cesse toute activité illégale » et « toute autre mesure que la Cour jugera appropriée »."
c'est mathématiquement impossible, retirer quelque chose d'un LLM n'est pas possible (à ma connaissance), on peut ajouter des choses (comme lui faire "oublié" le livre mais il restera toujours des traces) mais pas en retirer
votre avatar
Soit ils refont un entrainement from scratch avec des données propres, soit ils paient du copyright.
-> ce ne sera évidemment ni l'un ni l'autre.
(idem pour Google, Anthropic, Mistral, etc.)
votre avatar
C'est au contraire extrêmement simple : tu repars à zéro
votre avatar
Des parasites (hachette version Lagardère, Elsevier…) attaquent un autre parasite, j'ai envie qu'ils perdent tous.
votre avatar
Des parasites (hachette version Lagardère, Elsevier…) attaquent un autre parasite, j'ai envie qu'ils perdent tous.
oui.
C'est doucement risible de la part d'Elsevier qui fait son beurre sur l'accaparement du travail scientifique. Des papiers écrits grâce à l'argent public qui se trouvent enfermé derrière des paywall alors que dans la plupart des cas la recherche est légalement ouverte.

Elsevier et les autres sont le genre de gens derrière le harcèlement/torture puis meurtre par poussée au suicide d'Aaron Schwartz
votre avatar
Il faut aussi apprendre à distinguer dans cette histoire les auteurs des éditeurs. Même si ici l'éditeur défend son propre business, celui qui reste floué derrière c'est l'auteur (qui, lui, n'est pas responsable des changements de ligne éditoriale des gros de l'édition en ce moment, d'où les affaires de récupération des droits).