Le débat sur l’IA générative et le respect du droit d’auteur refait surface en France

Alina Constantin / Better Images of AI / Handmade A.I / CC-BY 4.0

En cette fin d'année 2024 et deux ans après la sortie de ChatGPT, le débat sur le respect du droit d'auteur au sein des IA génératives émerge de nouveau avec la publication de deux rapports. L'un, du lobby France Digitale, préconise de faire reposer le respect de l'opt-out sur les ayants droit. L'autre est une étude de la Direction générale du Trésor.

Martin Clavey

Le 12 décembre à 09h03

6 min

IA et algorithmes

En ce mois de décembre, le lobby France Digitale – dans lequel des entreprises comme BlaBlaCar, Make.org ou encore la société d'investissement Eurazeo sont représentées – vient de sortir un rapport sur l'IA générative et le droit d’auteur.

Cette association d'entreprises du numérique explique se poser des questions comme « peut-on nourrir des IA génératives par des contenus protégés par le droit d’auteur ? » ou encore « est-il possible de trouver un terrain d’entente entre ayants droit et concepteurs de modèles d’IA ? ».

L'opt-out, un encombrant système pour France Digitale

Mais dans ce document [PDF], France Digitale fait plus que se poser des questions. Le lobby propose de modifier la loi pour l'adapter aux pratiques de l'industrie de l'IA générative.

Pour France Digitale, « ce nouveau cadre juridique devrait » intégrer « la légalisation des opérations de TDM [text and data mining] sur le web, sans possibilité d’opt-out ».

Ce lobby français veut que les entreprises du numérique ne rencontrent pas d'obstacle dans leur fouille massive du web. Or, comme nous l'expliquions en 2022, une directive européenne adoptée en Europe en 2019 et transposée France en 2021 instaure deux dispositifs en faveur de la fouille de textes et de données.

Si tout un chacun a le droit de faire du TDM en fouillant le web, il doit respecter une condition d'opt-out pour les titulaires de droits d'auteur. Cet opt-out n'est par contre pas possible si la fouille est effectuée à des fins de recherche exclusivement.

Jusqu'à la fin 2022 et l'arrivée de ChatGPT, peu d'entreprises utilisaient ce droit pour des raisons commerciales. La recherche mondiale et la R&D américaine ont montré depuis la voie d'une utilisation massive du TDM pour l'entrainement des IA génératives.

Et comme le dit lui-même le lobby dans son document, « avant l’apparition du débat autour de l’IA générative, l’exception de TDM était largement acceptée par les ayants droits, permettant aux modèles d’IA traditionnels de s’entraîner librement sur les données du web ». Mais depuis, ceux-ci « ont réagi en réservant massivement leurs droits pour exclure leurs oeuvres du scraping ». France Digitale milite donc pour que les entreprises qu'il représente puissent fouiller sans entrave.

Revoilà une nouvelle compensation, mais à la sauce startups de l'IA

Mais pour faire passer la pilule aux sociétés d'ayants droits, le lobby propose la « création d’une nouvelle compensation forfaitaire des ayants droits par les fournisseurs de modèles d’IA générative, sur le modèle de la compensation pour copie privée ».

« Les fournisseurs de modèles d’IA à usage général, qu’ils soient basés en Europe ou à l’étranger, seraient tenus de verser une compensation lorsqu’ils mettent leur modèle à disposition en Europe, en contrepartie de la liberté de scraper le web », propose France Digitale qui oublie un peu rapidement que les sociétés d'ayants droit sont loin de représenter tous les auteurs de contenus publiés sur le web.

Enfin, France Digitale propose de faire une « différentiation entre l’IA générative et des autres modèles d’IA dans les débats sur le partage de valeur ». En clair, le lobby veut que les IA entrainées sur des contenus scrapés mais qui n'ont pas de risque de les régurgiter ne soient pas inquiétées par la législation.

Le Trésor cherche un « équilibre » sur la transparence des IA génératives

Un autre rapport a été publié en ce début de mois par la Direction générale du Trésor. Celui-ci analyse la structure de la chaîne de valeur de l’intelligence artificielle. Si ses 12 pages brossent le sujet de façon assez complète, son premier encadré a fait réagir Pascal Rogard.

« C’est une honte cette note du Trésor à Bercy qui pour favoriser les milliardaires de la Tech au détriment de la création culturelle explique que "la transparence est susceptible de nuire au développement des fournisseurs de système d’IA » a écrit le toujours directeur général de la SACD.

Bercy pose, dans cet encadré de son rapport [PDF], la question : « Quel équilibre entre accès aux données d'IA et protection de la propriété intellectuelle ? ». Le texte explique ensuite que « l'utilisation de données culturelles pour l'entraînement des modèles de fondation pose des questions importantes de respect du droit d'auteur » et rappelle, lui aussi, l'état actuel de l'encadrement de la fouille de textes et de données en Europe. Il ajoute que l'opt-out « doit permettre aux ayants droit de recouvrer une capacité de négociation ».

Bercy y rappelle aussi que l'AI Act européen prévoit une obligation de transparence s'agissant des sources d'entraînement des systèmes d'IA. Mais effectivement, le rapport s'appuie sur le fait que « les données constituent un élément de différenciation important pour les fournisseurs de systèmes d'IA » pour affirmer que « cette transparence est susceptible de nuire à leur développement ». Le Trésor affirme en conclusion que « la mise en œuvre de l'obligation de transparence de l'AI Act devra par conséquent trouver un équilibre entre les coûts pour les fournisseurs de modèles d'IA et la protection des ayants droit ».

La prise de position très vive de Pascal Rogard a déclenché une cascade de réponses. La ministre de la Culture démissionnaire, Rachida Dati, a abondé dans son sens en affirmant que « ceux qui opposent la transparence et le développement de l'IA n'ont rien compris. C'est au contraire en garantissant les droits des créateurs que nous offrirons aux IA l'accès à des contenus authentiques, qui sont la clé pour se différencier ».

Sa collègue et secrétaire d’État démissionnaire chargée de l’Intelligence Artificielle et du Numérique, Clara Chappaz, semble, elle, essayer d'éteindre le feu : « l’IA peut et doit être une chance pour les créateurs. Accompagnons, organisons et garantissons les conditions de notre réussite ! »

Commentaires (7)

brupala Abonné

Modifié le 12/12/2024 à 12h50

propriété intellectuelle == escroquerie

FrancoisA Abonné

Modifié le 12/12/2024 à 10h33

Selon Pierre-Joseph Proudhon, "la propriété c'est le vol".

Wikipedia

cyp Abonné

Aujourd'hui à 10h59

Moi je trouve que la proposition va plutôt dans le bon sens!
Faut juste travailler encore la compensation. Genre une obligation d'open sourcer les modèles et l'ensemble des outils mis en œuvre pour leur création et la gratuité d'usage pour toutes les créateurs des contenues exploité serait un bon début... ça ne devrait pas poser de souci à France Digitale puisqu'il semble avoir une vision très progressiste ;-p

Timanu69

Aujourd'hui à 10h51

La digitale est inconnue de la médecine de l'Antiquité méditerranéenne. Il est possible que la plante ait été distinguée dès le VIe siècle en Europe du nord, en faisant partie d'une médecine populaire d'origine celtique. Son utilisation est attestée à partir du XIIe siècle sous les termes anglais foxglove « gant de renard », et allemand Fuchskraut « herbe au renard » puis Fingerhut « dé à coudre »

stantor

Aujourd'hui à 12h09

Et après les utilisateurs d'IA se plaignent que l'on "empoisonne" nos données, que nous reste il à nous créateurs ? Si je peux bien faire chier le scrap, je ne vais pas me gêner car je ne verrais jamais un centime de mes images scrappées.

fred42 Abonné

Aujourd'hui à 12h56

La directive de l'UE sur le droit d'auteur et le code de propriété intellectuelle français qui la transpose te permettent de t'opposer au scrapping à des fin autres que la recherche. Quel est donc ton problème ?

SebGF Abonné

Aujourd'hui à 13h27

Le syndicat national de l'édition propose des moyens pour manifester l'opt-out dans ses oeuvres.

Que ce soit par condition général du site, mais aussi des metadonnées sur les publications.