RSF et les ayants droit dénoncent le projet de Code de bonnes pratiques de l’AI Act

GenAÏe

Illustration : Flock

Jean-Marc Manach

Le 03 avril 2025 à 15h45

Évoquant des pressions et concessions en faveur des industriels, Reporters sans frontières estime que « rien de concret n’est fait pour protéger le droit des citoyens à accéder à une information fiable » dans l’AI Act. Une coalition de 38 organisations représentant les ayants droit déplore de son côté qu’il contrevienne « au droit de l’UE et ignore l’intention du législateur européen ».

RSF et les ayants droit dénoncent le projet de Code de bonnes pratiques de l’AI Act

GenAÏe

Illustration : Flock

Jean-Marc Manach

Le 03 avril 2025 à 15h45

IA et algorithmes

9 min

L’ONG Reporters sans frontières (RSF) vient d’annoncer qu’elle quittait la table des négociations du Code de bonnes pratiques du règlement européen sur l’intelligence artificielle (AI Act). « Après avoir joué, en vain, le jeu de la négociation », elle « dénonce l’absence de garanties sur le droit à l’information et le poids exorbitant de l’industrie dans le processus ».

Au terme de trois mois de négociations « sous la pression croissante des géants technologiques », souligne RSF, le Bureau européen de l’IA a en effet publié ce 11 mars 2025, la troisième version de travail de son Code de bonnes pratiques de l’AI Act.

« Le projet repose sur une liste concise d’engagements de haut niveau et prévoit des mesures plus détaillées pour mettre en œuvre chaque engagement », précise la Commission, qui en propose un résumé dédié et un site web interactif.

Il s’agit de « 2 engagements liés à la transparence et au droit d’auteur » pour tous les fournisseurs de modèles d’IA à usage général, mais « avec des exemptions notables aux obligations de transparence pour les fournisseurs de certains modèles open source conformément à la loi sur la transparence », et de « 16 autres engagements liés à la sûreté et à la sécurité », mais « uniquement pour un petit nombre » de fournisseurs de modèles d’IA classés comme « présentant un risque systémique ».

Le processus de rédaction de ce code s’étalera jusqu’en mai 2025 et implique près de 1000 parties prenantes, dont des représentants des États membres de l’UE et des observateurs européens et internationaux, précise la Commission dans sa FAQ consacrée à la question.

Mais « toutes ne bénéficient cependant pas du même statut », relevait RSF en décembre dernier : les fournisseurs d’IA sont en effet invités à des « ateliers de rédaction » tandis que les autres acteurs, comme les universitaires et organisations de la société civile, « sont uniquement conviés à émettre leur avis sur les versions intermédiaires du texte, et à participer à des groupes de travail – auxquels participent également les fournisseurs d’IA ».

Un outil d’autorégulation par et pour les concepteurs d’IA

Or, « le constat est sans appel », déplore aujourd’hui RSF : « les enjeux informationnels ont été progressivement dégagés de ce qui se veut un outil d’autorégulation des concepteurs d’IA, pour démontrer leur respect des principes défendus dans le règlement européen entré en vigueur le 1er août 2024 ».

« Le Code ne contient pas une seule disposition concrète pour lutter contre les dangers avérés que fait courir l’IA pour l’accès à l’information fiable », déplore RSF, qui souligne que « le droit à l’information n’est pas mentionné dans le texte » :

« Les risques associés au développement non régulé de l’IA pour l’information fiable, comme les deepfakes, la prolifération de faux sites d’information automatisés ou encore la désinformation infiltrée dans les chatbots, sont également absents. »

L’ONG regrette enfin que les droits fondamentaux, « comme les risques systémiques sur l’intégrité des élections démocratiques, sont relégués en annexe, et leur prise en compte est optionnelle ».

« La défense du droit à l’information n’est pas une option et il est intolérable qu’un texte européen, même provisoire, le néglige à ce point », s’insurge Thibaut Bruttin, directeur général de RSF :

« Nous n’avons pas été entendus, nous ne jouerons pas les idiots utiles. Plutôt que de mettre sur pied un effort bancal d’autorégulation encouragé par la commission, les institutions doivent se poser en garant de la régulation démocratique des activités technologiques qui vont bouleverser l’avenir du journalisme. »

Une définition excluant de très nombreuses menaces déjà documentées

« Chaque semaine rend plus évidentes les menaces que fait peser sur l’information une IA non régulée », déplorait déjà Vincent Berthier, responsable du bureau technologies et journalisme de RSF en février dernier :

« En Europe, les élections législatives allemandes ont été le théâtre de campagnes de désinformation dans lesquelles des IA génératives ont visiblement été utilisées pour créer de faux sites d’information. Au lieu d’en prendre acte, le Bureau de l’IA a reculé en supprimant l’unique mention des médias présente dans la première version du code. »

RSF lui avait demandé de revenir sur cette décision, et réitérait sa demande de « considérer l’atteinte au droit des citoyens européens d’accéder à une information fiable comme un “risque systémique”, requérant à ce titre la plus grande vigilance des fournisseurs d’IA ».

La classification des « risques systémiques » du code, qui délimite le périmètre des risques devant être évalués et atténués par ses signataires, ne mentionnait alors ni les médias, ni le journalisme, ni l’information fiable.

Cette liste ne citait que le seul risque de « facilitation de la manipulation à grande échelle », excluant de son champ d’application « de très nombreuses menaces réelles et documentées qui s’abattent d’ores et déjà sur le journalisme et le droit à l’information », soulignait l’ONG :

« Ainsi, l’atteinte à l’image de journalistes victimes de deepfakes, les faux sites d’information automatisés, la reprise et la diffusion de contenus de propagande par les chatbots, la production d‘informations inexactes à répétition par les modèles de langages, ou encore les risques de perte de confiance envers les médias cités comme sources supposées à ces fausses informations sont autant de problèmes ignorés par la dernière version du code. Un manque qui doit être corrigé de toute urgence. »

Dès lors, conclut RSF, « il était clair que le Code avait vocation à combler les lacunes du Règlement sur l’IA et à contraindre les concepteurs d’IA à atténuer les risques systémiques liés à l’information ». Or, « Cela ne figure visiblement plus parmi les ambitions du texte ».

Rien n’est fait pour protéger le droit à une information fiable

Le Code était, pour RSF, « l’occasion de forcer les concepteurs d’IA à limiter les risques liés à l’information dans les modèles d’IA – une faiblesse structurelle et abyssale de l’AI Act », précise Vincent Berthier sur LinkedIn. Or, « nous en sommes à la troisième version de travail – la dernière avant livraison du texte final – et toujours rien de concret n’est fait pour protéger le droit des citoyens à accéder à une information fiable » :

« Pire, les concessions en faveur de l’industrie sont flagrantes. Rester plus longtemps serait cautionner un processus qui donne mécaniquement l’avantage à l’industrie. Nous n’avons pas l’intention d’être les idiots utiles de l’autorégulation de l’IA. Les institutions doivent se poser en garantes de la régulation démocratique de technologies qui entendent perturber durablement le journalisme. Cela devient urgent. »

« Nous préférerions ne pas avoir de code du tout »

Archimag relaie de son côté une lettre collective cosignée par une coalition de 38 organisations représentatives des auteurs, interprètes et autres titulaires de droits du secteur des industries culturelles, créatives et du livre.

Elles y déplorent un texte qui « crée une incertitude juridique, interprète mal le droit d’auteur de l’UE et compromet les obligations énoncées dans la loi sur l’IA elle-même », au point qu’il « contrevient au droit de l’UE et ignore l’intention du législateur européen ».

Elles estiment en effet que cette nouvelle version « affaiblit considérablement la portée de l’AI Act et offre trop de marges de manœuvre aux développeurs d’IA, qui pourraient exploiter des contenus protégés sans consentement explicite » et qui, « sous couvert de promouvoir une IA responsable, remet en cause le droit d’auteur européen et expose les industries culturelles à une exploitation incontrôlée de leurs contenus par manque de garde-fous », résume Archimag.

L’un des principaux autres écueils concerne l’absence de « mesures concrètes » pour empêcher l’exploitation par les IA de « contenus protégés ». En l’état, seul le fichier robots.txt d’exclusion des robots d’indexation permet en effet aux sites web d’indiquer leur refus d’être indexés par les crawlers des IA, « mais cette méthode obsolète repose sur la bonne foi des entreprises, qui peuvent l’ignorer sans risque », rappelle Archimag. En outre, « aucun cadre strict n’impose la transparence », les fournisseurs d’IA pouvant à loisir dissimuler leur utilisation des contenus censés ne pas être indexés.

« La loi européenne sur l’IA devait favoriser une IA responsable tout en donnant aux créateurs et aux détenteurs de droits européens les outils nécessaires pour exercer et faire respecter leurs droits », souligne Helen Smith, présidente exécutive de l’Independent Music Companies Association (IMPALA) :

« Ce projet ne fait ni l’un ni l’autre. Nous ne pouvons pas le soutenir. Comme le dit la déclaration, nous préférerions ne pas avoir de code du tout plutôt que d’avoir ce troisième projet franchement inadmissible. »

Commentaires (8)

fred42 Premium

Le 03/04/2025 à 17h17

Mais que diable allaient-ils faire dans cette galère ?

Un code de bonnes pratiques est un ensemble de règles que s'impose une branche d'activité, ici, ceux qui produisent des modèles d'IA ou ceux qui les utilisent.

Les journalistes ou autres organisations d'ayants droit ne sont pas acteurs de cette activité. Ils ne pouvaient être que les idiots utiles en ayant des demandes contrariant la profession de l'IA. Ils ont raison de partir afin de ne pas être la caution des ce code et le dénoncer.

fred42 Premium

Le 03/04/2025 à 17h38

En l'état, seul le fichier robots.txt d'exclusion des robots d’indexation permet en effet aux sites web d'indiquer leur refus d'être indexés par les crawlers des IA, « mais cette méthode obsolète repose sur la bonne foi des entreprises, qui peuvent l’ignorer sans risque », rappelle Archimag.

Ce n'est pas ce que dit Archimag :

Despite strong opposition and comprehensive explanations on its inadequacy, robots.txt is still considered as the only method GPAI providers must recognise and respond to, while other reservation methods are ignored or treated as optional, in direct contradiction with EU law.

En effet, comme nous l'a indiqué hier @SebGF le moyen conçu pour refuser l'utilisation d'œuvres pour l'entraînement de l'IA dans l'UE pour le respect de la directive (UE) 2019/790 existe (suivre ses liens). Il s'appelle TDM Policy. Le robots.txt n'est effectivement pas adapté puisqu'il ne permet pas de dire en une seule fois à tous les crawlers des IA que l'on ne veut pas qu'une œuvre ne soit pas utilisée tout en autorisant l'indexation par les moteurs de recherche et je ne parle même pas de ceux qui utilisent le même crawler pour l'IA et la recherche.

Ce sont les fournisseurs de GPAI qui ne considèrent que le robots.txt alors que les organisations d'ayants droit demandent l'application du droit de l'UE (probablement la directive que je viens de citer). Leur "other reservation methods" désigne probablement entre autre celle indiquée par SebGF.

deathscythe0666 Premium

Le 03/04/2025 à 19h04

Ils devront apprendre à configurer un firewall

SebGF Premium

Le 03/04/2025 à 19h20

Après, même si le TDM Policy est un protocole normalisé, il reste comme le robots.txt : un outil qu'on est libre d'ignorer.

À partir de là, on rentre dans la procédure juridique.

L'association des éditeurs britanniques a d'ailleurs attaqué Meta pour son usage reconnu des sources illicites telles que LibGen et Book3 dans l'entraînement de leurs modèles. En France aussi une procédure est en cours, intentée par le SNE, le SGDL et le SNAC. Ici, nous ne sommes pas dans le TDM mais dans un usage de matériel de contrefaçon.

À ma connaissance, la seule procédure ayant éprouvé la DAMUN a été celle d'un photographe allemand contre LAION. L'exception de recherche scientifique a été retenue dans la mesure où LAION est un organisme de recherche à but non lucratif.

fred42 Premium

Le 03/04/2025 à 19h59

Je ne serais pas si affirmatif que toi sur le fait qu'on est libre de l'ignorer (dans l'UE, voir plus bas pourquoi cette limitation). La directive citée et la loi française obligent à respecter la volonté des détenteurs des droits. Pour les œuvres en ligne, cette volonté doit être exprimée de façon à que ça soit lisible par une machine ce qui est le cas ici.

Le robots.txt ne permet pas de faire ce que la directive demande, c'est normal, il n'est pas prévu pour cela.
Après, oui, on rentre dans une procédure juridique et j'encourage les détenteurs de droit qui constatent une violation de leur interdiction dans leurs logs à porter plainte. Ça devrait calmer les bots.

Par contre, la directive s'applique pour la fouille faite depuis l'UE, ce qui la rend ~~difficile~~ impossible à appliquer contre les acteurs US agissant depuis les USA :

La présente directive fixe des règles visant à poursuivre l'harmonisation du droit de l'Union applicable au droit d'auteur et aux droits voisins dans le cadre du marché intérieur, en tenant compte, en particulier, des utilisations numériques et transfrontières des contenus protégés.

"transfrontières" en langage de l'UE veut dire : en franchissant les frontières intérieures de l'UE, donc d'un état de l'UE vers un autre état de l'UE.
Il faut donc à mon avis les attaquer aux USA et il est possible que cela se heurte au fair use.

En fait, la directive qui avait pour but de favoriser l'industrie de l'IA de l'UE risque dans les faits de la pénaliser si les USA reconnaissent le fair use même si le détenteur des droits s’oppose à l'utilisation de ses œuvres et pas l'UE.

Remarque : je ne sais pas si l'AI Act impose quelque chose sur l'entraînement des AI dont l'utilisation est faite depuis l'UE.

SebGF Premium

Modifié le 03/04/2025 à 20h14

Mon propos était plus au sens du cynisme des entreprises de la tech qui appliquent le "ask for forgiveness, not permission".

Zuckerberg a en toute conscience de cause autorisé l'usage de sources illicites. Je m'attends donc à ce qu'ils ignorent le TDM aussi. Raison pour laquelle je parlais de procédure juridique.

Le AI Act oblige à une certaine transparence des données d'entraînement pour les systèmes d'IA, mais il me semble que ça reste limité.

Par contre, ça ne signifie pas qu'il ne faut pas appliquer le TDM sur ses contenus. C'est le seul moyen d'apporter une preuve pour intenter en cotnrefaçon.

Jean-Marc Manach Équipe

Le 04/04/2025 à 20h27

Le passage que vous citez est bien une reprise de l'article d'archimag : "L’un des principaux écueils réside dans l’absence de mesures concrètes pour empêcher l’exploitation de contenus protégés par les IA. Seul le fichier "robots.txt", un protocole d'exclusion des robots d’indexation, permet aux sites web de signaler leur refus d’apparaître dans les moteurs de recherche, mais cette méthode obsolète repose sur la bonne foi des entreprises, qui peuvent l’ignorer sans risque."

La citation en anglais au sujet des "while other reservation methods are ignored or treated as optional, in direct contradiction with EU law" (passage qui m'avait échappé, my bad) émane de la lettre évoquée par archimag, qui ne les explicitent pas pour autant (et donc merci).

Je ne connaissais pas le TDM Reservation Protocol ou TDMRep, et découvre aussi The /llms.txt file, "A proposal to standardise on using an /llms.txt file to provide information to help LLMs use a website at inference time", que je n'ai, faute de temps (de cerveau disponible), pas non plus encore eu le temps de creuser.

SebGF Premium

Le 05/04/2025 à 08h24

J'ai implémenté le TDM Rep à titre personnel sur mon blog et mon site d'auteur. Tout comme j'ai improvisé une ligne de mentions légales histoire d'avoir les deux options : human et machine readable.

Accessoirement, comme certains sites de publication ne permettent pas de modifier les meta données des EPUB (parce qu'ils les génèrent eux-même), il m'a paru essentiel de procéder ainsi.