Scraping IA : le protocole RSL propose d’automatiser l’octroi de licences

robots.txt 2.0 ?

Illustration : Flock

Martin Clavey

Le 12 septembre 2025 à 10h46

Plusieurs gros éditeurs de sites web étasuniens proposent un nouveau protocole, « Really Simple Licensing » (RSL). Celui-ci permet de préciser aux côtés du fichier robots.txt les conditions, notamment financières, dans lesquelles les contenus d’un site peuvent être utilisés par les entreprises d’IA génératives pour entrainer leurs modèles. Reste à voir si les entreprises d’IA génératives, nombreuses à passer outre les robots.txt, seront enclines à respecter RSL comme un standard.

Scraping IA : le protocole RSL propose d’automatiser l’octroi de licences

robots.txt 2.0 ?

Illustration : Flock

Martin Clavey

Le 12 septembre 2025 à 10h46

IA et algorithmes

5 min

La promesse de « Really Simple Licensing » (RSL) est de faire un protocole « vraiment simple » pour indiquer aux robots crawlers des entreprises d’IA générative ce qu’ils ont le droit de faire et de ne pas faire avec le contenu d’un site web et dans quelles conditions. Le protocole est soutenu par le RSL Collective, créé par l’ancien CEO de Ask.com Doug Leeds, le Français et ancien de Datadog Geraud Boyer et l’ancien vice-président des produits chez Yahoo, Eckart Walther.

Depuis l’arrivée des IA génératives, leur crawlers sont, de plus en plus, devenus un sérieux problème pour le web, allant jusqu’à mettre en péril des sites. Les responsables de petits sites comme de gros, ont du mal à faire respecter aux entreprises d’IA générative leurs conditions d’utilisation. Les trois créateurs du RSL Collective espèrent que RSL deviendra un standard pour « offrir une rémunération équitable et standardisée aux éditeurs et aux créateurs, ainsi qu’un système de licence simple et automatisé aux entreprises spécialisées dans l’IA », comme ils l’affirment dans leur communiqué de presse. RSL a obtenu le soutien d’éditeurs du web comme Reddit, Quora, O’Reilly ou encore Medium.

Évolution du RSS pour s’adapter aux IA génératives

Dans son guide, le collectif explique que « Really Simple Licensing (RSL) est une évolution des premières idées à l’origine de la norme RSS largement adoptée, qui fournissait un cadre lisible par machine permettant aux éditeurs de syndiquer du contenu à des clients tiers et à des robots d’indexation en échange de trafic ». Il faut préciser que des années avant d’être vice-président chez Yahoo, Eckart Walther a travaillé chez Netscape où il a, entre autres, co-créé le format de flux de données RSS.

L’idée est de mettre en place un protocole pour que, « lorsqu’un article, un ensemble de données ou une image est utilisé par un système d’IA pour générer une réponse à l’aide d’un modèle de base, alimenter une application RAG ou répondre à un agent IA, le propriétaire du contenu » reçoive une compensation « équitable » et qu’il soit cité.

Le RSL est donc un document au format XML qui permet « aux éditeurs, auteurs et développeurs d’applications :

De définir les conditions d’octroi de licence et de rémunération, y compris la gratuité, le paiement à la consultation et le paiement à l’inférence, pour utiliser les ressources numériques à des fins de formation en IA, de recherche sur le Web et d’autres applications
De créer des catalogues publics standardisés et des conditions d’octroi de licence pour les ressources numériques ;
De permettre aux clients d’automatiser l’octroi de licence et le paiement pour un accès légal aux ressources numériques ;
De définir et de mettre en œuvre des accords standardisés en matière de licence et de redevances ».

Il ne remplace pas le robots.txt, mais il l’enrichit. C’est d’ailleurs dans le fichier robots.txt qu’il faut spécifier l’url de la licence RSL.

Pas encore un standard

Le collectif RSL affiche une page qui s’adresse aux entreprises d’IA qui voudraient bien prendre en compte leur protocole. Car, si le collectif est soutenu par plusieurs éditeurs importants du web, aucune entreprise d’IA générative ne semble prête à l’adopter. Ainsi, interrogées par notre consœur d’Ars Technica, ni Google, Meta ou OpenAI n’ont voulu commenter et xAI n’a pas répondu.

Aussi, si le collectif RSL parle de « standard » pour son protocole, celui-ci n’est pas encore validé par la communauté. Il n’est d’ailleurs pas la première initiative en cours pour faire le ménage et proposer aux entreprises d’IA générative à respecter la volonté des auteurs et des éditeurs. Du côté de chez Cloudflare, l’entreprise propose déjà depuis juillet à ses clients des outils pour bloquer les crawlers des IA par défaut. L’entreprise essaye de devenir un intermédiaire entre ses clients et les entreprises d’IA pour assurer une négociation financière.

Début juillet aussi, Creative Commons a proposé CC Signals, un cadre pour l’utilisation des contenus par les IA qui s’appuie sur les fichiers robots.txt et les headers HTTP pour ajouter de nouvelles informations.

L’adoption d’un réel standard pour permettre l’automatisation de l’obtention d’une licence et d’une rétribution en contrepartie de l’utilisation de contenus du web par les IA génératives ne semble pas pour tout de suite. Il faudra ensuite que les entreprises du secteur acceptent de s’y plier, alors que certaines d’entre elles passent depuis longtemps outre les indications se trouvant dans les fichiers robots.txt.

Commentaires (12)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

SebGF Premium

Modifié le 12/09/2025 à 10h57

C'est con, le TDM Reservation Protocol est déjà un standard communautaire sous l'égide du W3C.

Il est basé sur l'application de la Directive 2019/790 européenne avec la réservation des fouilles de texte. Comme le protocole permet de lier une policy (y compris par type de documents), l'aspect licence d'usage peut parfaitement rentrer dedans.

Dans tous les cas, sans contrainte légale, les entreprises pourront l'ignorer. Cela dit, si ces licences sont dans les conditions d'utilisation du site, ça reste opposable.

Timanu69

Le 12/09/2025 à 11h06

Il faudra ensuite que les entreprises du secteur acceptent de s'y plier, alors que certaines d'entre elles passent depuis longtemps outre les indications se trouvant dans les fichiers robots.txt.

Résumé de l'article par IA

Tharamac Premium

Le 12/09/2025 à 11h15

Un standard de plus !?

Bon, après, ils ignorent déjà copieusement le robots.txt, voire même l'utilise pour savoir ou aller plus facilement/rapidement...

Sans parler des * qui annoncent publiquement qu'une fois ton site trouvé, il restera ad vitam aeternam dans la liste des sites à consulter régulièrement même si tu rajoutes leur crawler de merde dans le robots.txt, car il faut mettre leur robot AVANT qu'il ne passe sur ton site...

Plus ça avance, pire c'est...

Tanyuu Premium

Le 12/09/2025 à 11h18

Un peu HS mais en allant voir le robots.txt de next.ink (ça essaie de bloquer le scraping à foison

), j'ai trouvé ça :

Sitemap: Next

Mais le XML est vide :(

Albirew Premium

Le 12/09/2025 à 17h33

yep, le "vrai" sitemap se trouve sur

Next
l'ajout dans robots.txt du mauvais sitemap semble être dû à un plugin nommé yast...

Gilbert_Gosseyn Premium

Le 12/09/2025 à 11h35

Reste à voir si les entreprises d'IA génératives, nombreuses à passer outre les robots.txt, seront enclines à respecter RSL comme un standard.

La répons est évidente : aucune volonté de respect.

127.0.0.1

Le 12/09/2025 à 12h43

Les contenus existant ont déjà été pillés.

C'est illusoire de croire que les pilleurs d'hier vont gentiment respecter un énième fichier qui leur demande d'aller voir ailleurs. D'autant plus que les nouveaux/futurs contenus générés par des humains (et pas générés/hallucinés par les IA) vont être très prisés des entreprises qui doivent maintenir leur modèle à jour.

Je crois davantage à des solutions de paywall/poisoning suivie d'une négociation contractuelle, plutôt qu'au respect de directives dans un fichier XML.

potn Premium

Le 12/09/2025 à 13h35

Une négociation contractuelle par site et par crawler, c'est illusoire.
Par contre, qu'un crawler puisse savoir combien lui coûte d'aspirer un site, ça peut être très intéressant, car ça permet au crawler de choisir quels sites aspirer ou non, et ça permet aux éditeurs de réclamer facilement des dommages et intérêts au crawler au cas où le site est pillé sans autorisation. Et je doute qu'un tribunal puisse se faire berner par de la mauvaise foi des crawlers dans un tel cas.

Si un tel standard était effectivement adopté par beaucoup d'éditeurs de sites, cela pourrait permettre d'avoir un standard "de fait" pouvant influencer les décisions des tribunaux en cas de jugements.

127.0.0.1

Modifié le 12/09/2025 à 14h25

Une négociation contractuelle par site et par crawler, c'est illusoire.

hmm... A mon avis y a pas tant de sites que cela qui intéresseront les entreprises d'IA pour la m-a-j de leurs modèles. Je pense surtout à la presse et les gros agrégateurs/forums avec des commentaires. Ex: Reddit qui signe des accords avec Google et OpenAI

potn Premium

Modifié le 13/09/2025 à 23h12

Sauf que si tu es un petit site comme Next et que tu te fais piller par une IA, tu peux être bien content de pouvoir réclamer une compensation.
Actuellement, les "petits sites" se font juste bouffer... Et ce standard pourrait permettre de réduire les dégâts.

SebGF Premium

Le 13/09/2025 à 09h33

Et ce standard pourrait permettre de réduire led dégâts.

Non puisqu'il n'est en aucun cas obligatoire.

Le seul moyen de réduire des dégâts, c'est de bloquer le site derrière un authentication wall.

Ce protocole peut par contre (comme le TDM reservation protocol dont j'ai parlé au début) permettre de créer une preuve opposable de l'interdiction et ainsi ouvrir des procédures judiciaires. Sauf que là on est plus dans la prévention mais dans la remédiation.

potn Premium

Le 13/09/2025 à 23h13

OK pour dire que parler de "réduire les dégâts" était inapproprié : je parlais, comme tu viens de le faire, d'une simplification de la reméditation.