Scraping IA : le protocole RSL propose d’automatiser l’octroi de licences
robots.txt 2.0 ?
Illustration : Flock
Le 12 septembre 2025 à 10h46
Plusieurs gros éditeurs de sites web étasuniens proposent un nouveau protocole, « Really Simple Licensing » (RSL). Celui-ci permet de préciser aux côtés du fichier robots.txt les conditions, notamment financières, dans lesquelles les contenus d’un site peuvent être utilisés par les entreprises d’IA génératives pour entrainer leurs modèles. Reste à voir si les entreprises d’IA génératives, nombreuses à passer outre les robots.txt, seront enclines à respecter RSL comme un standard.
Scraping IA : le protocole RSL propose d’automatiser l’octroi de licences
robots.txt 2.0 ?
Illustration : Flock
Plusieurs gros éditeurs de sites web étasuniens proposent un nouveau protocole, « Really Simple Licensing » (RSL). Celui-ci permet de préciser aux côtés du fichier robots.txt les conditions, notamment financières, dans lesquelles les contenus d’un site peuvent être utilisés par les entreprises d’IA génératives pour entrainer leurs modèles. Reste à voir si les entreprises d’IA génératives, nombreuses à passer outre les robots.txt, seront enclines à respecter RSL comme un standard.
IA et algorithmes
IA
5 min
La promesse de « Really Simple Licensing » (RSL) est de faire un protocole « vraiment simple » pour indiquer aux robots crawlers des entreprises d’IA générative ce qu’ils ont le droit de faire et de ne pas faire avec le contenu d’un site web et dans quelles conditions. Le protocole est soutenu par le RSL Collective, créé par l’ancien CEO de Ask.com Doug Leeds, le Français et ancien de Datadog Geraud Boyer et l’ancien vice-président des produits chez Yahoo, Eckart Walther.
Depuis l’arrivée des IA génératives, leur crawlers sont, de plus en plus, devenus un sérieux problème pour le web, allant jusqu’à mettre en péril des sites. Les responsables de petits sites comme de gros, ont du mal à faire respecter aux entreprises d’IA générative leurs conditions d’utilisation. Les trois créateurs du RSL Collective espèrent que RSL deviendra un standard pour « offrir une rémunération équitable et standardisée aux éditeurs et aux créateurs, ainsi qu’un système de licence simple et automatisé aux entreprises spécialisées dans l’IA », comme ils l’affirment dans leur communiqué de presse. RSL a obtenu le soutien d’éditeurs du web comme Reddit, Quora, O’Reilly ou encore Medium.
Évolution du RSS pour s’adapter aux IA génératives
Dans son guide, le collectif explique que « Really Simple Licensing (RSL) est une évolution des premières idées à l’origine de la norme RSS largement adoptée, qui fournissait un cadre lisible par machine permettant aux éditeurs de syndiquer du contenu à des clients tiers et à des robots d’indexation en échange de trafic ». Il faut préciser que des années avant d’être vice-président chez Yahoo, Eckart Walther a travaillé chez Netscape où il a, entre autres, co-créé le format de flux de données RSS.
L’idée est de mettre en place un protocole pour que, « lorsqu’un article, un ensemble de données ou une image est utilisé par un système d’IA pour générer une réponse à l’aide d’un modèle de base, alimenter une application RAG ou répondre à un agent IA, le propriétaire du contenu » reçoive une compensation « équitable » et qu’il soit cité.
Le RSL est donc un document au format XML qui permet « aux éditeurs, auteurs et développeurs d’applications :
- De définir les conditions d’octroi de licence et de rémunération, y compris la gratuité, le paiement à la consultation et le paiement à l’inférence, pour utiliser les ressources numériques à des fins de formation en IA, de recherche sur le Web et d’autres applications
- De créer des catalogues publics standardisés et des conditions d’octroi de licence pour les ressources numériques ;
- De permettre aux clients d’automatiser l’octroi de licence et le paiement pour un accès légal aux ressources numériques ;
- De définir et de mettre en œuvre des accords standardisés en matière de licence et de redevances ».
Il ne remplace pas le robots.txt, mais il l’enrichit. C’est d’ailleurs dans le fichier robots.txt qu’il faut spécifier l’url de la licence RSL.
Pas encore un standard
Le collectif RSL affiche une page qui s’adresse aux entreprises d’IA qui voudraient bien prendre en compte leur protocole. Car, si le collectif est soutenu par plusieurs éditeurs importants du web, aucune entreprise d’IA générative ne semble prête à l’adopter. Ainsi, interrogées par notre consœur d’Ars Technica, ni Google, Meta ou OpenAI n’ont voulu commenter et xAI n’a pas répondu.
Aussi, si le collectif RSL parle de « standard » pour son protocole, celui-ci n’est pas encore validé par la communauté. Il n’est d’ailleurs pas la première initiative en cours pour faire le ménage et proposer aux entreprises d’IA générative à respecter la volonté des auteurs et des éditeurs. Du côté de chez Cloudflare, l’entreprise propose déjà depuis juillet à ses clients des outils pour bloquer les crawlers des IA par défaut. L’entreprise essaye de devenir un intermédiaire entre ses clients et les entreprises d’IA pour assurer une négociation financière.
Début juillet aussi, Creative Commons a proposé CC Signals, un cadre pour l’utilisation des contenus par les IA qui s’appuie sur les fichiers robots.txt et les headers HTTP pour ajouter de nouvelles informations.
L’adoption d’un réel standard pour permettre l’automatisation de l’obtention d’une licence et d’une rétribution en contrepartie de l’utilisation de contenus du web par les IA génératives ne semble pas pour tout de suite. Il faudra ensuite que les entreprises du secteur acceptent de s’y plier, alors que certaines d’entre elles passent depuis longtemps outre les indications se trouvant dans les fichiers robots.txt.
Commentaires (12)
Abonnez-vous pour prendre part au débat
Déjà abonné ou lecteur ? Se connecter
Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles d'un média expert
Profitez d'au moins 1 To de stockage pour vos sauvegardes
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousModifié le 12/09/2025 à 10h57
Il est basé sur l'application de la Directive 2019/790 européenne avec la réservation des fouilles de texte. Comme le protocole permet de lier une policy (y compris par type de documents), l'aspect licence d'usage peut parfaitement rentrer dedans.
Dans tous les cas, sans contrainte légale, les entreprises pourront l'ignorer. Cela dit, si ces licences sont dans les conditions d'utilisation du site, ça reste opposable.
Le 12/09/2025 à 11h06
Le 12/09/2025 à 11h15
Bon, après, ils ignorent déjà copieusement le robots.txt, voire même l'utilise pour savoir ou aller plus facilement/rapidement...
Sans parler des * qui annoncent publiquement qu'une fois ton site trouvé, il restera ad vitam aeternam dans la liste des sites à consulter régulièrement même si tu rajoutes leur crawler de merde dans le robots.txt, car il faut mettre leur robot AVANT qu'il ne passe sur ton site...
Plus ça avance, pire c'est...
Le 12/09/2025 à 11h18
Le 12/09/2025 à 17h33
l'ajout dans robots.txt du mauvais sitemap semble être dû à un plugin nommé yast...
Le 12/09/2025 à 11h35
Le 12/09/2025 à 12h43
C'est illusoire de croire que les pilleurs d'hier vont gentiment respecter un énième fichier qui leur demande d'aller voir ailleurs. D'autant plus que les nouveaux/futurs contenus générés par des humains (et pas générés/hallucinés par les IA) vont être très prisés des entreprises qui doivent maintenir leur modèle à jour.
Je crois davantage à des solutions de paywall/poisoning suivie d'une négociation contractuelle, plutôt qu'au respect de directives dans un fichier XML.
Le 12/09/2025 à 13h35
Par contre, qu'un crawler puisse savoir combien lui coûte d'aspirer un site, ça peut être très intéressant, car ça permet au crawler de choisir quels sites aspirer ou non, et ça permet aux éditeurs de réclamer facilement des dommages et intérêts au crawler au cas où le site est pillé sans autorisation. Et je doute qu'un tribunal puisse se faire berner par de la mauvaise foi des crawlers dans un tel cas.
Si un tel standard était effectivement adopté par beaucoup d'éditeurs de sites, cela pourrait permettre d'avoir un standard "de fait" pouvant influencer les décisions des tribunaux en cas de jugements.
Modifié le 12/09/2025 à 14h25
Modifié le 13/09/2025 à 23h12
Actuellement, les "petits sites" se font juste bouffer... Et ce standard pourrait permettre de réduire les dégâts.
Le 13/09/2025 à 09h33
Le seul moyen de réduire des dégâts, c'est de bloquer le site derrière un authentication wall.
Ce protocole peut par contre (comme le TDM reservation protocol dont j'ai parlé au début) permettre de créer une preuve opposable de l'interdiction et ainsi ouvrir des procédures judiciaires. Sauf que là on est plus dans la prévention mais dans la remédiation.
Le 13/09/2025 à 23h13
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?