Connexion
Abonnez-vous

CC signals : Creative Commons propose un cadre pour l’utilisation des contenus par les IA

Creative Commons 2.0

CC signals : Creative Commons propose un cadre pour l’utilisation des contenus par les IA

L'association derrière les licences Creative Commons se lance dans les débats sur l'utilisation des contenus par les IA. Elle propose ce qu'elle appelle rien de moins qu'un « nouveau contrat social à l'ère de l'IA » : les CC Signals.

Le 03 juillet à 14h36

Creative Commons a récemment lancé un cadre pour permettre aux auteurs et autrices de contenus, que ça soit des images, des vidéos ou du texte, de spécifier comment ceux-ci peuvent être réutilisés par des machines, par exemple lors de l'entrainement de modèles d'IA générative.

Les licences Creative Commons sont devenues, au cours des années, une institution dans le paysage de l'internet. Les artistes comme les chercheurs ou les entreprises les ont adoptées. Mais elles ont été conçues dans un monde dans lequel les modèles de langage n'existaient pas.

Certaines entreprises d'IA générative n'ont pas hésité à entrainer leurs modèles en utilisant notamment des contenus sous la licence Creative Commons by-sa comme ceux de Wikipédia. Celle-ci pose pourtant des conditions pour la réutilisation des œuvres : l'attribution et le partage dans les mêmes conditions, même lorsqu'il s'agit d'une transformation.

Mais Creative Commons s'est bien rendu compte que les licences n'étaient pas l'outil approprié pour indiquer aux éventuels réutilisateurs ce que les auteurs les autorisent ou pas à faire de leurs contenus.

Quatre signaux pour affirmer les conditions de réutilisation par les machines

L'association a donc lancé un nouveau chantier : les CC Signals. La semaine dernière, elle y consacrait un billet de blog, qui explique notamment que « fondés sur les mêmes principes que ceux qui ont donné naissance aux licences CC et aux dizaines de milliards d'œuvres sous licence ouverte en ligne, les CC signals permettront aux détenteurs d'ensembles de données d'indiquer leurs préférences quant à la manière dont leur contenu peut être réutilisé par des machines, sur la base d'un ensemble d'options limitées mais significatives, façonnées dans l'intérêt du public ».

Elle affirme que ce cadre est destiné à être à la fois un outil technique mais aussi légal, et une proposition sociale : « un appel à un nouveau pacte entre ceux qui partagent les données et ceux qui les utilisent pour entrainer des modèles d'IA ».

Pour l'instant, ce « nouveau pacte social » n'en est qu'à ses débuts. Dans son TL;DR, l'association admet que « c'est un défi extrêmement complexe et les enjeux sont énormes ». Dans son rapport [PDF] sur le sujet, elle détaille quatre ce qu'elle appelle des « signal elements » qu'elle a « conçus pour refléter les éléments essentiels du thème général de la réciprocité ». Ces éléments sont l'équivalent des conditions des licences Creative Commons :

Crédit : vous devez donner le crédit approprié en fonction de la méthode, des moyens et du contexte de votre utilisation.

Contribution directe : vous devez apporter un soutien financier ou en nature à la partie déclarante pour le développement et l'entretien des contenus, sur la base d'une évaluation de bonne foi tenant compte de votre utilisation des contenus et de vos moyens financiers.

Contribution à l'écosystème : vous devez apporter une aide financière ou en nature à l'écosystème dont vous bénéficiez, sur la base d'une évaluation de bonne foi tenant compte de l'utilisation que vous faites des contenus et de vos moyens financiers.

Ouverture : le système d'IA utilisé doit être ouvert. Par exemple, les systèmes d'IA doivent satisfaire à la classe II du cadre d'ouverture des modèles (MOF), à la classe I du MOF ou à la définition de l'IA à source ouverte (OSAID).

Implémentation dans les fichiers robots.txt et les headers HTTP

L'association indique que tout cela reste encore au stade de brouillon et n'est donc pas gravé dans le marbre. Concernant la contribution directe, elle précise que l'idée des CC signals ne doit pas être vue comme un outil sur lequel faire reposer un modèle économique « ni même comme un moyen de récupérer les coûts de manière fiable ».

Sur la contribution à l'écosystème, elle souligne que, « bien que la formulation initiale soit très ouverte, [elle espère et attend] que des normes, des bonnes pratiques et même de nouvelles structures collectives se développent autour de cette notion dans différents secteurs et pour différents types de réutilisations ».

Comme pour les licences, les signaux CC peuvent être combinés. Pour l'instant, l'association a imaginé quatre combinaisons possibles :

  • Crédit
  • Crédit + contribution directe
  • Crédit + contribution à l'écosystème
  • Crédit + ouverture

Pour l'implémentation, Creative Commons a partagé ses réflexions sur GitHub. Pour l'instant, l'idée serait d'insérer les signaux dans le fichier robots.txt et dans l'en-tête HTTP Content-Usage.

Dans le robots.txt, on pourrait avoir une déclaration du genre :

User-Agent: *
Content-Usage: ai=n;exceptions=cc-cr
Allow: /

Et le header HTTP pourrait ressembler à :

200 OK
Date: Mon, 09 Jun 2025 12:42:03 UTC
Content-Type: text/plain
Content-Usage: genai=n;exceptions=cc-cr-ec

Pas besoin de signal Creative Commons si on ne veut pas du tout partager avec les IA

Dans son billet, l'association se disait ouverte aux critiques. Une semaine après, celles-ci semblent avoir été massives, puisqu'elle a publié un billet de mise à jour pour faire le point. Les griefs porteraient notamment sur le fait que Creative Commons mette le pied dans la gestion de l'utilisation des contenus par les entreprises d'IA.

Dans son nouveau billet, l'association s'est sentie obligée de préciser qu'elle pense « que les pratiques actuelles des entreprises d'IA constituent une menace pour l'avenir des biens communs ». « Ce sentiment ne nous surprend pas » affirme l'association, « nous le ressentons également. En fait, c'est la raison pour laquelle nous réalisons ce projet ».

Elle ajoute que « de nombreux créateurs et communautés de la connaissance se sentent trahis par la manière dont l'IA est développée et déployée. Le résultat est que les gens se tournent, à juste titre, vers la fermeture ». Et commente : « à terme, nous craignons que les gens ne veuillent plus du tout partager publiquement ».

Elle précise donc que « les créateurs qui souhaitent sortir totalement de la réutilisation par les machines n'ont pas besoin d'utiliser un signal CC. Les signaux CC sont destinés à ceux qui veulent continuer à partager, mais avec certaines conditions ».

Commentaires (6)

votre avatar
Merci @SebGF d'avoir attiré notre attention sur ce sujet ! :inpactitude:
votre avatar
J'ai vraiment bien apprécié ce premier jet de l'initiative. Il n'y a que la partie "contribution à l'écosystème" que je n'ai pas encore très bien comprise.

En tous cas, je regarde ça pour mes travaux perso qui sont aujourd'hui sous CC-BY-SA (NC pour certains, voire ND pour un autre) et utilisant aussi le TDM Reservation protocol pour être raccord avec la DAMUN.

Les outils arrivent, c'est une bonne chose.
votre avatar
Très intéressant, merci
votre avatar
"bonne foi" par ci, "bonne foi" par là, cela me semble d'une naïveté confondante.

Sinon, dans 3j gemini sera d'office en train de se nourrir de votre activité sur téléphone Android.

On veut des bombes anti-scrawlers qui ne respectent pas les licences ni le coût des infra, pas une esbrouffe de bisounours
votre avatar
On veut des bombes anti-scrawlers qui ne respectent pas les licences ni le coût des infra, pas une esbrouffe de bisounours
C'est précisément la raison de cet enrichissement du cadre des Creative Commons : aujourd'hui, c'est conforme.

En 2021, Creative Commons avait déjà exprimé que les termes de ses licences ne constituent pas une réservation de droits au sens de la directive EU 2019/790. Il était donc déjà indispensable d'indiquer qu'un matériel sous CC n'est pas autorisé à être utilisé pour du Text and Data mining si celui-ci était diffusé publiquement (avec exception dans tous les cas pour la recherche, l'éducation et la mission de patrimoine).

Creative Commons s'est positionné en considérant l'usage des données comme du fair use au sens du copyright US lors de l'appel à consultation par le bureau du copyright.

Cependant, CC a aussi entendu les inquiétudes des créateurs et avait dans sa réponse formulé cette notion de signaux. C'est donc le but de cette initiative : donner un cadre juridique permettant aux créateurs d'attaquer si leurs oeuvres sous CC sont utilisées de façon illicites au regard de leur licence. Cette évolution est similaire au cadre de la DAMUN européenne (qui commence elle aussi à être remise en cause par les politiques) o* il est indispensable pour le détenteur des droits d'indiquer l'opt-out. Les signaux sont disponibles par différents moyens : un texte mentionnant les droits (dans le cadre d'un livre, ça peut se mettre dans les mentions légales) et des balises techniques type meta sur un epub ou un site web, et même un PDF. Dans le cas d'une image, ça peut se mettre dans les métadonnées.

Donc non, ce n'est pas une esbroufe de bisounours. C'est une réponse pour justement renforcer les licences et donner un moyen de contre-attaquer en cas de violation de celle-ci.
votre avatar
Merci pour ces précisions juridiques.
Il faudra que ces signaux soient respectés, ou réussir à les faire respecter... c'est pour moi le plus grand challenge

CC signals : Creative Commons propose un cadre pour l’utilisation des contenus par les IA

  • Quatre signaux pour affirmer les conditions de réutilisation par les machines

  • Implémentation dans les fichiers robots.txt et les headers HTTP

  • Pas besoin de signal Creative Commons si on ne veut pas du tout partager avec les IA

Fermer