Connexion Abonnez-vous

IA : Wikimedia appelle les entreprises à utiliser son API payante et à créditer le contenu

Le 12 novembre à 14h37

Comment faire face à la chute des pages vues, que Wikipedia met sur le compte du développement de l’IA générative ?

La fondation Wikimedia a la solution : dans une publication du 10 novembre, elle appelle les développeurs d’IA à recourir à ses ressources de manière « responsable », en créditant leur source et en soutenant le projet contributif financièrement.

Le logo Wikipédia version Yin et Yang

« Les humains apportent à la connaissance des éléments que l’IA ne saurait remplacer », indique la fondation qui fournit l’infrastructure technique pour permettre à des communautés de wikipédiens et wikipédiennes d’alimenter bénévolement les encyclopédies de leurs langues respectives.

Pour permettre au projet de se perpétuer, la fondation appelle donc les créateurs d'IA génératives à citer leurs sources humaines – et Wikipedia, lorsque les contenus ayant servi à alimenter leurs machines viennent de là.

D’après la fondation, « pour permettre à la population d’avoir confiance en l’information partagée sur internet, les plateformes devraient rendre les sources de leurs informations évidentes et promouvoir le fait de visiter et de participer à ces sources ».

Elle incite aussi les constructeurs à se tourner vers son API payante, disponible depuis la plateforme Wikimedia Entreprise, ce qui permet d’utiliser le contenu de l’encyclopédie « à grande échelle et de manière durable sans surcharger les serveurs de Wikipédia », tout en soutenant financièrement ses activités.

Le 12 novembre à 14h37

Commentaires (20)

votre avatar
En admettant que les éditeurs d'IA acceptent (ce dont je doute totalement vu leur sans-gêne coutumier), ne serait-ce pas un piège pour Wikipedia? Se retrouver avec une large part de leurs finances provenant... par exemple... de Grok. Qu'est-ce qui empêcherait ensuite ce taré de Musk de faire ce qu'il veut de l'encyclopédie Wikipedia ?
votre avatar
Le problème actuel, si j'ai bien tout suivi c'est que les avaleurs d'IA bombardent les sites sans relâche, et utiliser une API permettrait "juste" de réduire la charge (rate limiting, etc...). (même si c'était gratuit ça serait une grosse économie pour Wikipedia). Après oui c'est risqué d'accepter des sous de ces gens-là.
votre avatar
Sauf que la licence CC utilisée par Wikipedia autorise l'entraînement pour du machine learning. Creative Commons a déjà exprimé sa position comme quoi ça rentrait dans le Fair use. (et dans le cadre européen, les licences CC ne constituent pas une oppostion à la fouille de texte)

Wikimedia s'appuie-t-elle sur les récents signaux développés par CC pour étendre les possibilités de restrictions des licences ? Je n'ai pas l'impression que la déclaration en parle.

C'est terriblement naïf comme position d'appeler à la responsabilité d'entreprises sans scrupules.
votre avatar
Elle l'autorise, mais l'utilisation de ces données est soumise à des conditions qui ne sont pas respectées, à savoir l'attribution et le ShareAlike
votre avatar
CC n'a pas un avis aussi tranché, plutôt un ça dépend.
Step 2 – When Do CC License Conditions Apply?
The attribution (BY) and ShareAlike (SA) conditions, and NoDerivatives (ND) restriction are triggered only when works or adaptations of works are publicly shared.
The NonCommercial (NC) restriction applies to all uses requiring permission under copyright.
votre avatar
Ben ça ne marche toujours pas :
The attribution (BY) and ShareAlike (SA) conditions, [...] restriction are triggered only when works or adaptations of works are publicly shared.
Du coup, quand n'importe qui partage publiquement un output d'un prompt, les restrictions devraient d'appliquer.

Ensuite ils le disent eux-même :
Attribution (BY)
All CC licenses require attribution to the creator(s) of the licensed material. For AI model training, attribution could be a simple link to the source of the dataset used to train the model.
Quels modèles aujourd'hui donnent la liste exhaustive de leurs sources d'entrainement ?
ShareAlike (SA)
CC BY-SA and CC BY-NC-SA require that adaptations be shared under the same license. If AI models or outputs are based on ShareAlike content and they will be shared publicly, following the ShareAlike condition would require AI developers to use the same CC license as the original works.
Pareil, certains modèles sont publiés, mais sont-ils tous en CC SA du coup ?
Et même problème qu'avant pour les outputs partagés publiquement.
votre avatar
Un modèle n'est pas entraîné que sur les données de Wikipedia ou des données sous licence CC. Comment déterminer la licence de l'output si le data set contient des données sous diverses licences ? Quel mot généré est sous quel licence ?

L'opacité des data set reste un véritable problème, oui.
votre avatar
la license CC ne s'applique qu'au contenu, pas à l'hébergement.
La récupération d'un contenu peut être limité par du throttle (limites sur les pages web et/ou via l'API gratuite) sans pour autant être en contradiction avec le CC vu que l'accès au contenu reste effectif dans les 2 cas.
votre avatar
Sauf que je ne parle pas de technique mais bien de réalisme en matière d'applicabilité de ce voeux pieu.

Wikimedia peut appeler à ce que les entreprises de la Tech arrêtent de scrapper et utilisent les API payantes.

La licence de Wikipedia leur permet de répondre : OK, fuck you.

Raison pour laquelle je trouve la position de Wikimedia très naïve, alors que si elle s'appuyait sur les nouveaux signaux elle pourrait exiger la contrepartie financière pour le nouveau contenu licencié (puisque la CC est attribuée définitivement, ça ne sera pas applicable au précédent).
votre avatar
Surtout qu'il n'y a même pas besoin de scrapper. Les données de Wikipédia sont disponibles sous la forme de dumps, librement téléchargeables et gratuits.

Du coup, je te rejoins entièrement : ils peuvent demander, mais ne peuvent rien exiger en l'état actuel des choses.
votre avatar
Cf :D
votre avatar
Ahah, j'étais passé à côté de ce commentaire. Sorry. Mais tu postes trop :p
votre avatar
Ça va, j'ai de la marge, un peu moins de 4000 d'écarts avec @fred42 :transpi:
votre avatar
Quelque chose me dit que ce n'est pas le business model prévu par les entreprises d'IA XD
votre avatar
Crawler nous, crawler mieux !
votre avatar
Je suppose qu'embaucher un stagiaire qui programme un scrapper wikipedia à un cout perçu inférieur à celui de payer pour une API...
votre avatar
Voir télécharger les dumps officiels de Wikimedia.
votre avatar
Et donc ? Il faudrait que la fondation bloque tout, restreigne l'accès, en contradiction avec ses valeurs, à cause de quelques connards qui abusent de son infrastructure ? C'est quoi ce niveau de réflexion par le bas ? Les dumps sont là depuis des décennies.
votre avatar
Ben si c'est la conclusion à laquelle tu arrives, ce n'est pas la mienne.

Quand à "ce niveau de réflexion par le bas", tu te le gardes.
votre avatar
je vois pas en quoi restreindre l'accès à son site a, disons, 20 pages par minutes est en contradiction avec ses valeurs.
à moins que les valeurs de la fondation aient changé entre temps et soient devenus "tout, tout de suite, et les autres peuvent aller crever si les serveurs lâchent parce qu'un fdp fournisseur de LLM pompe trop"...

IA : Wikimedia appelle les entreprises à utiliser son API payante et à créditer le contenu

Fermer