Connexion Premium

La Wikipedia anglophone interdit l’édition assistée par modèles de langage

IA pas d'arrangement

La Wikipedia anglophone interdit l’édition assistée par modèles de langage

La version anglophone de l’encyclopédie participative a décidé d’interdire l’utilisation de l’IA générative pour la plupart des modifications de ses pages. Wikipédia en allemand a aussi récemment restreint cette utilisation.

Le 27 mars à 15h48

« Les textes générés par des grands modèles de langage (LLM) tels que ChatGPT, Gemini, DeepSeek, etc. enfreignent souvent plusieurs des principes fondamentaux de Wikipédia », explique maintenant une page de la version anglophone de l’encyclopédie consacrée à la rédaction d’articles à l’aide de grands modèles de langage.

Deux petites exceptions pour l’usage de l’IA générative dans la Wikipédia anglophone

Les éditeurs ont donc décidé que, désormais, « l’utilisation des grands modèles de langage (LLM) pour générer ou réécrire le contenu d’articles est interdite » (toujours concernant la version anglophone). Même si peu de personnes ont participé au vote (46), une large majorité (44) a voté en faveur de cette nouvelle règle quand seulement deux personnes s’y sont opposées, comme on peut le lire dans le résumé des discussions.

Le texte ajoute quand même deux exceptions pour lesquelles les utilisateurs de la Wikipédia anglophone peuvent utiliser des outils intégrant des LLM.

Ainsi, la règle permet cette utilisation aux éditeurs pour « obtenir des suggestions de corrections de fond concernant leurs propres textes ». L’intégration de ces suggestions doit néanmoins se faire « après vérification humaine », et « à condition que le LLM n’ajoute pas de contenu de son propre chef ».

La Wikipédia anglophone accepte aussi l’utilisation de ces outils pour traduire des pages d’autres versions linguistiques de l’encyclopédie, à condition de suivre les règles récemment mises en place à ce sujet. En effet, les « hallucinations » venues de traductions par IA avaient déjà fait bouger les lignes à ce sujet.

Une utilisation difficile à objectiver et un déni toujours possible

Un dernier paragraphe concède que certains utilisateurs peuvent avoir un style d’écriture qui se rapproche de celui d’une IA générative. Ainsi, le texte demande à ce que les éventuelles sanctions prises au nom de l’utilisation de modèles de langage s’appuient plus sur l’infraction des principes fondamentaux de Wikipédia que sur l’éventuelle signature stylistique et linguistique d’un texte.

Mais l’une des éditrices ayant voté en faveur de cette règle exprime quand même la crainte que son adoption soit vaine : « Je crains tout de même un peu que l’approche que nous adoptons dans ces directives n’encourage le mensonge (surtout compte tenu de la réserve selon laquelle, si le texte est de bonne qualité, la directive ou la politique ne sera pas appliquée, alors à quoi bon ?) et qu’il soit difficile de les faire respecter correctement ».

Une interdiction d’usages jugée utile par certains

Pour l’une des personnes qui s’y est opposée, la formulation proposée ne fait pas la distinction entre l’utilisation des LLM pour générer du « slop » et « un processus de travail beaucoup plus restreint, dans lequel un éditeur expérimenté identifie les sources, définit le cadre de la tâche, vérifie le résultat par rapport aux sources et assume l’entière responsabilité de ce qui est publié ».

« Mettre tout cela dans le même panier n’aide personne », ajoute celle pour qui « « l’utilisation des LLM pour générer ou réécrire le contenu d’articles est interdite » : c’est tout simplement trop radical ».

Dans les discussions avant vote, un autre utilisateur expliquait en quoi, pour lui, les LLM pouvaient être utiles dans l’édition de Wikipédia : « une utilisation que j’ai trouvée utile consiste à importer le fichier PDF d’une source que je viens de lire dans le LLM en lui donnant la consigne suivante : « génère une référence au format Wikipédia pour ce document. Si des informations bibliographiques manquent, effectue une recherche sur Internet pour les trouver et fournis-moi les liens vers les sources où tu as trouvé ces informations manquantes afin que je puisse vérifier leur exactitude » ».

Mais, comme l’explique une des personnes en faveur de l’interdiction, le besoin de « remédier au déséquilibre flagrant entre l’effort nécessaire pour générer du contenu IA slop et celui requis pour le nettoyer » l’a emporté.

Les Wikipédia germanophone et francophone avancent aussi sur le sujet

L’utilisation des outils s’appuyant sur les LLM n’agite pas que la communauté anglophone. Comme nous l’expliquions l’année dernière, la communauté francophone a déjà adopté, à l’époque, un texte de recommandation sur l’usage de l’IA générative.

Le résumé de ce texte affirme que « l’intelligence artificielle générative (IAg) n’apporte aucune garantie sur la fiabilité, la libre réutilisation et la vérifiabilité du contenu. Son utilisation est donc vivement déconseillée ».

Jules*, l’un des administrateurs de Wikipédia en français, affirme cependant sur Bluesky qu’ « en pratique, les blocages pour mésusage de l’IA générative se multiplient » et il ajoute qu’« il est probable qu’une nouvelle itération [de la recommandation] survienne dans les prochains mois ».

Il pointe aussi qu’en février dernier, la Wikipédia germanophone s’est dotée « d’une recommandation stricte sur l’IA générative », dixit la newsletter francophone du projet.

Elle indique : « Wikipédia est un projet dont le contenu est documenté et rédigé par des humains pour des humains. L’utilisation de l’intelligence artificielle générative dans le cadre de l’élaboration de contenus pour Wikipédia est donc fondamentalement indésirable, à quelques exceptions près, qui sont énumérées ci-dessous ».

Sont ainsi autorisés le recours à la traduction automatique, qui fonctionne avec le support de l’IA, l’utilisation d’outils basés sur l’IA pour la détection des erreurs (mais, contrairement aux robots de Wikipédia, toute modification doit être validée par un humain), ainsi que la recherche avec l’aide de l’IA.

Commentaires (7)

votre avatar
Mais comment font-ils pour détecter qu'un article est généré par IA ? (Condition sine-qua-non pour appliquer la règle votée.)
votre avatar
Il y a pas mal de systèmes de contrôle de texte générés par ia, J’imagine que pour contrer l’IA, Wikipedia va utiliser un peu d’IA…
votre avatar
Ces outils sont loin d'être fiables sans parler de l'aspect propriété intellectuelle derrière avec la réutilisation des contenus pour l'entraînement (même si Wikipedia c'est du CC, donc mon contraignant).

Du doigt mouillé algorithmique contre lequel il devient difficile de se défendre.

La méthodo de contrôle doit être publique, vérifiable et reproductible si on veut conserver une relation de confiance.
votre avatar
100% d’accord, je répondais juste à la question du dessus :)
votre avatar
C'est une posture plus qu'autre chose. D'ailleurs ils en parlent dans l'article, ils savent bien que ce ne sera pas simple à faire respecter.
Mais ça a au moins le benefice de poser les règles pour les contributeurs honnêtes.
votre avatar
Le style d'écriture des LLM est assez différent du style d'écriture naturel de la plupart des humains, encore aujourd'hui en tout cas. Ça rend leurs textes plus distants, plus étrange et il y a un côté qui, je trouve, sonne toujours un peu faux, quand bien même l'information utile serait intéressante.

Je trouve ça pertinent qu'une encyclopédie soit rédigée exclusivement par des humains.
votre avatar
En fait, vu que les LLM sont entrainés sur une multitude de texte, d'auteurs différents, de langue différentes, etc. c'est un miracle qu'on ne se retrouve pas avec du texte généré qui soit comme ce qui sortirait directement de la bouche d'un minion ^^
- Hein? Papuche?
- No, no, no, papuche! *
- Aaaah! Papuche!