Dans les communautés de Wikipédia, l’utilisation de l’IA ne passe pas
Wikipéd-IA

La fondation Wikimedia a mis en place une fonctionnalité expérimentale de résumé automatique des articles de l'encyclopédie qui s'affichait en tête de page dans la version mobile. Les wikipédiens n'ont pas apprécié et l'ont fait comprendre à la fondation, qui a finalement fait marche arrière avant la fin de la période de tests prévue.
Le 13 juin à 08h00
6 min
IA et algorithmes
IA
Le 2 juin dernier, la fondation Wikimedia a annoncé aux communautés qui participent à l'édition de Wikipédia la mise en place d'une fonctionnalité utilisant l'IA générative : des résumés en haut des pages de l'encyclopédie. De « simples résumés pour les lecteurs générés par la machine, mais modérés par des éditeurs », expliquait la fondation.
« Ces résumés reprennent le texte existant de Wikipédia et le simplifient pour les lecteurs intéressés. Les lecteurs manifesteront leur intérêt en choisissant cette fonctionnalité et en cliquant pour ouvrir le résumé sur les pages où il est disponible », précisait-elle.
Cette expérimentation a été mise en place sur la version mobile de l'encyclopédie et devait concerner « un petit groupe (10 %) de lecteurs acceptant et ouvrant des résumés pré-générés sur un ensemble d'articles pendant deux semaines ». Un badge « non-vérifié » était même accolé en haut du texte.

De rudes critiques sur le principe même
Mais la fondation a dû l'écourter. Comme l'indique 404 Media, la communauté n'a pas apprécié le principe même de cette fonctionnalité. « Beurk » ont répondu certains. « Ce n'est pas parce que Google a déployé ses résumés IA que nous devons les surpasser », rétorque un autre : « je vous prie sincèrement de ne pas tester ça, ni sur mobile ni ailleurs. Cela porterait un préjudice immédiat et irréversible à nos lecteurs et à notre réputation de source digne de confiance et sérieuse ». D'autres affirment que c'est une « très mauvaise idée » ou s'y disent « opposés le plus fortement possible ».
La fondation n'a pas lancé ce projet en secret puisqu'une page lui était consacrée depuis janvier dernier sur son site dédié à la communauté MediaWiki. Cette page explique d'ailleurs que l'idée vient de discussions menées en aout 2024 lors de la conférence Wikimania de la fondation. Mais la communication envers la communauté à propos de ce projet semble ne pas avoir atteint sa cible avant qu'il soit mis en place.
Suite aux réactions, la fondation a lancé un sondage critiqué par la communauté pour son manque de transparence et ses résultats qui ne sont pas publics.
Une expérimentation en contradiction avec une recommandation de la communauté francophone
Du côté francophone, ça réagit aussi suite à la publication de l'article de 404 Media. « Les IA génératives peuvent s'avérer utiles pour reformuler ou synthétiser une proposition de RI [résumé introductif] préparé au préalable par un(e) honorable homo wikipedianus, mais je doute que cela puisse remplacer le RI lui-même », écrit une des bénévoles. Et d'ajouter : « Ce serait contraire à une "utilisation raisonnée" de l'IA telle que définit dans la nouvelle recommandation qui a été votée par la communauté, surtout sans vérification préalable ».
Et effectivement, en parallèle de cette expérimentation et sans aucun lien avec elle, la communauté de Wikipédia en français a voté très majoritairement pour un texte de recommandation sur l'usage de l'IA générative. Le résumé (non généré par IA) de ce texte affirme que « l'intelligence artificielle générative (IAg) n'apporte aucune garantie sur la fiabilité, la libre réutilisation et la vérifiabilité du contenu. Son utilisation est donc vivement déconseillée ».
Jules*, l'un des administrateurs de Wikipédia en français (qui a contribué à notre enquête sur les sites d'information générés par IA, ndlr), est aussi très critique de l'expérimentation mise en place par la fondation : « Je ne vois pas en quoi c'est un avantage. L'utilisateur pressé qui ne lit que le RI lira un RI généré par IA qui contient peut-être des hallucinations, des contre-sens, des imprécisions, qui ne restitue pas fidèlement le contenu de l'article, etc. C'est désastreux ».
La fondation admet un raté dans la communication avec les bénévoles
« Cette expérience, d'une durée de deux semaines, visait à rendre les articles complexes de Wikipédia plus accessibles aux personnes ayant des niveaux de lecture différents », a déclaré la fondation à 404 Media.
Elle précise que, « pour les besoins de cette expérience, les résumés ont été générés par un modèle Aya à poids ouvert de Cohere. L'objectif était de mesurer l'intérêt pour une telle fonctionnalité et de nous aider à réfléchir au type de système de modération communautaire adéquat pour garantir que les humains restent au centre des décisions concernant les informations affichées sur Wikipédia ».
Un responsable de projet de la fondation admet aussi auprès de nos confrères que la fondation aurait pu faire mieux en ouvrant la conversation sur le sujet sur le « village pump technical », l'endroit où sont discutés les sujets techniques en lien avec l'encyclopédie.
« Nous ne prévoyons pas d'introduire une fonction de résumé dans les wikis sans la participation des éditeurs. Un processus de modération par l'éditeur est nécessaire en toutes circonstances, à la fois pour cette idée et pour toute autre idée future concernant le contenu résumé ou adapté par l'IA », ajoute-t-il.
Dans les communautés de Wikipédia, l’utilisation de l’IA ne passe pas
-
De rudes critiques sur le principe même
-
Une expérimentation en contradiction avec une recommandation de la communauté francophone
-
La fondation admet un raté dans la communication avec les bénévoles
Commentaires (15)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 13/06/2025 à 08h08
Mais par essence, si on vient sur wikipédia c'est pour essayer d'avoir la définition la plus précise, honnête, sérieuse, non biaisée, vérifiée par des pairs... bref aux antipodes de ce que fait l'IA. C'est juste broken by design.
Modifié le 13/06/2025 à 08h28
En fait, tu as raison, les 2 besoins existent :
- un besoin d'information pointue, rigoureuse à destination des spécialistes
- un besoin d'information simplifiée, pour la vulgarisation (mais par essence tronquée, avec les problèmes que ça apporte)
J'ai l'impression que Wikipédia a fait l'erreur de débutant en informatique : partir d'une solution technique pour trouver le besoin (on a accès à l'IA, comment va-t-on l'utiliser ?), au lieu de partir du besoin pour concevoir une solution (comment faire cohabiter la vulgarisation et l'information pointue ?).
Modifié le 13/06/2025 à 09h14
On pourrait même imaginer des déclinaisons à destination de publics différents (enfants par exemple) ou des longueurs différentes (1 phrase / 3 phrases...).
Le 13/06/2025 à 11h19
Le 13/06/2025 à 22h54
Le 14/06/2025 à 10h33
Le 14/06/2025 à 12h50
Le 16/06/2025 à 15h25
Modifié le 13/06/2025 à 09h00
Dans le cas de Wikipedia, le cartouche d'introduction est généralement rédigé de manière à fournir l'essentiel pour comprendre le contexte (Machin est un truc créé en tel année par Bidule qui opère dans blablabla, Truc est un concept développé par Chose...) et la structuration des articles suit une certaine logique de lecture qui se suffit.
Le 13/06/2025 à 09h20
Si wikipedia ne propose pas d'IA pour rester "pur", un autre acteur en proposera une.
Y a certainement un marché pour une IA spécialisée dans les connaissances académiques.
Le 13/06/2025 à 09h40
Le seul intérêt d'un entraînement à mes yeux, c'est pour que le LLM apprenne à lire le contenu et traiter des requêtes en conséquence pour être plus pertinent.
Le 13/06/2025 à 11h43
Modifié le 13/06/2025 à 13h31
Ce que je voulais dire, c'est qu'il y a une différence entre entraîner un LLM dessus en vu de lui apprendre à lire, et vouloir en faire une "base de connaissances" à des fins encyclopédique.
Lorsqu'un contenu est régulièrement modifié, l'intérêt d'entraîner un LLM dessus n'est super pertinent dans le second cas. Le RAG est plus adapté pour ça.
Pour donner un autre exemple de vie réelle : l'usage de l'IA dans l'ITSM. Entraîner un LLM sur la documentation d'un service IT (quand elle existe
Le 13/06/2025 à 10h03
Universalis pour faire joli sur ses étagères.
(sans gros morceaux gourmands d'IA inside)
Le 13/06/2025 à 14h20