Connexion Premium

Wikipédia perd 8 % de pages vues par les humains en un an et met ça sur le compte de l’IA

Un web moins participatif en vue ?

Wikipédia perd 8 % de pages vues par les humains en un an et met ça sur le compte de l’IA

La fondation Wikimedia lance un signal d’alarme, constatant une baisse du nombre de pages vues par des humains au cours des derniers mois. Elle s’inquiète du fait que cela entraine une baisse du nombre de bénévoles enrichissant l’encyclopédie.

La fondation Wikimedia a publié un billet de blog ce vendredi 17 octobre dans lequel elle décrit une « baisse du nombre de pages vues par les utilisateurs sur Wikipédia au cours des derniers mois, soit une diminution d’environ 8 % par rapport aux mêmes mois en 2024 ».

Nombre de pages vues par des humains pour toutes les versions linguistiques de Wikipédia depuis septembre 2021, avec révision du nombre de pages vues depuis avril 2025. Wikimedia Fundation

Marshall Miller, directeur de produit, y explique que la fondation a actualisé sa méthode pour identifier si un visiteur est un humain ou un robot. En effet, vers le mois de mai, elle a observé un trafic anormal venant du Brésil que ses systèmes identifiaient jusque là comme des visiteurs humains alors qu’il s’agissait vraisemblablement de consultations par des crawlers de services.

Un petit peu avant, la fondation évoquait déjà le sérieux problème que provoquaient les crawlers d’IA pour le web, en générant un trafic « sans précédent et présentent des risques et des coûts croissants ».

Les crawlers des IA deviennent un sérieux problème pour le web, même pour Wikimédia

Impact des services d’IA sur la consultation directe de l’encyclopédie participative

Ici, c’est un autre effet de ces services qu’évoque la fondation. « Nous pensons que ces baisses reflètent l’impact de l’IA générative et des réseaux sociaux sur la manière dont les gens recherchent des informations, en particulier avec les moteurs de recherche qui fournissent directement des réponses aux internautes, souvent basées sur le contenu de Wikipédia », explique Marshall Miller.

Tout ça n’est pas une surprise pour la fondation qui ajoute que « cette évolution progressive n’est pas propre à Wikipédia ». « De nombreux autres éditeurs et plateformes de contenu font état de changements similaires, les utilisateurs passant davantage de temps sur les moteurs de recherche, les chatbots IA et les réseaux sociaux pour trouver des informations. Ils subissent également la pression que ces entreprises exercent sur leur infrastructure ». En juin dernier, nous relayions les inquiétudes de responsables de sites web (notamment scientifiques et/ou bénévoles).

Les fichiers robots.txt sont les premiers boucliers des sites web contre les crawlers intempestifs. Et Wikipédia ne s’en prive pas. La version anglophone de l’encyclopédie a un fichier robots.txt très détaillé, avec des commentaires. Ainsi, on peut y trouver, par exemple, une section listant des user-agents comme HTTrack ou Microsoft.URL.Control surmontée du commentaire : « Certains robots sont connus pour causer des problèmes, en particulier ceux conçus pour copier des sites entiers. Veuillez respecter le fichier robots.txt ». On peut y voir aussi que les crawlers Mediapartners-Google, utilisés par Google pour son service Adsense, sont bloqués avec juste comme commentaires le fait qu’ils sont reliés à de la pub. La partie francophone a peu ou prou la même liste avec quelques ajouts dans son robots.txt.

Mais cette première protection ne suffit plus. Comme l’expliquait Cloudflare en août dernier, Perplexity utilisait deux types de bots en fonction des autorisations des éditeurs concernant l’IA. L’entreprise déguisait ainsi parfois ses crawlers utilisés à des fins d’entrainement d’IA en navigateurs tout ce qu’il y a de plus classique.

La fondation Wikimedia rappelle que « presque tous les grands modèles linguistiques (LLM) s’entraînent sur les jeux de données de Wikipédia, et les moteurs de recherche et les plateformes de réseaux sociaux donnent la priorité à ses informations pour répondre aux questions de leurs utilisateurs ». Et elle y voit du positif pour le projet qu’elle chapote : « cela signifie que les gens lisent les connaissances créées par les bénévoles de Wikimedia partout sur Internet, même s’ils ne visitent pas wikipedia.org. Ces connaissances créées par l’homme sont devenues encore plus importantes pour la diffusion d’informations fiables en ligne ».

Le risque d’une baisse de la participation au projet

Mais elle y voit aussi un risque, et pas seulement sur ses infrastructures : « avec moins de visites sur Wikipédia, moins de bénévoles vont développer et enrichir le contenu, et moins de donateurs individuels vont soutenir ce travail ».

Défendant le projet Wikipédia, la fondation en donne, sans surprise, une vision opposée de celle récemment véhiculée par Elon Musk annonçant son projet personnel Grokipedia. « Wikipédia est le seul site de cette envergure à appliquer des normes de vérifiabilité, de neutralité et de transparence qui alimentent l’information sur tout Internet, et elle continue d’être essentielle pour répondre aux besoins quotidiens des gens en matière d’information, d’une manière invisible », assure-t-elle.

Le défi pour la fondation est donc que les lecteurs sachent que ce contenu vient bien de Wikipédia et qu’ils continuent à y contribuer. Le programme Wikimedia Enterprise est censé pousser les entreprises à attribuer correctement les contenus. La fondation assure travailler sur des manières d’amener les générations qui sont plus sur YouTube, TikTok, Roblox, et Instagram à collaborer à l’encyclopédie.

Commentaires (11)

votre avatar
Quand il y aura plus personnes pour alimenter Wikipedia ou des sites de connaissances parce que l'IA saura tout et qu'on a plus besoin d'autres sites, l'IA va t elle finir par bugger ?
votre avatar
Concernant la lecture par les robots d'IA, je ne comprends pas vraiment l'intérêt pour les boites d'IA de parcourir sans cesse wikipedia.org, plutôt que d'analyser les dumps, fournis par la fondation.

Pour le reste, cette tendance semble être un retour de bâton pour la fondation Wikimedia. Car lorque Wikidata a été créé en 2012, il y a eu un débat dans la communauté au sujet de la licence à utiliser. C'est la licence CC-0 qui a été choisi avec comme argument qui ça permettrait une réutilisation la plus large possible, notamment par Google. C'est à partir de ce moment qu'on a vu apparaitre des infos sur la droite des résultats Google qui affichent les informations principales sur le sujet recherché ; ces données structurées viennent en grande partie de Wikidata. On est maintenant seulement à l'étape suivante où les gens ne cliquent même plus sur le lien Wikipédia pour trouver l'info.

Dernier point au sujet de l'IA qui utilise les données de Wikipedia pour l'entrainement. J'ai lu cet article (en anglais) qui fait réfléchir. Les données de d'éditions linguistiques de Wikipédia rédigées dans des langues minoritaires sont massivement utilisées pour entrainer les traducteurs automatiques. Or ces articles sont pour beaucoup écrits par des rédacteurs et rédactrices qui ne parlent pas nativement cette langue mais qui utilisent des traducteurs automatiques, ce qui crée beaucoup d'erreurs. Le cercle vicieux est activé pour les langues minoritaires.
votre avatar
Merci pour cet article très intéressant.
votre avatar
La fin de Wikipedia est une évolution logique comme caramail, skyblog, myspace, msn etc...
Wikipedia c'est devenu has been.
votre avatar
Ouaip d'ailleurs l'intelligence artificiel n'aura bientôt plus besoin de l'humain pour tout comprendre ou connaitre: l'humain c'est devenu has been :ouioui:

Quelle est la différence entre Wikipedia et Chat GPT ?

  • Sur Wikipedia on a accès à la totalité des sources ayant permis de créer un article. On a même accès à tous les échanges pour le rédiger.




  • Sur Chat GPT on fait confiance à l'Intelligence Artificielle qui ne connait aucun biais, aucun problème de synthèse, qui ne peut pas hallucinée ou être orientée par ses concepteurs car... elle est Intelligente (ben oui c'est écrit dans le titre)

votre avatar
Je dirais plutôt : comme stack overflow. Une fois que l'IA, entraînée avec le site, fait aussi bien, le site original perd son audience. Et du coup, l'entraînement de l'IA n'est plus mis à jour, et dans quelque temps elle restera le bec dans l'eau.
votre avatar
Ben c'est normal, maintenant, la meilleure méthode pour consulter Wikipédia, c'est de demander à son agent IA d'aller chercher la ou les pages et d'en faire un résumé, voyons :kill:
votre avatar
Tout cela est tellement triste.

je ne sais pas trop si c'est le fait que j'ai connu les débuts d'internet pour les particuliers, mais le monde vers lequel on semble se diriger ne me plaît pas.

S'informer avec une IA c'est vraiment s’enfermer au main du "grand capital" qui va nous influencer pour mieux nous la mettre.
Bien c'est déjà bien le cas avec tous les grand médias mais là, on est face à l'étape du dessus.

Comme à chaque appel, j'ai fais un don à wikimedia.
votre avatar
S'informer avec une IA c'est vraiment s’enfermer au main du "grand capital" qui va nous influencer pour mieux nous la mettre. Bien c'est déjà bien le cas avec tous les grand médias mais là, on est face à l'étape du dessus.
Tu oublies le fait que beaucoup de monde "s'informe" via les medias sociaux depuis plusieurs années en suivant des "influenceurs".

Ils sont donc déjà enfermés dans le "grand capital" et influencés.
votre avatar
Ils sont sûrs que c'est pas juste Seznec qui a arrêté d'aller bidouiller sa page et celle du Point ? :D
votre avatar
La tragédie des communs ...