Submergée de prépublications générées par IA sur l’IA, arXiv va modérer plus strictement

Les IA parlent pseudoscientifiquement aux IA au sujet de l'IA

Illustration : Flock

Martin Clavey

Le 04 novembre 2025 à 14h13

La plateforme de preprints arXiv ne va plus accepter aucune prépublication d’articles de synthèse ou d’argumentaires sur l’IA. Elle explique ce changement par l’avalanche d’articles de ce genre générés par IA sur la plateforme.

Submergée de prépublications générées par IA sur l’IA, arXiv va modérer plus strictement

Les IA parlent pseudoscientifiquement aux IA au sujet de l'IA

Illustration : Flock

Martin Clavey

Le 04 novembre 2025 à 14h13

Sciences et espace

Sciences

5 min

Les articles générés par IA pullulent aussi dans la sphère scientifique. Certains chercheurs ne se gênent pas pour utiliser ChatGPT ou une autre IA générative pour éditer des articles à foison, se rendre visibles dans leur communauté et polluer les plateformes de prépublication d’articles (le terme anglais « preprint » est couramment utilisé dans le milieu) comme arXiv. D’autant que sur cette plateforme, après deux articles validés par leurs pairs, les chercheurs peuvent mettre en ligne leurs articles sans modération a priori.

Envahie par des preprints générés par IA

Résultat : la plateforme historique (arXiv existe depuis 1991) de la prépublication scientifique est submergée de preprints générés par IA, notamment sur l’intelligence artificielle. Sur son blog, l’équipe d’arXiv a publié un billet expliquant qu’ « au cours des dernières années, arXiv a été inondé d’articles. L’IA générative et les grands modèles linguistiques ont contribué à cette avalanche en facilitant et en accélérant la rédaction d’articles, en particulier ceux qui ne présentent pas de nouveaux résultats de recherche ».

Elle ajoute que « toutes les catégories d’arXiv ont connu une augmentation importante du nombre de soumissions » mais que « celle-ci est particulièrement importante dans la catégorie informatique » et notamment ceux sur l’intelligence artificielle elle-même.

Une politique de modération resserrée

La plateforme initiatrice du mouvement de prépublication scientifique annonce resserrer sa politique d’acceptation des articles dans le domaine de l’informatique. Ainsi, elle refusera les prépublications d’articles de synthèse (appelés «reviews » ou « surveys » dans le milieu) ou d’argumentaires (« position papers »). « Ce changement est mis en œuvre en raison de l’afflux ingérable d’articles de synthèse et d’argumentaires » dans ce domaine, explique arXiv.

Elle ajoute que, « techniquement », ce n’est pas un changement dans sa politique officielle de modération : « Si vous consultez les politiques d’arXiv relatives aux types spécifiques de contenu, vous remarquerez que les articles de synthèse et les argumentaires ne font pas (et n’ont jamais fait) partie des types de contenu acceptés ». Et elle explique qu’avant elle pouvait en accepter car, finalement, elle en recevait peu et qu’ils étaient souvent de très bonne qualité. Mais, avec l’arrivée de l’IA générative, l’afflux est devenu énorme et la qualité n’est pas au rendez-vous.

arXiv ne refuse cependant pas tous les articles de synthèse et argumentaires, mais il faudra qu’ils aient été acceptés par une revue scientifique ou une conférence et qu’ils aient passé complètement l’évaluation par les pairs. Ces conditions pourraient facilement passer pour un comble pour la mise en ligne sur une plateforme de prépublication.

La plateforme explique se conformer à une plus stricte lecture de ses politiques de modération pour « aider les lecteurs d’arXiv à trouver plus facilement des articles de synthèse et des prises de position rédigés par des experts dans leur domaine » mais aussi « libérer les modérateurs afin qu’ils puissent se concentrer sur les types de contenu officiellement acceptés par arXiv, réduire les délais d’attente pour les soumissions et maintenir le rythme des découvertes scientifiques ! ».

Des preprints popularisés depuis le Covid et massivement utilisés dans l’entrainement des IA

Il faut dire que ces plateformes ont permis aux chercheurs et chercheuses de partager plus rapidement leurs travaux. Comme nous l’expliquions il y a déjà plusieurs années, aucune relecture n’est faite en amont par des pairs avant la mise en ligne sur les serveurs de preprints, ce qui doit alerter toute personne non spécialiste.

Alors que la pratique d’utilisation des preprints était surtout populaire dans les disciplines couvertes par arXiv (informatique, physique, astrophysique…), le Covid-19 a accéléré leur popularisation aussi bien dans les autres disciplines de recherche comme la médecine ou la biologie qu’auprès du grand public. La face cachée de la médaille est le grain à moudre à certaines dérives de la communication scientifique.

Rajoutons que les contenus publiés sur les serveurs de preprints sont massivement utilisés par l’industrie de l’intelligence artificielle générative pour entrainer leurs modèles, notamment car ils sont considérés comme de très haute qualité et à la pointe de la recherche. Mais, si ces plateformes sont inondées de contenus genAI comme le web ouvert, ces IA génératives risquent d’être entrainées sur des monceaux d’articles pseudoscientifiques considérés par leurs créateurs comme du contenu de qualité.

Commentaires (6)

ForceRouge Premium

Le 04/11/2025 à 14h31

Exercice n°27, compléter la suite:

1/ Nourrir une vache avec de la nourriture issue d'une vache => Creutzfeldt-Jakob.
2/ Les animaux et populations consanguines => dégénérescence
3/ L'IA qui génère de l'IA => ?

bingo.crepuscule Premium

Modifié le 04/11/2025 à 14h43

On peut y voir une analogie humaine. Un LLM qui ne ne fait que pomper dans ses propres générations, deviendra médiocre.
Les humains sont pareils, tous ceux qui sont dans l'entre-soi sans place pour la différence et l'intellect allant de pair avec la confrontation avec la différence, mentale, verbale, au mieux vivotent, au pire dépérissent intellectuellement.

lejocelyn Premium

Le 04/11/2025 à 14h55

Pour le point 1/, je pensais que le problème était apparu quand ils avaient arrêté de cuir les farines animales (Mais voyons, ça coute cher de cuir la nourriture des animaux).

SebGF Premium

Le 04/11/2025 à 14h56

3/ L'IA qui génère de l'IA => ?

L'entraînement de modèle sur des données générées par les mêmes types de modèle entraîne une forte dégénérescence et ça se case la gueule en très peu de générations de mémoire. Il y a eu plusieurs publications à ce sujet.

alex.d. Premium

Le 04/11/2025 à 15h42

De vraies publis, ou générées par IA ?

mara-li Premium

Le 05/11/2025 à 09h56

Pour le point 3, je crois qu'on appelle ça de la consanguinité dans l'IA
(pas certaine cela dit)