Connexion Premium

Les articles scientifiques frauduleux croissent deux fois plus vite que les rétractations

Science Lives Matter

Les articles scientifiques frauduleux croissent deux fois plus vite que les rétractations

Illustration : Flock

Une analyse statistique indique que le nombre de publications scientifiques frauduleuses produites par les « usines à articles » (« paper mills » en VO) doublerait tous les 18 mois, au point d’être devenues une « industrie ». Seules 25 % d’entre elles seraient finalement rétractées. Un chiffre d’autant plus inquiétant que le nombre de rétractations ne double quant à lui que tous les 40 mois, et celui des publications scientifiques que tous les 15 ans.

« Les entités qui permettent la fraude scientifique à grande échelle sont de grande taille, résilientes et se développent rapidement », titre un article de recherche publié ce lundi dans les Proceedings of the National Academy of Sciences (PNAS), la revue à comité de lecture de l’Académie nationale des sciences des États-Unis.

Les cinq chercheurs co-signataires de la publication ont en effet découvert « un vaste réseau d’éditeurs et d’auteurs qui coopèrent pour obtenir la publication d’articles scientifiques qui échappent aux normes traditionnelles d’évaluation par les pairs » :

« Certains suggèrent que la facilité de communication offerte par l’internet et la publication en libre accès ont créé les conditions nécessaires à l’émergence d’entités – usines à articles (c’est-à-dire vendeurs de recherches fabriquées et de faible qualité produites en masse), courtiers (c’est-à-dire intermédiaires entre les producteurs et les éditeurs de recherches frauduleuses), revues prédatrices, qui n’effectuent aucun contrôle de qualité sur les soumissions – qui facilitent la fraude scientifique systématique. »

Luís A. Nunes Amaral, spécialiste des données à l’université Northwestern et co-auteur de l’étude, émet l’hypothèse que les faussaires utiliseraient les mêmes banques d’images pour générer « des lots entiers d’articles, qu’ils vendent ensuite à certains éditeurs corrompus », résume le New York Times (NYT). Une production en série et à la chaîne que les IA génératives risquent de démultiplier.

Reese Richardson, l’un des co-auteurs de l’étude, relève par ailleurs que le nombre d’articles publiés par des candidats à l’internat de médecine « est monté en flèche ces dernières années », avec des étudiants « revendiquant la paternité de dizaines d’articles », note Science.org. Ils émanent notamment d’étudiants étrangers titulaires de visas, et acculés à devoir démontrer qu’ils sont autant, voire plus productifs que leurs pairs.

Un fact-checking de Nature révèle par ailleurs que 30 % des publications rétractées de la mégarevue PLoS émane d’une quarantaine d’éditeurs seulement, représentant 1,3 % seulement du corpus des publications étudiées.

La fraude scientifique « est devenue une industrie »

Si les premières « usines à articles » (« paper mills » en VO) dateraient du milieu du XIXe siècle et que l’expression « Publier ou périr », apparue dans les années 30, a explosé dans les années 1980, le web et la publication ouverte (open publishing) les rendent plus faciles à mettre en œuvre et à faire fonctionner, mais également plus lucratives.

La pression visant à publier dans les revues scientifiques, et à engranger les citations par des pairs, aurait été aggravée par le nombre croissant d’étudiants, et la compétition pour obtenir des postes, emplois ou promotions, avance le NYT.

La demande serait telle que des éditeurs sont eux-mêmes incités à publier de plus en plus d’articles, explique Ivan Oransky, directeur exécutif du Center for Scientific Integrity, au point de lancer des milliers de nouvelles publications « chaque année », relève le NYT.

Certains chercheurs seraient de leur côté prêts à payer des centaines, voire des milliers de dollars pour figurer comme co-auteur d’une publication à laquelle ils n’ont pas contribué, souligne Anna Abalkina. Chercheuse en sciences sociales à l’université libre de Berlin, elle étudie ces « usines à articles » et déplore que la fraude, en matière de publications scientifiques, « est devenue une industrie ».

Pour s’assurer de leurs publications, certains passent par des revues prédatrices. D’autres vont jusqu’à corrompre des éditeurs ou les personnes chargées de les vérifier. Pour éviter d’être accusés de plagiat, ils recourent à l’IA pour paraphraser les études plagiées, quitte à halluciner ce que le chercheur toulousain Guillaume Cabanac appelle des « expressions torturées ».

Des pratiques frauduleuses qui pourraient s’intensifier aux États-Unis, souligne le NYT, du fait des coupes massives de l’administration Trump dans le financement de la recherche scientifique, et donc de la précarisation croissante de nombre de chercheurs.

32 786 articles suspects, 8 589 rétractations

Les chercheurs ont examiné 276 956 publications scientifiques parues sur la mégarevue scientifique PLoS One de la Public Library of Science depuis son lancement en 2016 jusqu’à la fin 2023, explique Nature, dont 702 ont depuis été rétractées (soit 0,25 %).

Diffusée exclusivement en ligne et mise à jour quotidiennement, elle permet en effet d’accéder à de très nombreuses publications, mais également à leurs métadonnées, plus facilement que d’autres revues scientifiques, explique Science.org.

Ils ont ensuite compilé une liste de plus de 2 000 articles critiqués sur le club de lecture scientifique PubPeer du fait d’indices laissant suspecter qu’ils pourraient comporter des images dupliquées. Ils ont également analysé près de 2,3 millions d’articles et 20 000 conférences de l’Institute of Electrical and Electronics Engineers (IEEE), qui avaient respectivement fait l’objet de 7 763 (0,33 %) et 84 (0,42 %) rétractations.

Les chercheurs ont ainsi découvert 32 786 articles comportant des indices et marqueurs laissant supposer qu’ils pourraient émaner d’« usines à articles », tels que des images dupliquées, des expressions torturées et des phrases entières recopiées. Mais seuls 8 589 de ces articles ont été rétractés (soit 26 %).

45 éditeurs cumulent 1,3 % des publications, mais 30 % des rétractations

Sur un total de 134 983 auteurs et 18 329 éditeurs, ils ont par ailleurs identifié 22 éditeurs ayant accepté de manière disproportionnée des articles ayant ensuite été rétractés, et 33 autres ayant accepté des articles signalés sur PubPeer plus fréquemment que ce que l’on pourrait attendre d’ordinaire.

Ils ont ainsi découvert que ces 45 éditeurs, n’ayant traité que 1,3 % de tous les articles publiés par PLoS ONE entre 2006 et 2023, cumulaient plus de 30 % des 702 rétractations émises par la revue au début de 2024. 25 de ces 45 éditeurs avaient également publié des articles dans PLoS ONE ayant depuis été rétractés.

Leur analyse a également permis d’identifier 21 auteurs qui semblaient orienter leurs soumissions vers le groupe des 22 éditeurs signalés pour leur taux élevé de rétractation, et 19 chercheurs – basés dans 4 pays – ayant édité à plusieurs reprises les soumissions des uns et des autres entre 2020 et 2023.

Or, plus de la moitié des articles qu’ils avaient acceptés ont ensuite été rétractés avec des avis presque identiques citant des préoccupations concernant la paternité, l’examen par les pairs et les conflits d’intérêts.

Les auteurs de l’article publié dans PNAS ne donnent pas leur nom, mais Nature a réussi à identifier les cinq plus prolifiques, représentant à eux seuls 15 % des articles rétractés par PLoS One au 14 juillet. L’un d’entre eux, un biologiste turc, avait édité 79 articles entre 2019 et 2023, dont 52 ont depuis été rétractés. Il avait en outre cosigné sept articles, eux aussi rétractés.

Un chercheur chinois en réalité virtuelle avait de son côté édité 54 articles entre 2017 et 2021 pour PLoS, dont 43 ont été rétractés. Nature a également découvert que 24 des 26 articles d’un numéro spécial d’une revue de Springer, dont il avait été le rédacteur en chef invité, avaient eux aussi été rétractés.

Les rétractations, qui comprenaient un article de recherche qu’il avait cosigné, faisaient référence à un traitement éditorial et à un examen par les pairs compromis, des citations non pertinentes, des manipulations d’images, des phrases torturées et un contenu sortant du cadre de la revue et de son numéro spécial.

Le nombre d’articles suspects double deux fois plus vite que celui des rétractations

Les modélisations statistiques effectuées par les auteurs de l’étude indiquent des liens entre les articles suggérant fortement qu’ils sont le produit d’une fraude à grande échelle. D’autant que nombre de ces connexions, révélant des réseaux de milliers d’articles, reliaient des groupes de rédacteurs et d’auteurs qui travaillaient souvent ensemble. Leurs articles avaient tendance à être publiés dans des revues appartenant à un seul éditeur, et dans une même courte période.

Interactions entre les personnes signalées pour des rétractations et/ou des commentaires PubPeer, indiquant le nombre d'articles rétractés dans PLOS ONE
Graphique extrait de l’annexe de l’article publié dans PNAS, avec cette explication de texte :
« Interactions entre les personnes signalées pour des rétractations et/ou des commentaires PubPeer, indiquant le nombre d’articles rétractés dans PLOS ONE rédigés par chaque personne en rouge (sauf lorsque ce nombre est nul). Chaque personne est représentée par un cercle dont la taille est proportionnelle au nombre d’articles acceptés qu’elle a traités (entre 1 et 852). Le triangle noir indique la proportion d’articles acceptés qui ont ensuite été rétractés. Les personnes signalées pour des rétractations uniquement ont un contour rouge, celles signalées pour des commentaires PubPeer uniquement ont un contour bleu, et celles signalées pour les deux ont un contour violet. Les personnes sont reliées par des arcs qui pointent de l’auteur vers l’éditeur, dont la largeur est proportionnelle au nombre total d’articles pour lesquels cet éditeur a travaillé pour cet auteur (1 à 10 articles). Les personnes signalées ont souvent traité les soumissions les unes des autres, en particulier au sein d’un groupe d’éditeurs en fonction de 2020 à 2023 (en bas à droite). »

Les auteurs de l’étude ont également examiné les articles suspectés de provenir de « paper mills » dans 55 bases de données entre 2016 et 2020. Ils ont exclu les données des dernières années, car il faut du temps pour que les articles frauduleux soient découverts et rétractés.

Or, ils ont découvert que leur nombre doublait tous les 18 mois, dix fois plus vite que le taux de croissance des publications scientifiques, qui ne double que tous les 15 ans, relève le NYT. Le nombre de rétractations, lui, ne double que tous les 40 mois, souligne Nature, et celui des articles « flaggués » sur PubPeer tous les 43 mois.

Production scientifique mondiale par année de publication
Graphique extrait de l’annexe de l’article publié dans PNAS, avec cette explication de texte :
« Production scientifique mondiale par année de publication, mesurée à partir des articles classés comme " articles de revues " ou " articles de comptes rendus de conférences " dans OpenAlex ou ayant des enregistrements d’indexation correspondants dans Scopus ou Web of Science (WoS). Les valeurs pour les années après 2020 sont extrapolées à l’aide d’une régression linéaire des nombres logarithmiques pour les années 2016 à 2020. Les zones ombrées indiquent l’intervalle de confiance à 95 %. Les rétractations " à partir de la base de données " indiquent le nombre annuel d’articles rétractés tel que compté par le moteur de recherche de chaque service le 19 avril 2024. »

Un ratio qui pourrait en outre empirer, car il date d’avant la vague de publications frauduleuses liées à la pandémie de COVID-19 d’une part, et que le recours aux IA génératives, apparues depuis, devrait d’autre part et lui aussi augmenter le nombre de publications scientifiques litigieuses.

Seuls 29 % des articles suspectés d’émaner de « paper mills » ont été rétractés

« C’est comme vider une baignoire qui déborde avec une cuillère », résume le Dr Amaral, interrogé par le site Retraction Watch (qui vient tout juste de fêter ses 15 ans), dont la base de données a elle aussi été utilisée par les auteurs de l’article publié dans PNAS. Ces chiffres sous-estiment probablement l’ampleur du problème, car ils « s’appuient sur les cas de fraude scientifique qui ont été signalés », précisent-ils dans l’article.

Les chercheurs ont calculé que seuls 28,7 % des articles soupçonnés d’être issus de « paper mills » ont été rétractés. Ils ont extrapolé à partir des tendances actuelles que « seuls 25 % environ des publications suspectes seront rétractées et que 10 % environ seulement figureront dans une revue désindexée ».

M. Amaral a comparé l’ampleur du problème à la lutte contre le trou d’ozone au-dessus de l’Antarctique, et a déclaré que les solutions devaient être à la même échelle : « Nous avons besoin que les parties prenantes les plus importantes de la science se réunissent pour discuter de ce qu’il faut faire, des normes à mettre en œuvre et ne pas attendre que le problème se résolve de lui-même ».

Il cite des organisations nationales telles que les Académies nationales des États-Unis, les Académies chinoises des sciences et la Royal Society du Royaume-Uni comme des parties prenantes suffisamment importantes pour inciter les grandes organisations telles que les éditeurs à agir. « Ils doivent mettre en œuvre des décisions et plaider vigoureusement pour que ces décisions soient adoptées par les revues, les agences de financement, les employeurs, les universités et les laboratoires nationaux », précise-t-il à Retraction Watch.

Les individus peuvent cela dit jouer un rôle et « faire pression sur les décideurs politiques pour qu’ils mettent fin à la culture de l’hyperconcurrence dans la science », souligne Reese Richardson : « ce que les scientifiques peuvent faire à titre personnel, c’est procéder à un examen par les pairs après publication et porter un regard critique sur la littérature dans leur domaine, car il est clair que nous ne détectons qu’une infime partie du problème ».

« Le risque est que de plus en plus de domaines scientifiques soient empoisonnés, de sorte qu’aucun scientifique respectable ne s’y engage parce que le champ est tellement inondé de déchets », déplore le Dr Amaral auprès du NYT : « Si ces tendances ne sont pas stoppées, la science va être détruite ».

Commentaires (5)

votre avatar
On ne plus faire confiance en rien...
Ce qui n'empêchera pas certains de continués à utiliser le "d'après une étude..."

Rien à voir
Pour son analogie
« C'est comme vider une baignoire qui déborde avec une cuillère »
j'aurai plutot dit,
"C'est comme essayer d'étouffer un incendie avec un mouchoir en papier"
Car à la fin tu fini cramer (métaphoriquement par les efforts faits)
votre avatar
Il n'existe pas de système de "notation" des revues scientifiques, permettant d'avoir une idée de la "respectabilité" d'une revue ?
Par exemple, une revue qui a plus de 1 article rétracté par mois aurait une note en dessous de la moyenne, et n'aurai ainsi plus de poids auprès des pairs scientifiques (et donc mourrai bien vite).
votre avatar
Il suffirait qu'elle ne rétracte plus autant d'articles et ce serait bon. Il y aurait une chasse aux détracteurs en prime et d'autres effets pervers à la place.
votre avatar
Sauf que l'indicateur peut aussi intégrer le fait qu'une publication ne soit pas valide scientifiquement sans avoir été rétractée, et donc que la revue est encore moins crédible.
votre avatar
Si, ça s'appelle un indicateur d'impact. Il y en a plusieurs, avec des biais très importants renforçant la boucle du publier ou périr. https://en.wikipedia.org/wiki/Research_Integrity_Risk_Index">L'index de risque sur l'intégrité de la recherche répond je pense à ta demande.