femme recherchant un livre dans une bibliothèqueAndy Quezada pour unsplash

La recherche française parie sur OpenAlex pour briser l’emprise d’Elsevier et Clarivate

Open research metadata

Avatar de l'auteur
Martin Clavey

Publié dans

Sciences et espace

04/03/2024 8 minutes
4

femme recherchant un livre dans une bibliothèqueAndy Quezada pour unsplash

Pour analyser la production scientifique, le monde de la recherche utilise depuis longtemps des bases bibliographiques commerciales très chères dont les données sont jalousement gardées par Elsevier et Clarivate Analytics. La France veut s'en séparer et parie sur OpenAlex pour le faire. Mais ce n'est pas si facile.

Mise à jour le 14 mars à 15h50 : ajout du montant de la contribution financière du Ministère de l'Enseignement supérieur et de la recherche pour 2023.

Suivant le mouvement de l'open science, le milieu académique essaye péniblement de se défaire de sa dépendance aux grandes entreprises d'édition scientifique et autres « entreprises d’analyse de données ». Elles lui vendent très cher des prestations tout en se gardant les droits sur les textes et données collectées.

Du côté de l'accès aux publications scientifiques en elles-mêmes, la démarche de l'« open access » permet depuis quelque temps de ne plus avoir à passer par un paywall pour de plus en plus d'articles, actes de conférence ou même pour certains livres. Reste que les budgets ont explosé, les institutions payent les abonnements, mais doivent aussi souvent payer pour la publication des articles de leurs chercheurs et chercheuses.

Des multinationales des données sur la recherche

Mais les multinationales de l'édition scientifique ne font pas que vendre des abonnements ou la publication d'articles dans leurs revues. Elles se sont intéressées aussi depuis longtemps aux données sur le monde de la recherche. En tête, Elsevier et Clarivate Analytics.

Depuis 2020, Elsevier ne se présentent plus comme un éditeur, mais comme une « entreprise d’analyse de données ». Elle revendique fournir « des analyses de données sophistiquées qui aident nos clients à prendre des décisions majeures et à atteindre leurs objectifs stratégiques, en combinant de vastes ensembles de données provenant de sources de contenu structurées et non structurées ». Clarivate Analytics propose aux institutions scientifiques de « rationaliser leur recherche ».

Ces deux entreprises vendent aux institutions des outils de bibliométrie, respectivement Scopus et le Web of Science (WoS). Ceux-ci collectent auprès des universités et dans les publications scientifiques des masses de méta-données qui permettent d'analyser la politique scientifique à des échelles plus ou moins fines.

C'est aussi sur la base de ces outils que sont construits les fameux classements des institutions, comme le Classement de Shanghai ou celui du Times Higher Education (média spécialisé britannique dont le classement est scruté dans le milieu académique mondial).

Avoir accès à ces données a un coût non négligeable pour les universités. Anne-Catherine Fritzinger, directrice générale des services adjointe en charge de la diffusion des savoirs et conseillère science ouverte à Sorbonne Université, explique à The Meta News (média français spécialisé dans l'Enseignement supérieur et la recherche) que son université payait 50 000 euros par an pour l'accès au Web of Science. Et ceux-ci « auraient plus que doublé en 2024 car nous aurions dû souscrire à une nouvelle option pour les mêmes usages », ajoute-t-elle.

Des alternatives possibles ?

Depuis la fin de l'année dernière, certaines universités et le CNRS essayent de se passer de ces bases de données.

L'université de Leiden édite un classement des universités, le CWTS Leiden Ranking. Jusque-là basé sur les données du Web of Science, ses créateurs ont annoncé en septembre 2023 mettre en place pour l'édition 2024 une version avec des données ouvertes et utilisant des outils en open-source. Pour l'instant, cette version ne devrait pas remplacer celle utilisant les données du WoS mais être publiée en parallèle.

L'université Sorbonne-Université a annoncé en décembre dernier se désabonner du Web of Science. Et en janvier, c'était au tour du CNRS d'aller dans le même sens, en indiquant son désabonnement de Scopus. Il garde pour l'instant WoS. « Les 500 000 euros économisés [par le CNRS] seront investis dans le soutien à des solutions alternatives telles que OpenAlex, Dimensions, Crossref… » explique encore The Meta News.

Effectivement, toutes ces institutions expliquent miser sur OpenAlex pour remplacer, à terme, le Web of Science de Clarivate et Scopus d'Elsevier. Cette base de données bibliométrique revendique indexer 250 millions de travaux scientifiques provenant de 250 000 sources, 90 millions d'auteurs et autrices (désambiguïsés) et 100 000 institutions. Elle est gérée par l'association nord-américaine OurResearch, connue dans le milieu de l'édition scientifique pour sa base de données et plugin Unpaywall.

OpenAlex, sur les cendres d'un outil de Microsoft

Le projet OpenAlex est née de l'annonce par Microsoft, en mai 2021, d'abandonner son projet Microsoft Academic Graph (MAG), lancé en 2015. En effet, l'entreprise de Redmond proposait jusque-là un accès à l'API de cet outil qui permettait aux chercheurs d'avoir une alternative quasiment gratuite à WoS et Scopus.

OurResearch a obtenu, au même moment, 4,5 millions de dollars de la part de la fondation Arcadia qui soutiennent, entre autres, le projet OpenAlexa. Le projet est aussi aidé par Amazon Web Services (AWS), expliquait le co-fondateur de OurResearch, Jason Priem, à la revue scientifique Nature en janvier 2022.

Mais le projet, contrairement à d'autres, respecte l'engagement d'ouverture inscrite dans son nom. Le code source d'OpenAlex est ouvert et l'accès à l'API est gratuit. OurResearch fournit les données brutes mises à jour toutes les deux semaines et celles publiées sous licence CC0 (pour celles sous licence).

Intérêt du ministère français

Repéré depuis 2021 par le ministère de la Recherche et de l'enseignement supérieur française dans son plan national pour la science ouverte, celui-ci vient de conclure un partenariat pluriannuel avec le projet. La France s'engage à contribuer financièrement (à hauteur de 20 000 euros en 2023, la contribution pour les années suivantes pourrait être un peu plus élevée) au fonctionnement d'OpenAlex, que le ministère considère « comme une infrastructure cruciale de science ouverte ».

Mais, elle promet aussi de contribuer « à l’amélioration des données générales d’OpenAlex et en aidant à enrichir en particulier les données liées à la recherche française, et au-delà ».

Un remplaçant réel ?

Toute la question est maintenant de savoir si OpenAlex est capable de remplacer les bases de données commerciales citées plus haut. Le projet de science ouverte revendique couvrir plus de travaux scientifiques (248 millions) que Scopus (90 millions) ou le WoS (89 millions). Et, on peut voir sur le diagramme de Venn ci-dessous (issu de l'article scientifique de l'équipe allemande du chercheur Philipp Mayr mis en ligne sur arXiv), qu'OpenAlex recouvre de façon assez importante ces bases de données commerciales.

Mais, dans un billet de blog, Frédérique Bordignon, ingénieure de Recherche en charge des indicateurs bibliométriques à l’École des Ponts, est allé un peu plus loin en testant l'outil sur les données de son institution. Résultat mitigé.

« 93 % des publications sont bien dans OpenAlex, plus justement sont trouvables via l’API », explique-t-elle. Mais le problème est qu'« au final, environ 24 % des publications retournées par OpenAlex pour notre institution le sont par erreur ». Elle souligne qu'il s'agit souvent d'erreur d'affiliation d'un auteur qui ont aussi été un problème dans le WoS ou Scopus, « mais qui sont généralement résolues aujourd’hui ».

Pour elle, « OpenAlex va sûrement progresser mais, à ce jour, il est trop risqué d’en faire sa source unique pour une analyse bibliométrique sans prendre le soin de tester la qualité des données en amont, ce qui, nous venons de le démontrer, est une tâche immense… ».

Et Frédérique Bordignon conclut : « après cette plongée au cœur des données d’OpenAlex, autrement dit en allant au-delà de l’intention louable d’utiliser des données ouvertes, nous avons le sentiment de disposer d’un nouvel outil vertueux mais dont la fiabilité nous obligera encore et toujours à passer un temps déraisonnable à nettoyer les données ».

L'ingénieure de recherche pose aussi la question de ce « soudain engouement » en citant d'autres alternatives comme Matilda (dont nous parlions en septembre dernier) ou Lens.

Écrit par Martin Clavey

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Des multinationales des données sur la recherche

Des alternatives possibles ?

OpenAlex, sur les cendres d’un outil de Microsoft

Intérêt du ministère français

Un remplaçant réel ?

Fermer

Commentaires (4)


Jusque maintenant, WoS reste incontournable pour calculer le H-index des chercheurs.
C'est le nœud du problème, et on peut espérer qu'openAlex évolue et, à terme, il y ait un basculement pour évaluer les chercheurs sur un schéma ouvert.
Il me semble que Wikidata a aussi une équipe de bénévole relativement active sur le sujet des données relatives aux articles scientifiques. Wikidata aide beaucoup pour désambiguiser les auteurs et connecté avec OpenAlex, Scopus ou d'autres outils du même genre, ça serait un très bon point central pour améliorer la qualité des données.
Un article (pas récent) qui résume bien la problématique :

https://www.echosciences-grenoble.fr/articles/la-controverse-en-matiere-de-publication-des-articles-scientifiques


Je bosse depuis près de 20 ans dans le milieu, je n'ai jamais entendu quelqu'un dire du bien d'Elsevier. Ils sont détestés unanimement pour leurs pratiques. Les "patent troll" (https://fr.wikipedia.org/wiki/Patent_troll) passent presque pour des agneaux à côté !
Modifié le 05/03/2024 à 09h55

Historique des modifications :

Posté le 05/03/2024 à 09h51


Un article (pas récent) qui résume bien la problématique : https://www.echosciences-grenoble.fr/articles/la-controverse-en-matiere-de-publication-des-articles-scientifiques

Je bosse depuis près de 20 ans dans le milieu, je n'ai jamais entendu quelqu'un dire du bien d'Elsevier. Ils sont détestés unanimement pour leurs pratiques. Les "patent troll" (https://fr.wikipedia.org/wiki/Patent_troll) passent presque pour des agneaux à côté !