Springer-Nature vend aux chercheurs une IA nommée « Curie » pour rédiger leurs articles en anglais

IA à la Curie ?

Le 20 octobre 2023 à 12h00

7 min

Société numérique

Société

La multinationale de l'édition scientifique propose aux chercheurs et chercheuses, notamment les non-anglophones de naissance, un outil d'aide à l'écriture d'articles scientifiques utilisant un modèle de langage (mais pas seulement). Pourtant, sa revue phare, Nature, est plus que réservée sur l'utilisation de ces outils. Et l'utilisation du nom « Curie » peut interroger.

Curie, c'est le nom de la première femme prix Nobel de Chimie, ou plutôt Marie Skłodowska-Curie. Mais, depuis peu, c'est aussi celui du nouvel outil d'édition scientifique de Springer-Nature basé sur les modèles de langage pour assister les chercheurs et chercheuses dans la rédaction d'articles scientifiques.

La multinationale de l'édition, dans son communiqué, rappelle opportunément les résultats d'une récente étude scientifique (publiée chez son concurrent PLOS, pionnier dans l'édition en accès ouvert) qui montrent « que les scientifiques dont l'anglais n'est pas la langue maternelle mettent 51 % plus de temps à rédiger un article » (précisons que nous parlons ici d'articles scientifiques de disciplines dont l'anglais est devenu la langue commune).

« Curie est notre réponse. Il a été spécifiquement entrainé sur de la littérature académique, couvrant plus de 447 domaines d'étude, plus de 2 000 sujets spécifiques et plus d'un million de révisions d'articles publiés, y compris dans les principales revues du groupe Nature », explique le communiqué.

Cette position de la multinationale sur l'utilisation de l'IA dans l'édition scientifique est singulière dans le milieu de la recherche.

Une position commerciale à contre-courant des positions éthiques scientifiques et éditoriales

Avant même la diffusion dans le grand public d'outils basés sur les grands modèles de langage, Emily Bender, Timnit Gebru, Angelina McMillan-Major et Margaret Mitchell ont prévenu sur les dangers de ces perroquets probabilistes, pointant des données d'entrainement problématiques, des risques de dissémination des biais et leurs coûts environnementaux notamment.

Dangers des grands modèles de langage : des chercheuses avaient prévenu

Mais suite à la diffusion de ChatGPT, le monde de la recherche n'a pas été étanche à l'utilisation de ces outils. Des chercheurs et chercheuses ont commencé à utiliser des IA génératives pour augmenter leur production de textes scientifiques sans se poser trop de questions éthiques, allant jusqu'à laisser des traces d'utilisation de ChatGPT. Comme nous l'évoquions en avril dernier, le chercheur toulousain en informatique Guillaume Cabanac s'est fait une spécialité de repérer ces scories, montrant le peu de scrupules que prennent certains de ses collègues pour utiliser ces outils sans discernement.

En avril, nous relayions aussi le fait que des chercheuses et chercheurs continuaient à faire vivre le débat sur les risques de cette utilisation des IA génératives, spécifiquement dans le milieu de la recherche. Atoosa Kasirzadeh expliquait, par exemple, ses doutes sur leur capacité à « capturer les incertitudes, les limites et les nuances de la recherche qui sont évidentes pour le scientifique humain ».

Des critiques recueillies par la revue Nature elle-même

Il faut souligner que ces critiques ont été relayées notamment par la revue Nature (revue phare du groupe Springer-Nature, comme son nom l'indique). Et depuis, la revue continue de pousser le débat. En juin, elle publiait un éditorial pour que celui-ci ne se concentre pas sur une éventuelle apocalypse comme l'ont évoqué plusieurs PDG d'entreprises du numérique en mars dernier, mais sur les dangers concrets et actuels liés aux techniques d'intelligence artificielle.

Fin septembre, la même revue publiait un sondage effectué auprès de 1 600 chercheurs et chercheuses à propos de l'IA et la recherche. Si « les deux tiers ont noté que l'IA permet de traiter plus rapidement les données, 58 % ont déclaré qu'elle accélère les calculs qui n'étaient pas réalisables auparavant », « 69 % des chercheurs ont déclaré que les outils d'IA peuvent conduire à une plus grande dépendance à l'égard de la reconnaissance de formes sans compréhension, 58 % ont déclaré que les résultats peuvent entraîner des préjugés ou des discriminations dans les données, 55 % ont estimé que les outils peuvent faciliter la fraude et 53 % ont noté qu'une utilisation irréfléchie peut conduire à une recherche non reproductible ».

Plus particulièrement sur les grands modèles de langage, 68 % des chercheurs interrogés « pensent que cela faciliterait le plagiat et rendrait sa détection plus difficile, et 66 % s'inquiètent de l'introduction d'erreurs ou d'inexactitudes dans les travaux de recherche ».

Et en effet, si un outil comme « Curie » peut générer des textes qui ressemblent à des articles scientifiques, il faut rappeler que ceux-ci sont, au départ, avant tout une façon de communiquer des travaux de recherche établis par le personnel. Ils doivent donc être les plus factuels et les plus proches de ce qu'il s'est passé « à la paillasse » ou « dans la tête » des auteurs et autrices des articles.

La revue a aussi publié le 19 octobre des « lignes directrices » pour l'utilisation d'IA génératives par les chercheurs. Dans les conseils adressés aux développeurs de modèles de langage et aux entreprises, est inscrit le besoin d'un audit scientifique indépendant et le partage des informations sur les données d'entrainement et les biais de leurs outils.

Pourtant, la page de présentation de « Curie » mise en ligne par Springer-Nature est très vague, expliquant juste que « Curie utilise des algorithmes avancés d'intelligence artificielle et de traitement du langage naturel pour vous aider à réviser et à traduire des écrits scientifiques. Curie analyse les données fournies par les utilisateurs et suggère des modifications, ce qui permet de rédiger des articles, de peaufiner des demandes de subvention ou d'améliorer le style d'écriture. Curie a été spécialement conçu pour la rédaction d'articles de recherche et a été formé sur une collection spécialisée de manuscrits édités par des rédacteurs professionnels ».

Nature a aussi récemment mis en ligne un article expliquant que « le fait que l'intelligence artificielle puisse faire une grande partie du travail ridiculise le processus [de demande de financement de recherche] ».

Cet outil semble, par contre, plutôt bien s'intégrer au système actuel de la recherche, poussant les chercheurs à « publier ou périr ». L'argumentaire renforce d’ailleurs la situation actuelle : l’outil propose aux chercheurs de les aider à se fondre dans le système, plutôt que d’adapter ce dernier à une communauté dont une bonne partie ne parle pas nativement anglais.

Pas eu besoin de publier en anglais pour être une chercheuse reconnue

En parlant de chercheurs non anglophones de naissance, le choix du nom de Curie pour cet outil paraît étrange. Dans son communiqué, l'éditeur n'explique pas pourquoi il a utilisé ce nom. La plus connue de la famille Curie, Marie, doublement nobélisée, n'a pourtant pas eu besoin d'une IA de ce genre pour devenir une chercheuse reconnue.

Si, comme l'historien Pierre Verschueren nous l'explique sur Mastodon, Marie Curie maitrisait l'anglais au point de « faire cours en anglais aux soldats américains en attente de retour en 1919 », la plupart de ses articles scientifiques n'ont pas été publiés dans cette langue.

Natalie Pigeard-Micault, responsable des ressources historiques du musée Curie, nous le confirme : les articles de Marie Curie, la plupart édités dans les comptes-rendus de l’Académie des sciences, ont été publiés en français (sa thèse est aussi rédigée en français). Elle a publié en anglais essentiellement sur des sujets bibliographiques et historiques concernant ses recherches.

Pour l'équipe du Musée, « Marie Curie n’a pas eu besoin de rédiger ses articles en anglais pour obtenir une reconnaissance internationale. Ainsi, le nom de Curie pour un tel usage ne nous parait pas très approprié ».

Si le paysage de l'édition scientifique a bien changé et qu'une bonne partie des disciplines s'accordent à publier dans la langue d'Isaac Newton, l'utilisation du nom d'une chercheuse polonaise de naissance et publiant essentiellement en français paraît étonnant dans ces circonstances.

Commentaires (13)

RuMaRoCO Abonné

Le 20/10/2023 à 13h08

Et si il utilisait LEUR outil, pour traduire les articles non anglophones soumis pour LEUR revue afin que les scientifiques ne perdent plus de temps a réfléchir dans une langue qui n’est pas la leur…

pamputt Abonné

Le 20/10/2023 à 13h33

On sait combien ça coûte cette merveille ?

War Machine Abonné

Le 20/10/2023 à 13h37

RuMaRoCO a dit:

Et si il utilisait LEUR outil, pour traduire les articles non anglophones soumis pour LEUR revue afin que les scientifiques ne perdent plus de temps a réfléchir dans une langue qui n’est pas la leur…

+1000

Martin Clavey Abonné

Le 20/10/2023 à 13h48

(reply:2160308:pamputt) “\(11.25
per month billed yearly or \)16 billed monthly” dixt cette page https://www.aje.com/curie/ avec une offre d’essai gratuite et une offre “group” sans détails de prix.

Aneoshun Abonné

Le 20/10/2023 à 13h58

Pour avoir publier dans Nature il y a quelques années (avant les LLMs) et étant non-native English speaker, je trouve que Chat-GPT peut être d’une grande aide. Les maisons de presse ont déjà des “copy editors” pour corriger nos articles plein de fautes et avec des tournures pas souvent élégantes. Cependant, cela arrive après le review-process. Si on pouvait avoir un copy-editor à la maison, cela rendrait le processus de review plus équitables pour les non-natives. Car oui, on a souvent moins confiance dans un article mal écrit.

Je pense qu’il y a une distinction énorme à faire avec ces outils: demander à chat GPT d’écrire un article from scratch ou demander à chat GPT de polir et uniformiser le style d’un draft déjà écrit.

fred42 Abonné

Le 20/10/2023 à 14h41

Pas mieux. C’est au contraire une utilisation intelligente de l’IA (LLM + autre techno d’après ce qu’ils disent).

La matière scientifique est déjà dans l’article rédigé et l’outil ne fait que traduire ou reprendre de l’anglais mal écrit.

Quant à la comparaison entre l’époque actuelle et celle de Marie Curie, c’est de la mauvaise foi bien trop visible. La place de la France et du français dans le domaine scientifique s’est fortement amoindrie. Aller chercher de l’info sur mastodon à ce sujet m’a fait sourire.

alex.d. Abonné

Le 20/10/2023 à 14h07

Je ne comprends pas ce ton négatif dans l’article et le lien avec les IA génératives qui semble hors-sujet. Là, de ce que j’en comprends, il s’agit d’une IA qui relit les épreuves des articles et propose des corrections de style, sans toucher le fond. C’est plutôt un usage intelligent et éthique de l’IA, non ?

pamputt Abonné

Le 20/10/2023 à 14h15

DU coup, si c’est ça, c’est exactement ce que fait DeepL, mais pour moins cher.

Merci Martin pour l’info sur le prix (j’avais pas pris la peine de chercher).

SebGF Abonné

Le 20/10/2023 à 15h30

Pour le coup j’aurais dit que ça ressemble même à DeepL Write.

Si usuellement j’écris nativement en anglais sur mon blog, je ne suis pas non plus à l’aise avec un style plus littéraire (mon anglais étant beaucoup plus technique et courant) utilisé dans des petites histoires que je voulais rédiger. Le français m’étais plus simple, langue natale oblige.

Et après avoir voulu traduire ces écrits en anglais pour augmenter la portée de l’audience, j’ai fait de la trad en mode batch avec l’aide de DeepL (le gratuit, donc limité en usage quotidien, même si je sais qu’il suffit de supprimer les cookies j’ai joué le jeu) puis j’ai utilisé leur outil Write pour m’aider à reformuler des passages qui me semblaient trop “mécaniques”. Cet outil est vraiment bien pour le coup et m’a aidé à m’améliorer moi-même.

Éloquent-Perroquet-performant

Le 20/10/2023 à 15h12

pamputt a dit:

DU coup, si c’est ça, c’est exactement ce que fait DeepL, mais pour moins cher.

Merci Martin pour l’info sur le prix (j’avais pas pris la peine de chercher).

Si ma compréhension est bonne, DeepL est généraliste (et pour bcp l’utiliser, il est pas mal du tout, même s’il a aussi quelques tares), au contraire de Curie, qui a été entraîné sur un corpus à portée scientifique. Les trads de Curies devraient donc mettre l’accent sur des nuances utilisées dans le milieu scientifique, mieux les traduire, là où DeepL peut aussi suggérer des nuances d’un peu partout, ce qui le rend un peu moins adapté au contexte scientifique, car trop dispersé.

bilbonsacquet Abonné

Le 20/10/2023 à 16h58

Une IA bâtie sur les publications que les chercheurs payent pour faire paraître dans leurs ouvrages et où les autres chercheurs payent pour y accéder, et tout cet argent donné à springer est grande majorité de l’argent public, ils sont forts !

C’est quand que le monde de la recherche réagit réellement ? (Elsevier, même combat)

fofo9012 Abonné

Le 21/10/2023 à 10h43

« le fait que l’intelligence artificielle puisse faire une grande partie du travail ridiculise le processus [de demande de financement de recherche] ».

Une IA qui rédige une demande de financement qui sera envoyé à une autre IA en charge de valider cette demande :)

DantonQ-Robespierre Abonné

Le 21/10/2023 à 21h59

J’en ai déjà parlé dans un autre commentaire, mais j’aimerais approfondir un peu ma réflexion.

L’histoire de la tech en général, et de la tech commerciale en particulier, est familier de ce genre de processus : on nous balance des trucs, tels que - tiens par exemple - des réseaux sociaux, des services de streaming… mais sans ne serait-ce qu’une fraction de seconde réfléchir aux usages réels et aux conséquences de ces mêmes usages sur les être humains.

Exemple : un jour, on nous balance une plate-forme pour poster des vidéos - Youtube - parce que les faire soi-même, ce serait bien trop cher, et alors il faudrait s’intéresser une seconde ou deux à ce qu’on dit, et surtout comment on le dit… …et pourquoi ?

En demandant aux gens de s’occuper bénévolement du contenu, on s’épargne la lourde tâche de réfléchir à quoi que ce soit, on veut un machin qui rapporte vite - pubs ! pubs ! pubs ! - et qui coûte rien, donc inutile de dépenser du jus de cerveau pour tout un pan entier de recherche et développement, laissons les autres réchéflir à notre place, les sociologues analyser - après coup, toujours - les psychologues commenter, les analystes analyser, nous on s’en contrefout, on encaisse !

« Il faut vous dire, monsieur, que chez ces gens-là, on ne pense pas, non… on compte ! »

Pareil pour les réseaux sociaux : on vous fournit un truc vide, un truc qui sans âme, sans direction, sans aucune autre intention que d’encaisser le bénéfice de la vente de vos données perso et bien sûr de la pub, toujours la pub…

L’IA qu’on tente de nous fourguer aujourd’hui n’est rien d’autre que ça : les entreprises qui la gèrent et qui, surtout, la vendent ont depuis longtemps oublié l’aspect purement scientifique - toute cette longue histoire de découvertes et de concepts, riche des contributions de Turing, de Von Neumann… et de bien d’autres, des femmes, des hommes, qui chacun ont ajouté leur brique au grand édifice de la Science de l’Information…

…Et qui y ont sérieusement réfléchi, eux, contrairement à ces commerçants sans âme, ChatGPT en tête, qui ont conçu en fait… un produit, un baril de lessive, un lot de chaussettes, qu’ils tentent de vendre à tout prix au sein du grand supermarché qu’est devenu Internet.

Pour moi l’“IA”, telle qu’on la promeut partout aujourd’hui, l’IA qui fait blablater les ignorants (dont je fais partie) et trébucher blogueurs, influenceurs et journalistes, qui ne savent plus que faire pour récupérer et profiter eux aussi de ce courant, que dis-je, cette vague irrésistible d’“intelligence artificielle” (LOL) qui a réponse à tout est qui serait la réponse à tout, à l’univers, et au reste…

Et désolé, ce n’est plus ces deux chiffres, 42, mais deux lettres tout aussi, voire encore plus absurdes : IA. Avec ça, on pense avoir tout dit, mais en fait on ne dit… rien.

On ne dit absolument rien, parce que l’IA façon GPT, ce n’est… que du vide, du vent en boîte de douze, de la merde empaquetée pour impressionner la ménagère, de la grosse embrouille façon arnaque à la taxe carbone, une combine bien juteuse parfumée aux GAFAM, et au mépris.