Le serveur de prépublications scientifiques bioRxiv lance un système de résumés automatiques d'articles en utilisant un grand modèle de langage. Le but affiché est de les rendre plus accessibles à des non-spécialistes, mais des doutes peuvent être soulevés sur l'efficacité réelle et sur le respect des faits scientifiques traités dans les articles.
« Élargir le public, améliorer la compréhension », c'est avec ce titre que la plateforme de prépublication scientifique bioRxiv présente sa nouvelle fonctionnalité basée sur l'utilisation d'un grand modèle de langage (Large language model, LLM en anglais) pour résumer automatiquement les articles mis en ligne sur son serveur.
L'idée de « déjargoniser » automatiquement les articles scientifiques n'est pas nouvelle, mais mettre en place un outil le faisant directement et l'intégrer à un outil d'édition scientifique (même si cela reste un serveur de prépublication) est une nouvelle étape.
La fonctionnalité est développée par Science Cast, déjà partenaire de la plateforme. Le service qui propose déjà à ses utilisateurs d'écouter des résumés audio d'articles scientifiques mis en ligne sur les différentes plateformes de prépublications va donc un cran plus loin en intégrant ses résumés directement sur le site de bioRxiv, à côté des articles eux-mêmes.
- Ce que font les grands modèles de langage à la recherche
- Springer-Nature vend aux chercheurs une IA nommée « Curie » pour rédiger leurs articles en anglais
Commentaires (11)
De ce que j’avais compris,
Je me trompe peut-être, mais les publications scientifiques ont un canevas assez générique et surtout un abstract(?) qui sert déjà de résumé à l’étude. non ?
Tout à fait, mais ces « abstracts » sont souvent rédigés pour s’adresser à des chercheurs très spécialisés. Ici, l’idée est de faire des résumés plus accessibles. Mais je ne suis pas sûr que ça soit si “simple” à produire de façon automatisée.
On le saura assez vite, non?
Quand les premiers résumés seront produits, les auteurs pourront bien dire si ça respecte leurs travaux ou non.
Ce que les gens appellent “jargon”, c’est un vocabulaire précis. Déjargoniser, c’est enlever la précision pour aller vers l’à-peu-près. Évidemment que ça va déboucher sur des généralisations qui n’ont pas lieu d’être, c’est l’essence même du mécanisme.
Non, parfois du jargon c’est du jargon.
Et déjargonniser pour donc signifier employer des termes qui restent précis mais qui sont plus proches d’un vocabulaire courant / populaire.
Je veux bien quelques exemples, parce que là, ton affirmation non-étayée est moyennement convaincante.
On va dire qu’elle est autant étayée que la tienne.
Je ne note pas dans un carnet les nombreuses fois où j’ai dû cherché dans le dico médicale des définitions pour voir que certains termes ont des équivalents dans le dictionnaire Larousse qui signifient la même chose.
Le seul exemple que j’ai en tête serait le lépisme, ou Lepisma saccharinea. Alors que tout le monde (comprendre la majorité) appelle ça un poisson d’argent, tu vas souvent avoir le terme latin, parfois si t’as de la chance juste tu auras le lépisme. Complication inutile.
Edit: sur le Journal du CNRS tu verras que leurs articles sont souvent un peu plus abordable et un peu déjargonnisé par rapport aux études qu’ils ont en soruces.
Je ne sais pas comment ce modèle de langage a été entraîné, mais il a complètement capté le sensationnalisme des communications scientifiques dans la presse grand public.
Il ne manque plus qu’il poste automatiquement un résumé de moins de dix mots sur Xitter et Fessebouc, du genre “Scientists find cure to cancer !”, et on aura la totale…
Je vous conseille cet excellent épisode de la chaîne YouTube Veritasium sur le sujet (en anglais) : https://www.youtube.com/watch?v=czjisEGe5Cw
C’est fabuleux, décider d’utiliser un bullshit generator en soit c’est déjà une idée con, alors l’utiliser pour paraphraser de la recherche scientifique…
Il y a aujourd’hui déjà beaucoup de crainte vis à vis des publications, à cause de coûts, des problèmes lors des revues, je me demande à quoi ressemblera la publication scientifique dans 10 ans.