Quand un serveur de prépublications scientifiques utilise l'IA générative pour résumer les articles

Quand un serveur de prépublications scientifiques utilise l’IA générative pour résumer les articles

IA pas compris

Avatar de l'auteur

Martin Clavey

Publié dansSociété numérique

15/11/2023
11
Quand un serveur de prépublications scientifiques utilise l'IA générative pour résumer les articles

Le serveur de prépublications scientifiques bioRxiv lance un système de résumés automatiques d'articles en utilisant un grand modèle de langage. Le but affiché est de les rendre plus accessibles à des non-spécialistes, mais des doutes peuvent être soulevés sur l'efficacité réelle et sur le respect des faits scientifiques traités dans les articles.

« Élargir le public, améliorer la compréhension », c'est avec ce titre que la plateforme de prépublication scientifique bioRxiv présente sa nouvelle fonctionnalité basée sur l'utilisation d'un grand modèle de langage (Large language model, LLM en anglais) pour résumer automatiquement les articles mis en ligne sur son serveur.

L'idée de « déjargoniser » automatiquement les articles scientifiques n'est pas nouvelle, mais mettre en place un outil le faisant directement et l'intégrer à un outil d'édition scientifique (même si cela reste un serveur de prépublication) est une nouvelle étape.

La fonctionnalité est développée par Science Cast, déjà partenaire de la plateforme.  Le service qui propose déjà à ses utilisateurs d'écouter des résumés audio d'articles scientifiques mis en ligne sur les différentes plateformes de prépublications va donc un cran plus loin en intégrant ses résumés directement sur le site de bioRxiv, à côté des articles eux-mêmes.

Peu de détails techniques sur l'outil

La suite est réservée à nos abonnés.

Déjà abonné ? Se connecter

Abonnez-vous
11
Avatar de l'auteur

Écrit par Martin Clavey

Tiens, en parlant de ça :

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

C’est comme CVSS 5.0 mais en moins bien

18:17 Sécu 1
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Géotechnopolitique

16:37 Web 19
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

Il faudrait déjà généraliser la fibre

16:03 HardWeb 20

Sommaire de l'article

Introduction

Peu de détails techniques sur l'outil

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

Sécu 1
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Web 19
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

HardWeb 20
Photo d'un immeuble troué de part en part

Règlement sur la cyber-résilience : les instances européennes en passe de conclure un accord

DroitSécu 7
lexique IA parodie

AGI, GPAI, modèles de fondation… de quoi on parle ?

IA 7

#LeBrief : logiciels libres scientifiques, fermeture de compte Google, « fabriquer » des femmes pour l’inclusion

livre dématérialisé

Des chercheurs ont élaboré une technique d’extraction des données d’entrainement de ChatGPT

IAScience 3
Un chien avec des lunettes apprend sur une tablette

Devenir expert en sécurité informatique en 3 clics

Sécu 11
Logo ownCloud

ownCloud : faille béante dans les déploiements conteneurisés utilisant graphapi

Sécu 16
Le SoC Graviton4 d’Amazon AWS posé sur une table

Amazon re:invent : SoC Graviton4 (Arm), instance R8g et Trainium2 pour l’IA

Hard 7
Logo Comcybergend

Guéguerre des polices dans le cyber (OFAC et ComCyberMi)

Sécu 10

#LeBrief : faille 0-day dans Chrome, smartphones à Hong Kong, 25 ans de la Dreamcast

Mur d’OVHcloud à Roubaix, avec le logo OVHcloud

OVHcloud Summit 2023 : SecNumCloud, IA et Local Zones

HardWeb 2
algorithmes de la CAF

Transparence, discriminations : les questions soulevées par l’algorithme de la CAF

IASociété 62

Plainte contre l’alternative paiement ou publicité comportementale de Meta

DroitIA 33
Nuage (pour le cloud) avec de la foudre

Économie de la donnée et services de cloud : l’Arcep renforce ses troupes

DroitWeb 0
De vieux ciseaux posés sur une surface en bois

Plus de 60 % des demandes de suppression reçues par Google émanent de Russie

Société 5
Une vieille boussole posée sur un plan en bois

La Commission européenne et Google proposent deux bases de données de fact-checks

DroitWeb 3

#LeBrief : des fichiers Google Drive disparaissent, FreeBSD 14, caméras camouflées, OnePlus 12

Le poing Dev – round 6

Next 148

Produits dangereux sur le web : nouvelles obligations en vue pour les marketplaces

Droit 9
consommation de l'ia

Usages et frugalité : quelle place pour les IA dans la société de demain ?

IA 12

La NASA établit une liaison laser à 16 millions de km, les essais continuent

Science 17
Concept de CPU

Semi-conducteurs : un important accord entre l’Europe et l’Inde

Hard 7

#LeBrief : PS5 Slim en France, Valeo porte plainte contre NVIDIA, pertes publicitaires X/Twitter

Un mélange entre une réunion d’Anonymous et de tête d’ampoules, pour le meilleur et le pire

651e édition des LIDD : Liens Intelligents Du Dimanche

Web 30
Bannière de Flock avec des bomes sur un fond rouge

#Flock, le grand remplacement par les intelligences artificielles

Flock 34
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #9 : LeBrief 2.0, ligne édito, dossiers de fond

Next 65
Le brief de ce matin n'est pas encore là

Partez acheter vos croissants
Et faites chauffer votre bouilloire,
Le brief arrive dans un instant,
Tout frais du matin, gardez espoir.

Commentaires (11)


RuMaRoCO Abonné
Il y a 2 semaines

De ce que j’avais compris,
Je me trompe peut-être, mais les publications scientifiques ont un canevas assez générique et surtout un abstract(?) qui sert déjà de résumé à l’étude. non ?


Martin Clavey Abonné
Il y a 2 semaines

Tout à fait, mais ces « abstracts » sont souvent rédigés pour s’adresser à des chercheurs très spécialisés. Ici, l’idée est de faire des résumés plus accessibles. Mais je ne suis pas sûr que ça soit si “simple” à produire de façon automatisée.


Jon Joe Abonné
Il y a 2 semaines

On le saura assez vite, non?



Quand les premiers résumés seront produits, les auteurs pourront bien dire si ça respecte leurs travaux ou non.


alex.d. Abonné
Il y a 2 semaines

Ce que les gens appellent “jargon”, c’est un vocabulaire précis. Déjargoniser, c’est enlever la précision pour aller vers l’à-peu-près. Évidemment que ça va déboucher sur des généralisations qui n’ont pas lieu d’être, c’est l’essence même du mécanisme.


Pinailleur Abonné
Il y a 2 semaines

Non, parfois du jargon c’est du jargon.



Et déjargonniser pour donc signifier employer des termes qui restent précis mais qui sont plus proches d’un vocabulaire courant / populaire.


alex.d. Abonné
Il y a 2 semaines

Pinailleur

Non, parfois du jargon c’est du jargon.

Et déjargonniser pour donc signifier employer des termes qui restent précis mais qui sont plus proches d’un vocabulaire courant / populaire.

Je veux bien quelques exemples, parce que là, ton affirmation non-étayée est moyennement convaincante.


fred42 Abonné
Il y a 2 semaines

alex.d.

Je veux bien quelques exemples, parce que là, ton affirmation non-étayée est moyennement convaincante.

On va dire qu’elle est autant étayée que la tienne.


Martin Clavey Abonné
Il y a 2 semaines

alex.d.

Je veux bien quelques exemples, parce que là, ton affirmation non-étayée est moyennement convaincante.


(reply:2165788:fred42)
J’interviens avant que ça dégénère. On peut arrêter là ce genre d’échanges inutiles.



Pinailleur Abonné
Il y a 2 semaines

alex.d.

Je veux bien quelques exemples, parce que là, ton affirmation non-étayée est moyennement convaincante.

Je ne note pas dans un carnet les nombreuses fois où j’ai dû cherché dans le dico médicale des définitions pour voir que certains termes ont des équivalents dans le dictionnaire Larousse qui signifient la même chose.



Le seul exemple que j’ai en tête serait le lépisme, ou Lepisma saccharinea. Alors que tout le monde (comprendre la majorité) appelle ça un poisson d’argent, tu vas souvent avoir le terme latin, parfois si t’as de la chance juste tu auras le lépisme. Complication inutile.



Edit: sur le Journal du CNRS tu verras que leurs articles sont souvent un peu plus abordable et un peu déjargonnisé par rapport aux études qu’ils ont en soruces.


ovancantfort Abonné
Il y a 2 semaines

Je ne sais pas comment ce modèle de langage a été entraîné, mais il a complètement capté le sensationnalisme des communications scientifiques dans la presse grand public.
Il ne manque plus qu’il poste automatiquement un résumé de moins de dix mots sur Xitter et Fessebouc, du genre “Scientists find cure to cancer !”, et on aura la totale…
Je vous conseille cet excellent épisode de la chaîne YouTube Veritasium sur le sujet (en anglais) : https://www.youtube.com/watch?v=czjisEGe5Cw


Sceptique Abonné
Il y a 2 semaines

C’est fabuleux, décider d’utiliser un bullshit generator en soit c’est déjà une idée con, alors l’utiliser pour paraphraser de la recherche scientifique…



Il y a aujourd’hui déjà beaucoup de crainte vis à vis des publications, à cause de coûts, des problèmes lors des revues, je me demande à quoi ressemblera la publication scientifique dans 10 ans.