L'IA, plagiaire scientifique de haute volée

L’IA, plagiaire scientifique de haute volée

Copier/GPT/Coller

Avatar de l'auteur

Martin Clavey

Publié dansSciences et espace

31/10/2022
14
L'IA, plagiaire scientifique de haute volée

En recherche, le plagiat est un problème d'intégrité qui peut remettre en cause tout l'édifice scientifique. Il existe des logiciels de détection, mais les dernières avancées en intelligence artificielle menacent ces solutions et semblent permettre des plagiats quasiment indétectables.

Si le plagiat pose des questions dans bon nombre de domaines de création intellectuelle, utilisé en recherche il devient une menace pour l'intégrité scientifique. De nombreux cas de plagiats scientifiques sont régulièrement mis en lumière notamment par le site Retraction Watch tenu par des journalistes scientifiques américains.  La France n'est pas épargnée. Cet été encore, Le Monde révélait que « la thèse de doctorat du sénateur LR Stéphane Le Rudulier est entachée de plagiat ».

Au premier abord, les conséquences pourraient sembler se cantonner aux carrières de chercheurs. Mais cela peut aussi avoir des conséquences sur les connaissances scientifiques, comme pour le cas du neurologue Paul McCrory, très proche des instances d'organisations sportives, qui s'en est servi pour assoir son autorité sur l'élaboration des protocoles de commotion cérébrale et minimiser l'encéphalopathie traumatique chronique chez les sportifs.

De beaux paraphraseurs

Depuis quelques années, des logiciels de détection de plagiat, comme Compilatio, Smodin ou encore PlagScan permettent aux enseignants et aux chercheurs qui suspectent un de leurs collègues ou étudiants de plagier, de vérifier si le texte a été plus ou moins copié/collé d'un autre article scientifique ou d'une source accessible sur internet. Des outils en ligne comme Spinbot ou SpinnerChief permettent déjà de paraphraser, de façon rudimentaire, des textes anglophones pour passer un peu plus entre les gouttes.

Mais des chercheurs en intelligence artificielle de l'Université de Göttingen viennent de mettre en lumière l'utilisation potentiellement très problématique des grands modèles de langage pour plagier des articles scientifiques.

Dans un article qu'ils vont présenter en décembre prochain à la conférence EMNLP (conférence scientifique internationale sur ce genre de méthodes), ils expliquent que ces outils d'intelligence artificielle peuvent non seulement tromper facilement les logiciels de détection, mais sont aussi redoutables pour rendre le plagiat inaperçu aux yeux d'un humain.

Jan Philip Wahle et ses collègues ont entrainé le fameux grand modèle de langage d'OpenAI, GPT-3, avec des données de Wikipédia, des articles scientifiques mis en ligne sur arXiv et des thèses d'étudiants. Ils ont fait de même avec T5, un autre grand modèle de langage, créé par des chercheurs de Google pour faire de la traduction. Puis ils les ont utilisés pour paraphraser des textes scientifiques et ensuite les soumettre à PlagScan et à l'œil humain.

Résultat ? En comparant des textes originaux d'articles scientifiques et leurs équivalents paraphrasés, les humains interrogés ont correctement choisi le plagiat à 53% quand il était réalisé avec GPT-3 et à 56% avec T5... à comparer avec les 82% de détection pour ce même test quand ils l'ont fait passer au paraphraseur en ligne SpinnerChief et aux 50% de chance si on désigne le fautif au hasard.

En demandant leur avis à des chercheurs habitués à relire des articles, Jan Philip Wahle et ses collègues ont aussi montré que les articles générés par GPT-3 étaient quasiment aussi clairs que les originaux. Si leur fluidité et leur cohérence péchaient encore un peu, le grand modèle de langage réussit quand même à être beaucoup plus lisible que SpinnerChief.

Une menace préoccupante pour la recherche... et les profs

Dans un thread Twitter, Jan Philip Wahle juge ces résultats préoccupants pour l'intégrité scientifique. Les chercheurs suggèrent, dans la conclusion de leur article, que l'utilisation des grands modèles de langage « pourrait augmenter le nombre de cas de plagiats automatisés ».

Mais leur travail montre aussi que l'utilisation de ces méthodes augmente la détection automatique des plagiats, que ce soit sur des textes générés par SpinnerChief ou par l'utilisation de grands modèles de langage eux-mêmes. Ils sont au niveau voire un peu meilleurs que les humains pour détecter des paraphrases de SpinnerChief, mais surtout beaucoup plus efficaces que PlagScan. Et, alors que les humains et PlagScan ne peuvent pas faire mieux que le hasard pour détecter des paraphrases générées par ce genre de modèles de langage, T5 et GPT-3 arrivent à les détecter à plus de 60%.

Reste que l'utilisation automatique laisse parfois des expressions un peu étranges, que le chercheur toulousain Guillaume Cabanac appellent des « expressions torturées », qui sont des paraphrases de termes techniques qui devraient rester inchangés. Il a, lui, créé un outil de détection de ces expressions appelé le Problematic Paper Screener.

Si de plus en plus de chercheurs en informatique s'intéressent à la détection de plagiat, Jan Philip Wahle et ses collègues pointent dans leur conclusion que la fausse accusation de chercheurs peut détruire des carrières et que la difficulté de détection des plagiats rend les décisions légales particulièrement complexes. Pour eux, « tous les cas doivent être évalués attentivement avant toute décision finale ».

Le problème de plagiat aidé par ces grands modèles de langage ne concerne pas seulement la publication scientifique. Des étudiants américains utilisent d'ores et déjà GPT-3 pour écrire leurs devoirs, ce qui rend de plus en plus complexe le travail de vérification, d'identification des plagiats et d'évaluation de leurs profs.

14
Avatar de l'auteur

Écrit par Martin Clavey

Tiens, en parlant de ça :

Un homme noir regarde la caméra. Sur son visage, des traits blancs suggèrent un traitement algorithmique.

AI Act et reconnaissance faciale : la France interpelée par 45 eurodéputés

Report minoritaire

15:46 DroitWebSécu 0
Api

La CNIL préconise l’utilisation des API pour le partage de données personnelles entre organismes

I'm API

15:12 SécuSociété 0
Fouet de l’Arcep avec de la fibre

Orange sanctionnée sur la fibre : l’argumentaire de l’opérateur démonté par l’Arcep

Orange rhabillé pour l'hiver

11:39 DroitWeb 7

Sommaire de l'article

Introduction

De beaux paraphraseurs

Une menace préoccupante pour la recherche... et les profs

Un homme noir regarde la caméra. Sur son visage, des traits blancs suggèrent un traitement algorithmique.

AI Act et reconnaissance faciale : la France interpelée par 45 eurodéputés

DroitWebSécu 0
Api

La CNIL préconise l’utilisation des API pour le partage de données personnelles entre organismes

SécuSociété 0
Fouet de l’Arcep avec de la fibre

Orange sanctionnée sur la fibre : l’argumentaire de l’opérateur démonté par l’Arcep

DroitWeb 7
Bombes

Israël – Hamas : comment l’IA intensifie les attaques contre Gaza

IA 6

#LeBrief : bande-annonce GTA VI, guerre électronique, Spotify licencie massivement

Poing Dev

Le poing Dev – Round 7

Next 49
Logo de Gaia-X sour la forme d’un arbre, avec la légende : infrastructure de données en forme de réseau

Gaia-X « vit toujours » et « arrive à des étapes très concrètes »

WebSécu 5

Trois consoles portables en quelques semaines

Hard 37
Une tasse estampillée "Keep calm and carry on teaching"

Cyberrésilience : les compromis (provisoires) du trilogue européen

DroitSécu 3

#LeBrief : fuite de tests ADN 23andMe, le milliard pour Android Messages, il y a 30 ans Hubble voyait clair

#Flock a sa propre vision de l’inclusion

Flock 25
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

44
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Next 20
Logo de StreetPress

Pourquoi le site du média StreetPress a été momentanément inaccessible

Droit 21
Amazon re:Invent

re:Invent 2023 : Amazon lance son assistant Q et plusieurs services IA, dont la génération d’images

IA 14
Un œil symbolisant l'Union européenne, et les dissensions et problèmes afférents

Le Conseil de l’UE tire un bilan du RGPD, les États membres réclament des « outils pratiques »

Droit 6

19 associations européennes de consommateurs portent plainte contre Meta

DroitSocials 16

#LeBrief : Ariane 6 l’été prochain, Nextcloud rachète Roundcube, désinformation via la pub

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

Sécu 16
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Web 35
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

HardWeb 53
Photo d'un immeuble troué de part en part

Règlement sur la cyber-résilience : les instances européennes en passe de conclure un accord

DroitSécu 10
lexique IA parodie

AGI, GPAI, modèles de fondation… de quoi on parle ?

IA 11

#LeBrief : logiciels libres scientifiques, fermeture de compte Google, « fabriquer » des femmes pour l’inclusion

livre dématérialisé

Des chercheurs ont élaboré une technique d’extraction des données d’entrainement de ChatGPT

IAScience 3
Un chien avec des lunettes apprend sur une tablette

Devenir expert en sécurité informatique en 3 clics

Sécu 11
Logo ownCloud

ownCloud : faille béante dans les déploiements conteneurisés utilisant graphapi

Sécu 16
Le SoC Graviton4 d’Amazon AWS posé sur une table

Amazon re:invent : SoC Graviton4 (Arm), instance R8g et Trainium2 pour l’IA

Hard 12
Logo Comcybergend

Guéguerre des polices dans le cyber (OFAC et ComCyberMi)

Sécu 10

#LeBrief : faille 0-day dans Chrome, smartphones à Hong Kong, 25 ans de la Dreamcast

Des billets volent dans les airs.

Mistral AI s’apprête à lever 450 millions d’euros auprès de NVIDIA et a16z

ÉcoIA 0

GTA VI

Rockstar met en ligne le trailer de GTA VI

Soft 34

Russian drone shot by the State Border Guard Service of Ukraine

La guerre électronique serait la plus grande faiblesse de l’Ukraine, et la principale force de la Russie

HardSécu 7

Debout, une femme en pull bleu montre à une autre, assise, quelque chose à son écran d'ordinateur.

Futur de l’IA : les femmes manquent dangereusement à l’appel

IASociété 12

Logo Spotify avec notes de musique

Spotify licencie 1 500 personnes de plus

ÉcoSociété 13

Wikipedia sombre

Wikipedia aura son thème sombre

Web 16

Commentaires (14)


War Machine Abonné
Il y a 1 an

Ah ben tiens, j’étais justement encore confronté à des copies copiées pas plus tard que la semaine dernière.



Je n’avais hélas pas pu bénéficier de Compilatio, mais j’ai vite remis la main sur l’originale. Un gros soucis avec les étudiants, ce sont les packs d’anciens comptes rendus de TP ou de TDs qu’ils se transmettent de promotion en promotion. Changer les TPs est difficilement envisageable quand il s’agit de gros équipements.



Mais nous aussi, on a nos astuces… des valeurs numériques volontairement différentes d’une année à l’autre, voire d’un groupe à l’autre.


wanou Abonné
Il y a 1 an

Reste encore l’épreuve du jury finalement. Non?


Gu0sur20 Abonné
Il y a 1 an

Je suis chercheur en cybersécurité, ou plutôt … j’étais. J’ai abandonné ce métier lorsque j’ai compris que la recherche scientifique s’est totalement fourvoyée avec la financiarisation de sa production :
1/ on doit céder nos droits d’auteurs sur chaque papier publié aux profits des sociétés d’éditeurs (e.g. IEEE, ACM, …) alors même que cette recherche est bien souvent financée par de l’argent publique (en France en tout cas)
2/ il faut payer pour accéder aux publications alors même que la connaissance est un bien commun qui est gratuit par nature
3/ le processus de publication ressemble plus à un concours de beauté qu’à une “relecture par les pairs”. Vous n’imaginez pas le nombre de fois où mes articles ont été relus par des personnes qui ne sont pas du domaine et réciproquement !
4/ ou encore cette blague que sont les H-Index et dérivés qui favorisent la quantité de papiers publiés en dépit de leur qualité
5/ sans oublier le système de brevets qui est juste totalement en panne
6/ et bien sûr la captation des crédit de recherche par des organismes privés ET publiques juste parce qu’ils ont des “amis” ou un “nom” alors qu’en pratique ils sont tout juste compétent (Bah oui, quand on passe sa vie à courir après le pognon, on ne fait pas de recherche et on devient rapidement incompétent)



Bref, je pourrais continuer comme ça pendant des heures et ça n’aurait pas beaucoup d’intérêt … En somme, il suffit aujourd’hui de savoir comment fonctionne la recherche scientifique pour en exploiter toutes ses failles et devenir “un brillant chercheur”. Le système est tellement facile à corrompre que le problème de fond ce n’est même pas le plagiat :/



Désolé, je démarre assez facilement sur ce genre de sujet :pastaper:


M3t3or Abonné
Il y a 1 an

C’est un domaine qui recrute bien ! je suis sur que vous avez trouvé une porte de sortie :chinois:



Concernant l’article en lui meme, c’est toujours le jeu du chat et à la souris, a un certains moment le systéme va changer. On peut imaginer comme solution, par exemple, de placer des “marqueurs” dans le texte généré par l’IA afin de detecter rapidement le plagiat.
Un peu comme il y a quelques siécles avec la cartographie ou des îles imaginaires étaient rajoutées sur les cartes pour identifier le cartographe.


cmoifranck Abonné
Il y a 1 an

Je ne peux qu’appuyer vos dires hélas :-(
Avec un système de recrutement (en imaginant qu’il y ait des postes hein) complétement b(i)aisé
Raisons pour lesquelles je suis parti en courant aussi


bistouille
Il y a 1 an

Malheureusement vous êtes entièrement dans le vrai, sans compter le fait que les institutions (universités et établissements publiques scientifiques et techniques) sont également vérolées par une espèce d’oligarchie prédatrice/parasite favorisant et amplifiant ces phénomènes.
En fait on y trouve les mêmes managers toxiques et incompétents que dans les pires SSIIs, le salaire en moins finalement. D’ailleurs certains de ces parasites dont les seules “compétences” sont l’absence de scrupules et le carnet d’adresses basculent aisément du privé au publique où ils commettent les mêmes méfaits.


MisterDams Abonné
Il y a 1 an

M3t3or a dit:


C’est un domaine qui recrute bien ! je suis sur que vous avez trouvé une porte de sortie :chinois:



Concernant l’article en lui meme, c’est toujours le jeu du chat et à la souris, a un certains moment le systéme va changer. On peut imaginer comme solution, par exemple, de placer des “marqueurs” dans le texte généré par l’IA afin de detecter rapidement le plagiat. Un peu comme il y a quelques siécles avec la cartographie ou des îles imaginaires étaient rajoutées sur les cartes pour identifier le cartographe.




Ce serait viable si c’était la communauté scientifique qui développait ces IA, mais la plupart du temps ce sont des industries dont le seul objectif est d’être le plus réaliste possible.



Si quelqu’un développe une IA1 pour détecter les textes générés par des IA, un autre s’en servira pour construire sa propre IA2, qui viendra trouver une méthode pour camoufler ses traces, mais qu’IA1 apprendra à détecter, avant qu’IA2 ne vienne détecter les nouveaux critères d’IA1…



Bref, tout ça sonne très dystopique, comme quasiment tous les sujets touchant l’IA cela dit.


tazvld Abonné
Il y a 1 an

Au passage, tu viens de décrire le “generative adversarial networks” (ou GAN ou encore réseaux antagonistes génératifs), un de modèle de réseaux de neurones utiliser pour générer des données qui ressemblent à des vrais.



Dans une autre mesure, en biologie évolutive, c’est similaire à l’hypothèse de la reine rouge : pour survire, les espèces doivent évoluer en permanence pour pouvoir garder leur “position” vis à vis des autres espèces dans l’environnement : il faut courir pour rester sur place (référence à Alice au pays des merveille). C’est d’autant plus vrai lorsque l’espece est dans une relation de parasitisme ou de symbiose (qui sont les 2 faces du même miroir) avec une autre.


cthoumieux Abonné
Il y a 1 an

Merci pour cet article
Je ne connais pas ce sujet
C’est intéressant


War Machine Abonné
Il y a 1 an

Gu0sur20 a dit:


Je suis chercheur en cybersécurité, ou plutôt … j’étais. J’ai abandonné ce métier lorsque j’ai compris que la recherche scientifique s’est totalement fourvoyée avec la financiarisation de sa production : 1/ on doit céder nos droits d’auteurs sur chaque papier publié aux profits des sociétés d’éditeurs (e.g. IEEE, ACM, …) alors même que cette recherche est bien souvent financée par de l’argent publique (en France en tout cas) 2/ il faut payer pour accéder aux publications alors même que la connaissance est un bien commun qui est gratuit par nature 3/ le processus de publication ressemble plus à un concours de beauté qu’à une “relecture par les pairs”. Vous n’imaginez pas le nombre de fois où mes articles ont été relus par des personnes qui ne sont pas du domaine et réciproquement ! 4/ ou encore cette blague que sont les H-Index et dérivés qui favorisent la quantité de papiers publiés en dépit de leur qualité 5/ sans oublier le système de brevets qui est juste totalement en panne 6/ et bien sûr la captation des crédit de recherche par des organismes privés ET publiques juste parce qu’ils ont des “amis” ou un “nom” alors qu’en pratique ils sont tout juste compétent (Bah oui, quand on passe sa vie à courir après le pognon, on ne fait pas de recherche et on devient rapidement incompétent)



Bref, je pourrais continuer comme ça pendant des heures et ça n’aurait pas beaucoup d’intérêt … En somme, il suffit aujourd’hui de savoir comment fonctionne la recherche scientifique pour en exploiter toutes ses failles et devenir “un brillant chercheur”. Le système est tellement facile à corrompre que le problème de fond ce n’est même pas le plagiat :/



Désolé, je démarre assez facilement sur ce genre de sujet :pastaper:




Hélas assez vrai…


MisterDams Abonné
Il y a 1 an

tazvld a dit:


Au passage, tu viens de décrire le “generative adversarial networks” (ou GAN ou encore réseaux antagonistes génératifs), un de modèle de réseaux de neurones utiliser pour générer des données qui ressemblent à des vrais.



Dans une autre mesure, en biologie évolutive, c’est similaire à l’hypothèse de la reine rouge : pour survire, les espèces doivent évoluer en permanence pour pouvoir garder leur “position” vis à vis des autres espèces dans l’environnement : il faut courir pour rester sur place (référence à Alice au pays des merveille). C’est d’autant plus vrai lorsque l’espece est dans une relation de parasitisme ou de symbiose (qui sont les 2 faces du même miroir) avec une autre.




Ha merci, j’avais perdu le nom :D
En revanche, ça ne s’inscrit pas strictement dans ce modèle, puisque je parle d’un cas où deux systèmes ne fonctionnent pas de concert mais de façon bien distincte, là où le GAN fait fonctionner 2 IA en opposition sur le principe, mais dans le même objectif final.
Typiquement, si IA1 est un vérificateur d’authenticité, ils vont probablement pas permettre un nombre infini de requêtes par le système IA2, qui va donc devoir jouer des coudes pour avoir assez de matière. On peut même envisager des dispositifs pour envoyer des résultats faussés en cas de détection d’une requête suspecte !


tazvld Abonné
Il y a 1 an

Surtout, dans ton cas, l’IA2 ne peut pas profiter de “l’explication” (les gradients) de l’IA1. Dans un GAN, lors de la descente de gradient le gradient passe entre le discriminateur (l’expert en détection de faux) et le générateur (le faussaire), comme si le discriminateur expliquait quel valeur et dans quel direction il faut changer pour que le générateur fasse un meilleur travail.


pamputt Abonné
Il y a 1 an

Et, alors que les humains et PlagScan ne peuvent pas faire mieux que le hasard pour détecter des paraphrases générées par ce genre de modèles de langage, T5 et GPT-3 arrivent à les détecter à plus de 60%.



Je n’ai pas été vérifié mais ce taux de 60% est-il détecté par T5 sur ses propres créations ? Ou bien demande-t-on à GPT-3 d’évaluer les créations de T5 et réciproquement.



Dans les deux cas, est ce qu’on a testé le taux de détection avec des ensemble d’apprentissage différent. Par exemple : on entraine 2 GPT-3 sur une moitié du corpus et on demande à chacun des GPT-3 d’évaluer la fraude sur la production de l’autre GPT-3.



Car si ça n’a pas été évalué, ça ouvre la porte à un apprentissage différent pour passer entre les mails du filet.


Martin Clavey Abonné
Il y a 1 an

Les chercheurs ont testé en évaluant GPT-3 et T5 sur les créations de GPT-3. Effectivement, il y a un biais possible pour celui-ci mais comme il crée les périphrases les plus élaborées, ça a un sens.



(Voir le tableau 6 dans l’article scientifique https://imgur.com/k9aS8ql )