L’IA, plagiaire scientifique de haute volée
Copier/GPT/Coller
Le 31 octobre 2022 à 14h40
5 min
Sciences et espace
Sciences
En recherche, le plagiat est un problème d'intégrité qui peut remettre en cause tout l'édifice scientifique. Il existe des logiciels de détection, mais les dernières avancées en intelligence artificielle menacent ces solutions et semblent permettre des plagiats quasiment indétectables.
Si le plagiat pose des questions dans bon nombre de domaines de création intellectuelle, utilisé en recherche il devient une menace pour l'intégrité scientifique. De nombreux cas de plagiats scientifiques sont régulièrement mis en lumière notamment par le site Retraction Watch tenu par des journalistes scientifiques américains. La France n'est pas épargnée. Cet été encore, Le Monde révélait que « la thèse de doctorat du sénateur LR Stéphane Le Rudulier est entachée de plagiat ».
Au premier abord, les conséquences pourraient sembler se cantonner aux carrières de chercheurs. Mais cela peut aussi avoir des conséquences sur les connaissances scientifiques, comme pour le cas du neurologue Paul McCrory, très proche des instances d'organisations sportives, qui s'en est servi pour assoir son autorité sur l'élaboration des protocoles de commotion cérébrale et minimiser l'encéphalopathie traumatique chronique chez les sportifs.
De beaux paraphraseurs
Depuis quelques années, des logiciels de détection de plagiat, comme Compilatio, Smodin ou encore PlagScan permettent aux enseignants et aux chercheurs qui suspectent un de leurs collègues ou étudiants de plagier, de vérifier si le texte a été plus ou moins copié/collé d'un autre article scientifique ou d'une source accessible sur internet. Des outils en ligne comme Spinbot ou SpinnerChief permettent déjà de paraphraser, de façon rudimentaire, des textes anglophones pour passer un peu plus entre les gouttes.
Mais des chercheurs en intelligence artificielle de l'Université de Göttingen viennent de mettre en lumière l'utilisation potentiellement très problématique des grands modèles de langage pour plagier des articles scientifiques.
Dans un article qu'ils vont présenter en décembre prochain à la conférence EMNLP (conférence scientifique internationale sur ce genre de méthodes), ils expliquent que ces outils d'intelligence artificielle peuvent non seulement tromper facilement les logiciels de détection, mais sont aussi redoutables pour rendre le plagiat inaperçu aux yeux d'un humain.
Jan Philip Wahle et ses collègues ont entrainé le fameux grand modèle de langage d'OpenAI, GPT-3, avec des données de Wikipédia, des articles scientifiques mis en ligne sur arXiv et des thèses d'étudiants. Ils ont fait de même avec T5, un autre grand modèle de langage, créé par des chercheurs de Google pour faire de la traduction. Puis ils les ont utilisés pour paraphraser des textes scientifiques et ensuite les soumettre à PlagScan et à l'œil humain.
Résultat ? En comparant des textes originaux d'articles scientifiques et leurs équivalents paraphrasés, les humains interrogés ont correctement choisi le plagiat à 53% quand il était réalisé avec GPT-3 et à 56% avec T5... à comparer avec les 82% de détection pour ce même test quand ils l'ont fait passer au paraphraseur en ligne SpinnerChief et aux 50% de chance si on désigne le fautif au hasard.
En demandant leur avis à des chercheurs habitués à relire des articles, Jan Philip Wahle et ses collègues ont aussi montré que les articles générés par GPT-3 étaient quasiment aussi clairs que les originaux. Si leur fluidité et leur cohérence péchaient encore un peu, le grand modèle de langage réussit quand même à être beaucoup plus lisible que SpinnerChief.
Une menace préoccupante pour la recherche... et les profs
Dans un thread Twitter, Jan Philip Wahle juge ces résultats préoccupants pour l'intégrité scientifique. Les chercheurs suggèrent, dans la conclusion de leur article, que l'utilisation des grands modèles de langage « pourrait augmenter le nombre de cas de plagiats automatisés ».
Mais leur travail montre aussi que l'utilisation de ces méthodes augmente la détection automatique des plagiats, que ce soit sur des textes générés par SpinnerChief ou par l'utilisation de grands modèles de langage eux-mêmes. Ils sont au niveau voire un peu meilleurs que les humains pour détecter des paraphrases de SpinnerChief, mais surtout beaucoup plus efficaces que PlagScan. Et, alors que les humains et PlagScan ne peuvent pas faire mieux que le hasard pour détecter des paraphrases générées par ce genre de modèles de langage, T5 et GPT-3 arrivent à les détecter à plus de 60%.
Reste que l'utilisation automatique laisse parfois des expressions un peu étranges, que le chercheur toulousain Guillaume Cabanac appellent des « expressions torturées », qui sont des paraphrases de termes techniques qui devraient rester inchangés. Il a, lui, créé un outil de détection de ces expressions appelé le Problematic Paper Screener.
Si de plus en plus de chercheurs en informatique s'intéressent à la détection de plagiat, Jan Philip Wahle et ses collègues pointent dans leur conclusion que la fausse accusation de chercheurs peut détruire des carrières et que la difficulté de détection des plagiats rend les décisions légales particulièrement complexes. Pour eux, « tous les cas doivent être évalués attentivement avant toute décision finale ».
Le problème de plagiat aidé par ces grands modèles de langage ne concerne pas seulement la publication scientifique. Des étudiants américains utilisent d'ores et déjà GPT-3 pour écrire leurs devoirs, ce qui rend de plus en plus complexe le travail de vérification, d'identification des plagiats et d'évaluation de leurs profs.
L’IA, plagiaire scientifique de haute volée
-
De beaux paraphraseurs
-
Une menace préoccupante pour la recherche... et les profs
Commentaires (14)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 31/10/2022 à 14h47
Ah ben tiens, j’étais justement encore confronté à des copies copiées pas plus tard que la semaine dernière.
Je n’avais hélas pas pu bénéficier de Compilatio, mais j’ai vite remis la main sur l’originale. Un gros soucis avec les étudiants, ce sont les packs d’anciens comptes rendus de TP ou de TDs qu’ils se transmettent de promotion en promotion. Changer les TPs est difficilement envisageable quand il s’agit de gros équipements.
Mais nous aussi, on a nos astuces… des valeurs numériques volontairement différentes d’une année à l’autre, voire d’un groupe à l’autre.
Le 31/10/2022 à 14h50
Reste encore l’épreuve du jury finalement. Non?
Le 31/10/2022 à 15h12
Je suis chercheur en cybersécurité, ou plutôt … j’étais. J’ai abandonné ce métier lorsque j’ai compris que la recherche scientifique s’est totalement fourvoyée avec la financiarisation de sa production :
1/ on doit céder nos droits d’auteurs sur chaque papier publié aux profits des sociétés d’éditeurs (e.g. IEEE, ACM, …) alors même que cette recherche est bien souvent financée par de l’argent publique (en France en tout cas)
2/ il faut payer pour accéder aux publications alors même que la connaissance est un bien commun qui est gratuit par nature
3/ le processus de publication ressemble plus à un concours de beauté qu’à une “relecture par les pairs”. Vous n’imaginez pas le nombre de fois où mes articles ont été relus par des personnes qui ne sont pas du domaine et réciproquement !
4/ ou encore cette blague que sont les H-Index et dérivés qui favorisent la quantité de papiers publiés en dépit de leur qualité
5/ sans oublier le système de brevets qui est juste totalement en panne
6/ et bien sûr la captation des crédit de recherche par des organismes privés ET publiques juste parce qu’ils ont des “amis” ou un “nom” alors qu’en pratique ils sont tout juste compétent (Bah oui, quand on passe sa vie à courir après le pognon, on ne fait pas de recherche et on devient rapidement incompétent)
Bref, je pourrais continuer comme ça pendant des heures et ça n’aurait pas beaucoup d’intérêt … En somme, il suffit aujourd’hui de savoir comment fonctionne la recherche scientifique pour en exploiter toutes ses failles et devenir “un brillant chercheur”. Le système est tellement facile à corrompre que le problème de fond ce n’est même pas le plagiat :/
Désolé, je démarre assez facilement sur ce genre de sujet
Le 31/10/2022 à 16h33
C’est un domaine qui recrute bien ! je suis sur que vous avez trouvé une porte de sortie
Concernant l’article en lui meme, c’est toujours le jeu du chat et à la souris, a un certains moment le systéme va changer. On peut imaginer comme solution, par exemple, de placer des “marqueurs” dans le texte généré par l’IA afin de detecter rapidement le plagiat.
Un peu comme il y a quelques siécles avec la cartographie ou des îles imaginaires étaient rajoutées sur les cartes pour identifier le cartographe.
Le 01/11/2022 à 07h34
Je ne peux qu’appuyer vos dires hélas :-(
Avec un système de recrutement (en imaginant qu’il y ait des postes hein) complétement b(i)aisé
Raisons pour lesquelles je suis parti en courant aussi
Le 01/11/2022 à 10h18
Malheureusement vous êtes entièrement dans le vrai, sans compter le fait que les institutions (universités et établissements publiques scientifiques et techniques) sont également vérolées par une espèce d’oligarchie prédatrice/parasite favorisant et amplifiant ces phénomènes.
En fait on y trouve les mêmes managers toxiques et incompétents que dans les pires SSIIs, le salaire en moins finalement. D’ailleurs certains de ces parasites dont les seules “compétences” sont l’absence de scrupules et le carnet d’adresses basculent aisément du privé au publique où ils commettent les mêmes méfaits.
Le 31/10/2022 à 17h13
Ce serait viable si c’était la communauté scientifique qui développait ces IA, mais la plupart du temps ce sont des industries dont le seul objectif est d’être le plus réaliste possible.
Si quelqu’un développe une IA1 pour détecter les textes générés par des IA, un autre s’en servira pour construire sa propre IA2, qui viendra trouver une méthode pour camoufler ses traces, mais qu’IA1 apprendra à détecter, avant qu’IA2 ne vienne détecter les nouveaux critères d’IA1…
Bref, tout ça sonne très dystopique, comme quasiment tous les sujets touchant l’IA cela dit.
Le 01/11/2022 à 15h01
Au passage, tu viens de décrire le “generative adversarial networks” (ou GAN ou encore réseaux antagonistes génératifs), un de modèle de réseaux de neurones utiliser pour générer des données qui ressemblent à des vrais.
Dans une autre mesure, en biologie évolutive, c’est similaire à l’hypothèse de la reine rouge : pour survire, les espèces doivent évoluer en permanence pour pouvoir garder leur “position” vis à vis des autres espèces dans l’environnement : il faut courir pour rester sur place (référence à Alice au pays des merveille). C’est d’autant plus vrai lorsque l’espece est dans une relation de parasitisme ou de symbiose (qui sont les 2 faces du même miroir) avec une autre.
Le 01/11/2022 à 09h34
Merci pour cet article
Je ne connais pas ce sujet
C’est intéressant
Le 01/11/2022 à 16h42
Hélas assez vrai…
Le 02/11/2022 à 09h23
Ha merci, j’avais perdu le nom
En revanche, ça ne s’inscrit pas strictement dans ce modèle, puisque je parle d’un cas où deux systèmes ne fonctionnent pas de concert mais de façon bien distincte, là où le GAN fait fonctionner 2 IA en opposition sur le principe, mais dans le même objectif final.
Typiquement, si IA1 est un vérificateur d’authenticité, ils vont probablement pas permettre un nombre infini de requêtes par le système IA2, qui va donc devoir jouer des coudes pour avoir assez de matière. On peut même envisager des dispositifs pour envoyer des résultats faussés en cas de détection d’une requête suspecte !
Le 02/11/2022 à 09h34
Surtout, dans ton cas, l’IA2 ne peut pas profiter de “l’explication” (les gradients) de l’IA1. Dans un GAN, lors de la descente de gradient le gradient passe entre le discriminateur (l’expert en détection de faux) et le générateur (le faussaire), comme si le discriminateur expliquait quel valeur et dans quel direction il faut changer pour que le générateur fasse un meilleur travail.
Le 03/11/2022 à 11h23
Et, alors que les humains et PlagScan ne peuvent pas faire mieux que le hasard pour détecter des paraphrases générées par ce genre de modèles de langage, T5 et GPT-3 arrivent à les détecter à plus de 60%.
Je n’ai pas été vérifié mais ce taux de 60% est-il détecté par T5 sur ses propres créations ? Ou bien demande-t-on à GPT-3 d’évaluer les créations de T5 et réciproquement.
Dans les deux cas, est ce qu’on a testé le taux de détection avec des ensemble d’apprentissage différent. Par exemple : on entraine 2 GPT-3 sur une moitié du corpus et on demande à chacun des GPT-3 d’évaluer la fraude sur la production de l’autre GPT-3.
Car si ça n’a pas été évalué, ça ouvre la porte à un apprentissage différent pour passer entre les mails du filet.
Le 03/11/2022 à 14h34
Les chercheurs ont testé en évaluant GPT-3 et T5 sur les créations de GPT-3. Effectivement, il y a un biais possible pour celui-ci mais comme il crée les périphrases les plus élaborées, ça a un sens.
(Voir le tableau 6 dans l’article scientifique https://imgur.com/k9aS8ql )