Les détecteurs d’IA générative pointés du doigt pour leurs faux positifs sur les campus américains
Captcha universitaire
Les entreprises d'IA générative avaient prévenu que les outils de détection de contenus générés par des IA n'étaient pas efficaces. Leur taux de faux positifs est loin d'être nul, menant à des accusations parfois erronées alors que leur utilisation est massive dans les universités.
Le 24 octobre à 14h40
4 min
IA et algorithmes
IA
Même la foire aux questions d'OpenAI l'explique depuis quelque temps : « Alors que certains (y compris OpenAI) ont publié des outils prétendant détecter du contenu généré par une IA, aucun d’entre eux n’a prouvé qu’il établissait une distinction fiable entre ce type de contenu et celui généré par l’homme ».
Et pourtant, ils sont massivement utilisés dans les universités pour vérifier le travail des étudiants. Bloomberg explique que les deux tiers des enseignants américains utilisent des détecteurs d'IA générative pour repérer des textes qui ne seraient pas écrits par les étudiants.
2 à 3 % de faux positifs
Or, le média américain a testé deux des détecteurs les plus utilisés, GPTZero et Copyleaks sur un échantillon de 500 copies rédigées et soumises à correction durant l'été 2022, alors que ChatGPT n'était pas encore sorti. Résultats : 488 dissertations ont été considérées comme écrites par un humain, neuf ont été étiquetées comme partiellement générées par IA et partiellement rédigées par un humain, et trois ont été étiquetées comme entièrement générées par IA. Ce taux peut paraître bas, mais il représente nombre de fausses accusations au vu du nombre de copies.
D'autant que, comme l'explique Bloomberg, les accusations erronées tombent plus souvent sur des étudiants au style d'écriture plus « générique ». En effet, celui des étudiants dont la langue d'examen (ici l'anglais) n'est pas leur langue maternelle, de ceux qui ont simplement appris un style plus simple et mécanique ou des personnes dites neuroatypiques, peut plus facilement être confondu avec un texte généré par une IA.
Le média américain a recueilli le témoignage d'une étudiante neuroatypique accusée de triche par son université et qui a reçu cette accusation comme un « coup de poing dans le ventre ». Un autre étudiant, d'origine italienne et qui a obtenu un 0, se dit accablé. Il explique que son enseignant n'en démord pas, ayant passé le texte dans plusieurs détecteurs qui donnent tous le même résultat.
En juillet 2023, une étude scientifique montrait déjà les biais de ce genre de détecteurs sur les textes en anglais rédigés par des personnes non-nativement anglophones.
Utilisation « moralement problématique »
Sur X, en réaction à l'article de Bloomberg, Ethan Mollick, enseignant chercheur à l'Université Wharton de Californie, affirme qu' « il est moralement problématique d’utiliser des détecteurs d’IA lorsqu’ils produisent des faux positifs qui salissent les étudiants d’une manière qui leur porte préjudice et alors qu'ils ne peuvent jamais prouver leur innocence ». Il ajoute, insistant : « ne les utilisez pas ».
Certains enseignants appliquent ce conseil et ont adapté leurs évaluations, soit en incorporant l'utilisation des IA dans leur enseignement, soit en modifiant leurs exigences pour qu'elles soient moins facilement atteignables à l'aide d'une IA. Mais Bloomberg montre que le business derrière la détection de textes générés par IA est florissant, puisque le leader du secteur, GPTZero, a levé 13,5 millions de dollars depuis sa création début 2023 et revendique 4 millions d'utilisateurs.
Si ces entreprises clament ne pas vouloir être prises pour des juges, il est difficile de savoir que faire de leurs résultats puisqu'une fois un texte étiqueté comme généré par une IA, il est impossible de savoir s'il s'agit d'un faux positif ou pas.
Le média américain explique que certains étudiants utilisent ces logiciels, à leur tour, pour vérifier que leurs textes ne sont pas faussement détectés comme générés par des IA, et les modifient s'ils le sont. Bloomberg ajoute que l'utilisation d'un logiciel d'aide à l'écriture comme Grammarly (qui donne des conseils de tournure de phrases) peut faire passer rapidement un texte détecté comme « 100 % écrit par un humain » à « 100 % généré par une IA ».
Les détecteurs d’IA générative pointés du doigt pour leurs faux positifs sur les campus américains
-
2 à 3 % de faux positifs
-
Utilisation « moralement problématique »
Commentaires (5)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 24/10/2024 à 20h09
C’est juste hallucinant de déployer un outil aussi peu fiable en fait.
Le 25/10/2024 à 01h47
Le 25/10/2024 à 08h45
Au final, ces détecteurs sont, de mon point de vue, une chasse au sorcières 3.0 qui me rappelle un vieux dicton qui se vérifie très souvent : "quand le vent du changement arrive, certains construisent des murs, d'autres des moulins".
Dans le cas du scolaire, l'opportunité du moulin est une occasion de revoir le modèle d'une dissertation ou d'une rédaction. Plutôt que de demander à pisser des lignes qui seront notées au kilo (mon expérience en philo), interroger l'élève sur son texte, demander ce qu'il a compris et retenu de l'exercice, ça permettrait de voir déjà si le contenu a été généré sans relecture (et donc sans apprentissage), mais aussi de vérifier les connaissances acquises.
Le 25/10/2024 à 12h08
Reste que produire des éléments de preuve pour l'étudiant injustement accusé, ça doit être un possible non ? (si on fait du versionning, des recherches biblio etc.)
Le 25/10/2024 à 14h48