Quand une mauvaise utilisation de l’IA conduit à des conclusions scientifiques erronées sur le suicide
« Justement, réfléchir, c'est bien le problème avec toi »
Le 07 avril 2023 à 15h37
5 min
Société numérique
Société
En 2017, des chercheurs en psychologie et psychiatrie pensaient avoir trouvé une manière très efficace de détecter des idées suicidaires chez les jeunes. Mais six ans après, ils se résolvent à retirer leur étude alors que plusieurs de leurs collègues pointent des erreurs dans l'utilisation du machine learning dans leurs travaux.
Dans un article publié en 2017 dans la revue scientifique Nature Human Behavior, le chercheur en psychologie à l'université de Carnegie Mellon, Marcel Adam Just, et ses collègues annonçaient avoir trouvé un biomarqueur, c'est-à-dire une caractéristique biologique mesurable dans le temps, permettant de détecter les idées suicidaires.
Les chercheurs proclamaient qu'après avoir fait passer une imagerie par résonance magnétique fonctionnelle (IRMf) à un patient qui pensait à 30 concepts comme « mort », « cruauté », « trouble », « bon » ou « insouciance », leur algorithme de deep-learning analysant les images résultantes était capable de détecter si une personne était suicidaire avec une « précision élevée (91 %) ».
Cet article a eu un certain succès dans la communauté scientifique puisqu'il a été cité 134 fois par d'autres chercheurs si on en croit le Web of Science (plateforme de statistique de l'édition scientifique), et notamment par un article publié dans Nature Medecine en 2019 passant en revue l'utilisation de plus en plus importante de l'intelligence artificielle en médecine.
Mais Marcel Adam Just avait tout faux. Les auteurs viennent de retirer leur article ce jeudi 6 avril, alors que deux autres chercheurs ont publié ce même jour un article très critique sur leur mauvaise utilisation de l'intelligence artificielle.
Une méthode « défectueuse »
L'article original est remplacé par une note de rétractation expliquant que celle-ci intervient « après que des inquiétudes ont été soulevées quant à la validité de leur méthode de machine learning ». La revue explique dans cette note que les auteurs « ont confirmé que leur méthode était effectivement défectueuse ».
Déjà en 2018, une « lettre » publiée dans la revue par Debra Ann Dawson, chercheuse en neurologie et neurochirurgie de la même université que Just, posait la question d'un problème de généralisation sur d'autres populations que celle étudiée et un potentiel problème de méthode.
En 2021, l'article avait suscité une critique plus poussée publiée, elle aussi, dans la même revue par Simon B. Eickhoff et ses collègues chercheurs à l'Institut allemand de Neuroscience et Médecine : Cerveau et Comportement (INM-7).
« Bien qu'il s'agisse d'un effort louable sur un sujet difficile, cette étude illustre malheureusement certains problèmes conceptuels et techniques courants dans ce domaine, qui limitent la transposition dans la pratique clinique et suscitent des espoirs irréalistes lorsque les résultats sont communiqués au grand public », expliquaient-ils.
L'article pointait que Marcel Adam Just et ses collègues avaient « exclu de l'analyse principale plus de la moitié des patients et des témoins sains initialement inscrits dans l'étude parce qu'ils ne disposaient pas des effets souhaités sur l'imagerie par résonance magnétique fonctionnelle ». La critique ajoutait que la recherche avait été effectuée sur trop peu de données pour que l'étude soit réellement significative.
Mais cette critique n'avait apparemment pas été suffisante aux yeux des auteurs et de l'éditeur scientifique pour justifier le retrait de l'article.
Ce n'est que cette année, avec l'analyse de l'étude par deux autres chercheurs – dont Timothy Verstynen, qui fait partie de la même université que Just –, que les auteurs se sont résolus à retirer leur article.
Entrainement et test sur les mêmes données
Mais c'est aussi que cette analyse est encore plus problématique concernant le travail de Just et de ses co-auteurs sur l'utilisation du machine learning en tant que tel. Selon Timothy Verstynen, « la sélection de caractéristiques [« Feature selection » en anglais, sélection qui permet de construire le modèle en machine learning, ndlr] semble s'appuyer sur les mêmes données que celles utilisées dans l'évaluation finale du modèle ».
Il s'en est rendu compte en essayant de reproduire l'expérience avec les codes partagés par les auteurs de l'étude.
Timothy Verstynen a expliqué à Retraction Watch, blog spécialisé sur le retrait d'articles scientifiques, que son idée de départ n'était pas de faire rétracter l'article, mais de chercher à clarifier les méthodes utilisées.
Pour lui, mais aussi pour Simon B. Eickhoff, le retrait n'aura pas beaucoup d'effet sur les méthodes actuelles, car le domaine a évolué depuis, rapporte aussi Retraction Watch.
Si Timothy Verstynen ne reproche pas non plus à la revue scientifique d'avoir suivi les procédures, il aurait aimé que celle-ci se passe avec plus de transparence.
Mais on peut aussi se poser des questions sur la généralisation de l'utilisation des techniques d'intelligence artificielle par des chercheurs qui n'en sont pas des spécialistes. Dans l'article incriminé, tous les auteurs sont des chercheurs en psychologie ou en psychiatrie et leur équipe n'intègre pas de spécialiste des données. On peut imaginer que la consultation d'un connaisseur du sujet aurait permis de ne pas passer à côté de cette erreur qui a quand même touché une partie non négligeable de la recherche sur le sujet, vu le nombre de citations de l'article dans la littérature scientifique.
Quand une mauvaise utilisation de l’IA conduit à des conclusions scientifiques erronées sur le suicide
-
Une méthode « défectueuse »
-
Entrainement et test sur les mêmes données
Commentaires (7)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 08/04/2023 à 06h57
Donc les gars ont viré les cas jusqu’à ce que l’IA ponde ce qu’ils attendaient ! À ce niveau, c’est carrément de la fraude !
Le 08/04/2023 à 08h47
Sur 100 mesures, après avoir supprimés 98 outliers, nous obtenons un modèle fiable et robuste dans lequel les points sont tous alignés.
Le 08/04/2023 à 09h01
Ils ont mis le temps à reconnaître l’erreur, mais ils l’ont fait.
Le 08/04/2023 à 11h13
Autant je peux comprendre l’erreur sur le paramétrage de l’IA car ce n’est pas le métier de base de chercheurs en psychologie et en psychiatrie, autant je trouve que l’exclusion d’un trop grand nombre de données dans l’échantillon est difficilement pardonnable car c’est de la démarche scientifique de base qui s’applique à tout les domaines.
Comment de telles erreurs ont pu passer le comité de lecture au moment de la publication ? Qu’il n’y ait pas eu de spécialiste en IA dans le comité de lecture peu s’entendre (et l’erreur est aussi du côté de la revue qui n’a pas sélectionné les bons spécialistes) mais tous auraient du voir l’erreur sur les données.
Le 10/04/2023 à 08h50
Effectivement, quand “une étude exclut plus de la moitié des patients”, …..
Le 11/04/2023 à 08h32
ZeroZero0 : je pense que tu es un peu optimiste quant à la qualité des relecteurs. J’ai entendu plusieurs exemples de relecteurs qui faisaient ça un peu “à l’arrache”, et d’autres cas de relecteurs choisis par la revue un peu au petit bonheur la chance. Attention, ça n’est pas généralisé. Mais ça arrive. Imaginer qu’il y ait eu un cumul de failles dans le système n’est pas délirant.
Ce qui est important, c’est que la rétractation ait eu lieu, et qu’elle ait même été validée par les auteurs initiaux. C’est ainsi que la science avance parfois.
Le 12/04/2023 à 05h24