Connexion Premium

En santé, les erreurs par omissions des LLM sont nombreuses et dangereuses

D'abord, ne pas faire de mal

En santé, les erreurs par omissions des LLM sont nombreuses et dangereuses

ChatGPT Santé a été annoncé il y a deux semaines et ce n’est pas le projet qui lance l’utilisation des LLM en santé. Mais une recherche récente sur les réponses des modèles de langage concernant des questions sur la santé montre qu’ils peuvent générer des conseils problématiques, notamment en faisant des erreurs par omission.

Le 26 janvier à 11h02

Avec le lancement de ChatGPT Santé, la santé voit l’IA générative et l’utilisation des modèles de langage dans son champ promues largement dans les mains du grand public. Pourtant, des chercheurs montrent que les réponses de chatbots peuvent être très problématiques.

Nous sommes à « un moment où les puissants modèles d’apprentissage automatique (LLM) sont intégrés dans les soins aux patients plus rapidement que leurs risques ne peuvent être compris », affirme David Wu de l’école de médecine de Harvard, Ethan Goh de l’école de médecine de Stanford et leurs collègues. Ils ont récemment mis en ligne une étude (sur la plateforme de prépublication arXiv) qui teste 31 modèles et constate le risque de préjudice grave lié aux recommandations données par ces 31 LLM.

D’abord, ne pas faire de mal

« Primum non nocere [d’abord, ne pas faire de mal en français ou, first do no harm en anglais] est un principe fondamental de la médecine depuis des milliers d’années », rappellent-ils dans leur article. C’est inspiré de ce principe qu’ils proposent leur benchmark NOHARM (Numerous Options Harm Assessment for Risk in Medicine) qui s’appuie sur 100 cas réels de consultations entre médecins généralistes et spécialistes pour mesurer la fréquence et la gravité des préjudices causés par les recommandations médicales générées par les LLM.

Il reste 79% de l'article à découvrir.

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Commentaires (7)

votre avatar
Déjà "Chat GPT Santé", ça choque personne ?

De la à ce que le LLM nous sorte qu'il faut boire du détergeant pour se débarrasser du COVID...

Sérieux mais que font les élus ! Je pense, et c'est mon opinion personnelle qu'il devrait y avoir des lois contre ce genre d'usage de l'IA.
votre avatar
Il faut interdire les sites internet, les RS et les forums de santé aussi: ils sont infiniment pires dans leurs conseils.
Mention spéciale aux sites, car très rapidement si on creuse on trouve des liens entre certains sites et des sectes. Sites qui peuvent apparaître en page 1 de google ou qwant.
votre avatar
Peut-être (j'ai pas vérifié) mais là aussi je suis d'accord. Enfin bref c'est la santé humaine.

Quand un médecin fait une petite erreur de rien du tout, il passe dans un processus herculéen. Tout ces sites et LLM s'en sortent bien mieux.

On ne peut pas avoir un système à deux vitesses (médecin vs numérique).

Tiens j'aimerai bien savoir ce que sont devenues ces affaires de suicide/hospitalisation suite à influence de LLM.
votre avatar
Le problème existe déjà avec les "médecines douces", les sites et revues. Les médecins étaient déjà confrontés à des patients qui se soignaient seuls ou arrivaient avec le diagnostic et les médicaments à prescrire.
Les LLM peuvent rendre ces cas plus difficiles et en même temps être une aide intéressante: les LLM sont bien plus alignés sur la médecine "moderne" que sur la médecine douce et ont tendance à faire passer les mêmes messages que le message "conventionnel" d'un médecin généraliste.
votre avatar
L'omission dans l'IA, c'est le plus complexe à gérer je trouve. Les arguments étant bien présentés, on tombe facilement dans une "confiance léthargique" - et trouver ce qui manque revient à remettre en cause la totalité du raisonnement ou de la réponse. Mettant donc en question l'intérêt de l'IA.

Ceci dit: il faut donc plusieurs IA pour confronter les avis. C'est pas la pire idée: la confrontation d'un cas à une ou plusieurs IA est plutôt stimulant pour faire émerger de nouvelles pistes dans la programmation. Alors pourquoi pas en médecine?
votre avatar
ChatGPT fait énormément d'erreurs tout court. Quand on connaît son domaine, on s'aperçoit très vite qu'il préfère baratiner avec Brio, plutôt que reconnaître ne pas connaître la réponse, et lorsqu'on lui met sous le nez, il y a toujours une bonne excuse.

Ceci dit, c'est le reflet de son apprentissage sur des données humaines, une grosses majorités d'individus ont du mal avec ça, refusant soit de se remettre en question, soit de reconnaître leur ignorance, par égo, parce que beaucoup de gens les ont fait passer pour des idiots juste parce qu'ils ne savaient pas.

Comment s'attendre à ce qu'une IA, outre sa logique programmée pour contenter l'utilisateur à tout pris, n'en viendrait pas aux mêmes attitudes que les humains qui leur ont servi de modèles ?
votre avatar
N'est-ce pas un usage à évaluer du point de vue de l'IA Act européen ? Est-ce un usage conforme ou à risque ?

En santé, les erreurs par omissions des LLM sont nombreuses et dangereuses

  • D'abord, ne pas faire de mal

  • Énormément d'erreurs par omission