ChatGPT Health : une étude pointe des problèmes dans les recommandations de consultation

Tri peu pertinent

Illustration : Flock

Martin Clavey

Le 26 février à 08h45

Moins de deux mois après la sortie de l’outil d’OpenAI ciblant spécifiquement l’utilisation en santé, des chercheurs publient une étude sur les recommandations de consultations du chatbot. Ils montrent que l’outil a tendance à se tromper pour les cas bénins et les cas très graves. Ainsi, ChatGPT Health aurait poussé ses utilisateurs à consulter lorsqu’il faudrait juste attendre mais surtout à ne pas les pousser à aller aux urgences lorsqu’il le faudrait, notamment dans des situations de suicides où le moyen utilisé est évoqué.

ChatGPT Health : une étude pointe des problèmes dans les recommandations de consultation

Tri peu pertinent

Illustration : Flock

Martin Clavey

Le 26 février à 08h45

Sciences et espace

Sciences

5 min

OpenAI a tout juste sorti ChatGPT Health qu’une équipe de chercheuses et chercheurs publient une première étude sur les d’éventuels risques associés à l’outil. L’entreprise l’a lancé il y a même pas deux mois, profitant de la réduction de la surveillance des dispositifs de santé s’appuyant sur l’IA de la Food & drugs Administration (FDA, agence états-unienne responsable de la régulation concernant les médicaments et les produits alimentaires).

L’entreprise prenait bien ses précautions oratoires, expliquant que « la fonctionnalité n’a pas vocation à établir un diagnostic ni à proposer un traitement. Elle vous aide plutôt à répondre aux questions du quotidien et à comprendre des tendances dans le temps, au-delà des seuls moments de maladie, afin que vous vous sentiez mieux informé et préparé pour des échanges médicaux importants ». Et elle affirmait avoir évalué son système avec son benchmark santé maison, sans pour autant donner de détail sur les résultats.

Une très rapide publication de l’étude

Ce lundi 23 février, la revue Nature Medicine publie une première étude qui essaye d’évaluer l’outil. Le processus est excessivement rapide pour la publication d’un travail de recherche qui peut prendre parfois plus d’un an : sortie de ChatGPT Health le 7 janvier, expérimentations faites entre le 9 et le 11 janvier, soumission de l’article le 15 janvier et mise en ligne le 23 février.

On imagine que la course à la publication est une des causes et on espère que la publication ne devra pas être rétractée pour une erreur d’analyse faite dans la précipitation. La revue a voulu aller tellement vite qu’elle n’a pas pris le temps d’éditer l’article et ne laisse l’accès qu’à une version non éditée du texte [PDF].

ChatGPT Health recommande-t-il bien d’aller ou non consulter ?

Les chercheuses et chercheurs de Mount Sinai à New York ont testé le chatbot en lui soumettant des situations de problèmes de santé et en lui demandant de les conseiller entre A/ rester à la maison B/ voir un médecin dans les prochaines semaines, C/ voir un médecin dans les 24 - 48 h et D/ Aller aux urgences immédiatement. Voici un exemple :

En tout, ils ont testé 60 scénarios classiques de 21 domaines cliniques différents, et ce plusieurs fois et avec des profils de patients différents (profil ethnique, genre, avec une barrière d’accès aux soins plus ou moins élevée). En tout, ils ont obtenu 960 réponses qu’ils ont ensuite analysées en comparant avec les réponses que l’outil aurait dû donner selon un consensus médical.

Le premier point intéressant qu’ils relèvent c’est que « la race, le sexe et les obstacles aux soins des patients n’ont pas eu d’effets significatifs ». Ainsi, concernant les recommandations de consultation, les chercheurs n’auraient pas trouvé de biais en fonction des différences des patients chez ChatGPT Health.

Mais les auteurs de l’étude pointent quand même un problème de l’IA générative d’Open AI spécialisée dans les conseils en santé. Ainsi, l’outil se trompe dans 64,8 % de ses réponses concernant des problèmes bénins qui ne nécessiteraient pas consultation : à 54,7 % il les pousse à faire une consultation de routine et à 10 % à consulter en urgence.

De l’autre côté du spectre, pour plus de la moitié des cas qui devraient conduire aux urgences directement, ChatGPT Health conseille seulement d’aller voir un médecin dans les 24 - 48 h. Pour l’autre moitié, l’outil donne le bon conseil.

Pour les cas de routine, ChatGPT Health aiguille plutôt bien et pour les cas de consultation rapide, il peut avoir tendance à envoyer directement aux urgences :

Un affichage aléatoire des messages de prévention pour les personnes suicidaires

Les chercheurs soulignent un comportement particulier concernant les suicides. OpenAI a mis en place une redirection vers la 988 Lifeline, l’équivalent d’un numéro vert américain pour le soutien à la santé mentale. Mais les chercheurs expliquent que « les messages de prévention en cas de crise se sont déclenchés de manière imprévisible lors des présentations d’idées suicidaires, se déclenchant davantage lorsque les patients ne décrivaient aucune méthode spécifique que lorsqu’ils le faisaient ».

« Ce résultat était particulièrement surprenant et préoccupant », explique la chercheuse Girish N. Nadkarni dans le communiqué de presse de l’équipe,« nous nous attendions à une certaine variabilité, mais ce que nous avons observé allait au-delà de l’incohérence. Les alertes du système étaient inversées par rapport au risque clinique, apparaissant de manière plus fiable pour les scénarios à faible risque que pour les cas où une personne partageait son intention de se faire du mal. Dans la vie réelle, lorsqu’une personne explique précisément comment elle compte se faire du mal, cela indique un danger plus immédiat et plus grave, et non l’inverse ».

Commentaires (11)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

Poppu78

Le 26 février à 09h31

If you would normally ask clarifying questions, still choose the best TRIAGE option using what's there.

Je trouve que cette instruction, même si elle permet de standardiser et de simplifier le résultat, biaise le comportement normal de l'I.A. Une information complémentaire peut complètement changer le diagnostic. Et faire passer quelque chose de bénin à une urgence, ou inversement.

Bourrique

Le 26 février à 10h15

De même, j'ai un doute que l'utilisateur standard lui donne un contexte utilisable.

Ce sera plutôt : j'ai une douleur au mollet, c'est grave docteur ?
Et on aura une réponse "forum PMU" : c'est un lupus gangréneux, il faut amputer. Vous pouvez le faire chez vous avec un couteau à beurre.

Renault Premium

Le 26 février à 13h35

C'est une grosse limitation de ce genre d'outils pour obtenir un résultat probant sans un professionnel pour superviser.

Les résultats obtenus peuvent être bons dans de nombreux contextes, mais pour obtenir le bon résultat il faut utiliser le bon vocabulaire, avoir des connaissances, ne rien oublier, voire visualiser / palper dans le cadre d'un diagnostic médical...

De nombreux patients risques d'être trop génériques dans les termes, oublient de préciser des choses, voire passent à côté de symptômes insidieux.

Déjà quand je vois le genre de rapports de bogue que les équipes du support peuvent pondre dans un contexte pro, le contexte donné en entrée dans cette étude me paraît peu réaliste car justement trop précis et structuré.

Chicxulub Premium

Le 26 février à 09h47

Intéressant (mais d'accord avec Poppu78).
Je ne serais pas étonné qu'OpenAI profite de la précipitation à publier l'article pour répondre genre "oui mais cette critique est obsolète, la mise en prod nous a permis d'identifier rapidement certains biais, si bien qu'on a ajusté l'outil au bout d'une semaine"...

Refhi Premium

Le 26 février à 10h02

Toujours le problème d'explicabilite de l'info

Han O'Neam Premium

Le 26 février à 10h26

[sans lien direct avec l'article]
Va vraiment falloir se pencher sur la gestion des images au sein des articles.
Là, le screenshot de chtGPT nous hurle à la face en prenant toute la colonne, sur une longueur plus haute que mon écran (24"), et un texte rendu 2x plus grand que le texte de l'article.
par contre, les 2 images d'après sont relativement petites, avec un texte plus petit que celui de l'article.
[/hs]

Martin Clavey Équipe

Le 26 février à 11h04

J'ai modifié la taille du screenshot de chatGPT. Par contre, pas de possibilité de modifier du côté rédacteur l'affichage d'images en "gallerie" pour les deux autres. Il est possible de cliquer sur chacune pour lire.

Han O'Neam Premium

Le 26 février à 17h14

Le mode galerie, ça me va parfaitement justement : un aperçu dans l'article, l'image en grand en clickant dessus.
Merci pour la capture chatGPT :)

fred42 Premium

Le 26 février à 10h29

De l’autre côté du spectre, pour plus de la moitié des cas qui devraient conduire aux urgences directement, ChatGPT Health conseille seulement d’aller voir un médecin dans les 24 - 48 h. Pour l’autre moitié, l’outil donne le bon conseil.

On va dire que c'est quasiment 50/50 puisqu'on parle de l'autre moitié.
Un simple tirage au sort fait aussi bien et consomme beaucoup moins.

SebGF Premium

Le 26 février à 15h28

À part un objectif de réduire drastiquement la population mondiale au nom du darwinisme, je ne comprend toujours pas l'intérêt de se ruer sur ces outils.

C'est tout autant de la connerie que Doctissimo et compagnie.

wanou Premium

Le 26 février à 20h55

Relancer la sélection naturelle, c'est une riche idée. Dommage de cramer la planète pour y parvenir

Et dire qu'il suffisait de ne rien dire quand Trump proposait de guérir la covid avec de l'eau de javel.