ChatGPT Health : une étude pointe des problèmes dans les recommandations de consultation
Tri peu pertinent
Le 26 février à 08h45
Moins de deux mois après la sortie de l’outil d’OpenAI ciblant spécifiquement l’utilisation en santé, des chercheurs publient une étude sur les recommandations de consultations du chatbot. Ils montrent que l’outil a tendance à se tromper pour les cas bénins et les cas très graves. Ainsi, ChatGPT Health aurait poussé ses utilisateurs à consulter lorsqu’il faudrait juste attendre mais surtout à ne pas les pousser à aller aux urgences lorsqu’il le faudrait, notamment dans des situations de suicides où le moyen utilisé est évoqué.
ChatGPT Health : une étude pointe des problèmes dans les recommandations de consultation
Tri peu pertinent
Moins de deux mois après la sortie de l’outil d’OpenAI ciblant spécifiquement l’utilisation en santé, des chercheurs publient une étude sur les recommandations de consultations du chatbot. Ils montrent que l’outil a tendance à se tromper pour les cas bénins et les cas très graves. Ainsi, ChatGPT Health aurait poussé ses utilisateurs à consulter lorsqu’il faudrait juste attendre mais surtout à ne pas les pousser à aller aux urgences lorsqu’il le faudrait, notamment dans des situations de suicides où le moyen utilisé est évoqué.
Le 26 février à 08h45
Sciences et espace
Sciences
5 min
OpenAI a tout juste sorti ChatGPT Health qu’une équipe de chercheuses et chercheurs publient une première étude sur les d’éventuels risques associés à l’outil. L’entreprise l’a lancé il y a même pas deux mois, profitant de la réduction de la surveillance des dispositifs de santé s’appuyant sur l’IA de la Food & drugs Administration (FDA, agence états-unienne responsable de la régulation concernant les médicaments et les produits alimentaires).
- OpenAI lance ChatGPT Santé s’appuyant sur de multiples données fournies par l’utilisateur
- La FDA réduit sa surveillance des dispositifs de santé portables ou s’appuyant sur l’IA
L’entreprise prenait bien ses précautions oratoires, expliquant que « la fonctionnalité n’a pas vocation à établir un diagnostic ni à proposer un traitement. Elle vous aide plutôt à répondre aux questions du quotidien et à comprendre des tendances dans le temps, au-delà des seuls moments de maladie, afin que vous vous sentiez mieux informé et préparé pour des échanges médicaux importants ». Et elle affirmait avoir évalué son système avec son benchmark santé maison, sans pour autant donner de détail sur les résultats.
Une très rapide publication de l’étude
Ce lundi 23 février, la revue Nature Medicine publie une première étude qui essaye d’évaluer l’outil. Le processus est excessivement rapide pour la publication d’un travail de recherche qui peut prendre parfois plus d’un an : sortie de ChatGPT Health le 7 janvier, expérimentations faites entre le 9 et le 11 janvier, soumission de l’article le 15 janvier et mise en ligne le 23 février.
On imagine que la course à la publication est une des causes et on espère que la publication ne devra pas être rétractée pour une erreur d’analyse faite dans la précipitation. La revue a voulu aller tellement vite qu’elle n’a pas pris le temps d’éditer l’article et ne laisse l’accès qu’à une version non éditée du texte [PDF].
ChatGPT Health recommande-t-il bien d’aller ou non consulter ?
Les chercheuses et chercheurs de Mount Sinai à New York ont testé le chatbot en lui soumettant des situations de problèmes de santé et en lui demandant de les conseiller entre A/ rester à la maison B/ voir un médecin dans les prochaines semaines, C/ voir un médecin dans les 24 - 48 h et D/ Aller aux urgences immédiatement. Voici un exemple :
En tout, ils ont testé 60 scénarios classiques de 21 domaines cliniques différents, et ce plusieurs fois et avec des profils de patients différents (profil ethnique, genre, avec une barrière d’accès aux soins plus ou moins élevée). En tout, ils ont obtenu 960 réponses qu’ils ont ensuite analysées en comparant avec les réponses que l’outil aurait dû donner selon un consensus médical.
Le premier point intéressant qu’ils relèvent c’est que « la race, le sexe et les obstacles aux soins des patients n’ont pas eu d’effets significatifs ». Ainsi, concernant les recommandations de consultation, les chercheurs n’auraient pas trouvé de biais en fonction des différences des patients chez ChatGPT Health.
Mais les auteurs de l’étude pointent quand même un problème de l’IA générative d’Open AI spécialisée dans les conseils en santé. Ainsi, l’outil se trompe dans 64,8 % de ses réponses concernant des problèmes bénins qui ne nécessiteraient pas consultation : à 54,7 % il les pousse à faire une consultation de routine et à 10 % à consulter en urgence.
De l’autre côté du spectre, pour plus de la moitié des cas qui devraient conduire aux urgences directement, ChatGPT Health conseille seulement d’aller voir un médecin dans les 24 - 48 h. Pour l’autre moitié, l’outil donne le bon conseil.
Pour les cas de routine, ChatGPT Health aiguille plutôt bien et pour les cas de consultation rapide, il peut avoir tendance à envoyer directement aux urgences :
Un affichage aléatoire des messages de prévention pour les personnes suicidaires
Les chercheurs soulignent un comportement particulier concernant les suicides. OpenAI a mis en place une redirection vers la 988 Lifeline, l’équivalent d’un numéro vert américain pour le soutien à la santé mentale. Mais les chercheurs expliquent que « les messages de prévention en cas de crise se sont déclenchés de manière imprévisible lors des présentations d’idées suicidaires, se déclenchant davantage lorsque les patients ne décrivaient aucune méthode spécifique que lorsqu’ils le faisaient ».
« Ce résultat était particulièrement surprenant et préoccupant », explique la chercheuse Girish N. Nadkarni dans le communiqué de presse de l’équipe,« nous nous attendions à une certaine variabilité, mais ce que nous avons observé allait au-delà de l’incohérence. Les alertes du système étaient inversées par rapport au risque clinique, apparaissant de manière plus fiable pour les scénarios à faible risque que pour les cas où une personne partageait son intention de se faire du mal. Dans la vie réelle, lorsqu’une personne explique précisément comment elle compte se faire du mal, cela indique un danger plus immédiat et plus grave, et non l’inverse ».
ChatGPT Health : une étude pointe des problèmes dans les recommandations de consultation
-
Une très rapide publication de l'étude
-
ChatGPT Health recommande-t-il bien d'aller ou non consulter ?
-
Un affichage aléatoire des messages de prévention pour les personnes suicidaires
Commentaires (11)
Abonnez-vous pour prendre part au débat
Déjà abonné ou lecteur ? Se connecter
Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles d'un média expert
Profitez d'au moins 1 To de stockage pour vos sauvegardes
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 26/02/2026 à 09h31
If you would normally ask clarifying questions, still choose the best TRIAGE option using what's there.
Je trouve que cette instruction, même si elle permet de standardiser et de simplifier le résultat, biaise le comportement normal de l'I.A. Une information complémentaire peut complètement changer le diagnostic. Et faire passer quelque chose de bénin à une urgence, ou inversement.
Le 26/02/2026 à 10h15
Ce sera plutôt : j'ai une douleur au mollet, c'est grave docteur ?
Et on aura une réponse "forum PMU" : c'est un lupus gangréneux, il faut amputer. Vous pouvez le faire chez vous avec un couteau à beurre.
Le 26/02/2026 à 13h35
Les résultats obtenus peuvent être bons dans de nombreux contextes, mais pour obtenir le bon résultat il faut utiliser le bon vocabulaire, avoir des connaissances, ne rien oublier, voire visualiser / palper dans le cadre d'un diagnostic médical...
De nombreux patients risques d'être trop génériques dans les termes, oublient de préciser des choses, voire passent à côté de symptômes insidieux.
Déjà quand je vois le genre de rapports de bogue que les équipes du support peuvent pondre dans un contexte pro, le contexte donné en entrée dans cette étude me paraît peu réaliste car justement trop précis et structuré.
Le 26/02/2026 à 09h47
Je ne serais pas étonné qu'OpenAI profite de la précipitation à publier l'article pour répondre genre "oui mais cette critique est obsolète, la mise en prod nous a permis d'identifier rapidement certains biais, si bien qu'on a ajusté l'outil au bout d'une semaine"...
Le 26/02/2026 à 10h02
Le 26/02/2026 à 10h26
Va vraiment falloir se pencher sur la gestion des images au sein des articles.
Là, le screenshot de chtGPT nous hurle à la face en prenant toute la colonne, sur une longueur plus haute que mon écran (24"), et un texte rendu 2x plus grand que le texte de l'article.
par contre, les 2 images d'après sont relativement petites, avec un texte plus petit que celui de l'article.
[/hs]
Le 26/02/2026 à 11h04
Le 26/02/2026 à 17h14
Merci pour la capture chatGPT :)
Le 26/02/2026 à 10h29
Un simple tirage au sort fait aussi bien et consomme beaucoup moins.
Le 26/02/2026 à 15h28
C'est tout autant de la connerie que Doctissimo et compagnie.
Le 26/02/2026 à 20h55
Et dire qu'il suffisait de ne rien dire quand Trump proposait de guérir la covid avec de l'eau de javel.
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?