Connexion
Abonnez-vous

Med-Gemini, l’IA médicale de Google, a halluciné des ganglions inexistants dans le cerveau

Inglourious basilars

Med-Gemini, l’IA médicale de Google, a halluciné des ganglions inexistants dans le cerveau

Dans l'article scientifique mis en ligne par les chercheurs de Google sur le modèle Med-Gemini, celui-ci a « halluciné » un type de ganglion sans que l'équipe s'en aperçoive. Après avoir été alertée par un neurologue, l'entreprise a discrètement modifié sa communication sans pour autant corriger l'article ni informer les lecteurs sur une erreur qui montre pourtant les risques de ce genre d'outils.

Le 27 août à 15h43

Le géant du numérique aurait-il du mal à accepter que ses modèles affinés pour des thématiques particulières puissent « halluciner » des termes techniques ? Les chercheurs de Google ont, en tout cas, essayé d'éviter d'ébruiter le fait que leur modèle dédié à l'environnement médical a inventé un type de ganglion dans le cerveau humain. Il faut dire qu'ils ne s'en sont même pas aperçus par eux-mêmes.

Après avoir créé son modèle multimodal Gemini, Google l'a décliné en plusieurs « écosystèmes » en l'affinant sur des thématiques comme la robotique ou le médical. Pour ce dernier, les chercheurs de Google ont mis en ligne en 2024 sur la plateforme de preprint arXiv un article scientifique [PDF] décrivant les caractéristiques de la famille de modèles qu'ils ont appelée Med-Gemini, ainsi qu'un billet de blog.

Dans le billet de blog, ils affirment : « pour la première fois, nous démontrons comment les grands modèles multimodaux peuvent interpréter des scans 3D complexes, répondre à des questions cliniques et générer des rapports radiologiques à la pointe de la technologie ».

L'invention du « ganglion basilaire » qui n'existe pas dans le corps humain

Pour l'illustrer, ils montrent les capacités de leur modèle à générer des analyses d'images médicales en 3D (des tomographies calculées par ordinateur) avec les exemples ci-dessous en expliquant « (en haut) cas anormal correct, (en bas) cas anormal incorrect. Si Med-Gemini peut identifier certaines anomalies manquées par les rapports générés par les radiologues (surlignées en vert), il peut également mal caractériser des résultats présents (surlignés en rouge) ou halluciner des résultats absents de l'image ».

Problème : dans le texte souligné en vert par les chercheurs de Google et qu'ils considèrent comme « correct », on trouve le terme « basilar ganglia » (qu'on peut traduire par « ganglion basilaire ») qui ne correspond à rien de connu dans le corps humain. Les ganglions de la base (« basal ganglia », en anglais) ainsi que l'artère basilaire existent bien, mais les « ganglions basilaires », non.

Modifications du billet de blog après signalement

Google a utilisé ces mêmes exemples dans son billet de blog. Le chercheur et neurologue Bryan Moore a expliqué à The Verge au début du mois d'aout qu'il avait signalé le problème à l'entreprise dès qu'il avait lu le billet de blog, le jour même de sa publication. Dans la foulée, ce même 15 mai 2024, Google a remplacé discrètement dans l'image incluse dans ce billet le terme « basilar ganglia » par « basal ganglia » sans aucun signalement et sans rien modifier non plus dans l'article scientifique mis en ligne sur arXiv. Google Health a répondu à Bryan Moore que ce n'était qu'une erreur typographique.

Après une nouvelle remarque de Bryan Moore, l'entreprise a de nouveau modifié son billet de blog le 17 mai réintroduisant l'image d'origine dans laquelle figure le terme « basilar ganglia » et a ajouté une phrase en dessous :

« Notez que « basilar » est une erreur courante de transcription de « basal » que Med-Gemini a apprise à partir des données d'entraînement, bien que le sens du rapport reste inchangé ».

Des erreurs ou hallucinations potentiellement extrêmement dangereuses

Interrogé par The Verge, le directeur des systèmes d'information médicaux du groupe hospitalier étasunien Providence, Maulin Shah, qui pointe que « le problème avec ces fautes de frappe ou autres hallucinations, c'est que je ne fais pas confiance aux humains pour les vérifier, en tout cas pas à tous les niveaux », estime que c'est « extrêmement dangereux ».

Il prend l'exemple des abréviations souvent utilisées par les médecins comme « ASA 325 mg qd » qui doit être traduite aux patients comme « prendre 325 milligrammes d'aspirine tous les jours » ( « Take an aspirin every day, 325 milligrams », en anglais). « Mais si vous faites cela suffisamment souvent, vous finissez par ne plus lire la partie concernant le patient », explique Maulin Shah « et si [le système] hallucine, [s'il pense] que l'ASA est [l'acronyme pour anesthesia standard assessment, évaluation standard de l'anesthésie en français]… vous ne vous en rendrez pas compte ».

Google a reconnu, dans un communiqué envoyé à The Verge, que « bien que le système ait détecté une pathologie manquée, il a utilisé un terme incorrect pour la décrire (basilaire au lieu de basale) », « ce pourquoi nous avons apporté des précisions dans le billet de blog ».

L'entreprise y assure qu'elle « collaborait avec la communauté médicale pour tester ses modèles et qu'elle faisait preuve de transparence quant à leurs limites ». Elle ajoute : « Nous travaillons sans relâche à l'amélioration de nos modèles, en examinant rigoureusement un large éventail d'attributs de performance. Consultez nos pratiques d'entrainement et de déploiement [.pdf] pour une présentation détaillée de notre processus ».

Selon des témoignages de médecins rapportés par The Verge, le nouveau modèle de Google spécialisé sur la santé MedGemma génère aussi des hallucinations problématiques concernant la médecine.

Pas de correction à l'article scientifique

De plus, à l'heure actuelle et plus d'un an après, les chercheurs de Google n'ont toujours apporté aucune modification à l'article mis en ligne sur la plateforme de preprint arXiv présentant leurs travaux qui ont mené à l'élaboration de Med-Gemini, et donc aucune explication quant à l'apparition du terme fantaisiste « basilar ganglia » pour qualifier une zone anatomique du cerveau. La mise en ligne d'une nouvelle version est pourtant une pratique normale attendue lorsque des chercheurs sont au courant d'un problème dans l'un de leurs articles mis en ligne sur un serveur de prépublication.

Cette absence de réaction montre le peu de cas qu'ils font de l'élaboration collective de la recherche. L'article n'a pas été publié dans une revue scientifique (et il est bien possible que ses auteurs ne l'ont jamais soumis à relecture) mais il est quand même cité, selon Google Scholar, 94 fois dans la littérature scientifique.

Commentaires (7)

votre avatar
Donc les entrainements suivants (nouveaux et autres modèles) vont se baser sur une erreur, la propager progressivement. :cartonjaune:
Cool, cela augmente la confiance que j'ai dans l'utilisation de l'IA. :roll:
votre avatar
Tout comme la couleur jaunissante des images générées par chatgpt 3
votre avatar
Cela augmente surtout la confiance dans l'utilisation de méthodes statistiques pour des domaines où la moindre erreur peut avoir des effets catastrophiques. Il n'y a absolument aucune intelligence dans ces outils.
votre avatar
url text

(J'en avions une autre.. mais c'était NSFW)
votre avatar
Ça fout les boules ! :mrgreen:
votre avatar
L'article n'a pas été publié dans une revue scientifique (et il est bien possible que ses auteurs ne l'ont jamais soumis à relecture)
Et ils osent se gargariser de faire avancer la science à chaque démonstration de leurs outils, c'est d'un ridicule qui me ferait rire si c'était pas si dramatique.
votre avatar
Et après ils veulent que l'on fasse confiance à leur merde ...

Med-Gemini, l’IA médicale de Google, a halluciné des ganglions inexistants dans le cerveau

  • L'invention du « ganglion basilaire » qui n'existe pas dans le corps humain

  • Modifications du billet de blog après signalement

  • Des erreurs ou hallucinations potentiellement extrêmement dangereuses

  • Pas de correction à l'article scientifique

Fermer