Covid-19 : des centaines d'IA entraînées à tort et à travers

Covid-19 : des centaines d’IA entraînées à tort et à travers

IA pas bon corona

Avatar de l'auteur
Jean-Marc Manach

Publié dans

Sciences et espace

16/08/2021 8 minutes
31

Covid-19 : des centaines d'IA entraînées à tort et à travers

Des centaines de projets d'intelligence artificielle et d'outils prédictifs ont été développés afin de lutter contre la pandémie de Covid-19. Plusieurs études viennent de conclure, coup sur coup, que le résultat n’était pas à la hauteur des espérances : « aucun d'entre eux n'a fait une réelle différence, certains étaient potentiellement nocifs ».

Le Turing Institute, centre national britannique pour la science des données et l'IA, a récemment rendu public un rapport issu d'une série d'ateliers organisés fin 2020. En se basant sur les contributions de la communauté britannique, la centaine d'experts en science des données pointait du doigt « l'importance – et parfois le manque – de données solides et opportunes », ils estiment en effet que « de meilleures données permettraient une meilleure réponse ».

En outre, « des problèmes d'inégalité et d'exclusion liés à la science des données et à l'IA sont apparus pendant la pandémie. Ceux-ci comprenaient des préoccupations concernant la représentation inadéquate de groupes minoritaires dans les données et le faible engagement avec ces groupes, ce qui pourrait biaiser la recherche et les décisions politiques. »

En se basant sur ce rapport, le rédacteur en chef de la section intelligence artificielle (IA) de la Technology Review du MIT, Will Douglas Heaven, affirme que les chercheurs seraient arrivés à un « consensus clair » : « les outils d'IA n'avaient que peu, voire aucun, impact dans la lutte contre la covid-19 ». Il dresse un inventaire à la Prévert des ratés les plus notables identifiés dans deux nouvelles études qu'il qualifie de « majeures » :

  • des IA, entraînées à reconnaître les signes d'absence de Covid-19 sur un ensemble de données comportant des scanners thoraciques d'enfants, ont appris à identifier les enfants, et non l'absence de Covid-19 ;
  • une IA, dont le modèle reposait sur des données contenant un mélange d'analyses prises lorsque les patients étaient allongés et debout, a appris à tort à prédire un risque de Covid-19 grave à partir de la position d'une personne, parce que les patients scannés en position couchée étaient plus susceptibles d'être gravement malades ;
  • d'autres IA se sont focalisées sur les polices de caractère utilisées pour étiqueter les scans, et conclu que les polices utilisées par des hôpitaux avec des charges de travail plus importantes étaient prédictrices de risques de Covid-19.

Un rappel que derrière le terme galvaudé d'« intelligence artificielle », il n'y a pour le moment pas d'intelligence (ni de magie). Et que la pertinence des résultats obtenus par un modèle entraîné sur la base d'un jeu de données dépend de nombreux facteurs, dont la qualité de ces données, les critères et méthode d'entraînement, etc.

Garbage In, Garbage Out

Lorsque la Covid-19 est arrivée en Europe, « les médecins n'avaient vraiment aucune idée de la façon de gérer ces patients », explique Laure Wynants, épidémiologiste à l'Université de Maastricht aux Pays-Bas, qui étudie les outils prédictifs. « S'il y a un moment où l'IA pouvait prouver son utilité, c'était là […] J'avais de l'espoir », ajoute-t-elle. « Cela n'est jamais arrivé, mais pas par manque d'effort », analyse Will Douglas Heaven.

Auteure principale d'une étude parue dans le British Medical Journal, Wynants se dit « choquée » des résultats de l'analyse faite de 232 algorithmes censés améliorer le diagnostic des patients ou prédire à quel point les personnes contaminées pouvaient tomber malade : « cela a dépassé mes craintes ».

Une autre étude, menée par Derek Driggs, chercheur en apprentissage automatique à l'Université de Cambridge, et publiée dans Nature Machine Intelligence, va dans le même sens. Son équipe s'est concentrée sur des modèles d'apprentissage profond censés diagnostiquer la Covid-19 et prédire le risque pour le patient à partir d'images médicales, telles que des radiographies pulmonaires et des tomodensitogrammes thoraciques. Sur les 415 outils examinés, « aucun n'était adapté à une utilisation clinique » selon Heaven.

« Les deux équipes ont découvert que les chercheurs répétaient les mêmes erreurs de base dans la façon dont ils formaient ou testaient leurs outils », écrit le rédacteur en chef de la Technology Review du MIT. « Des hypothèses incorrectes sur les données signifiaient souvent que les modèles entraînés ne fonctionnaient pas comme prévu ».

De nombreux problèmes seraient également liés à la mauvaise qualité des données utilisées par les chercheurs pour développer leurs outils. L'urgence face à la progression de la pandémie a amené certains d'entre eux à vouloir aider trop rapidement, quitte à utiliser des « données mal étiquetées ou provenant de sources inconnues ».

« Au final, plusieurs centaines d'outils prédictifs ont été développés. Aucun d'entre eux n'a fait une réelle différence, certains étaient potentiellement nocifs », affirme Heaven. Des « attentes irréalistes » et le « battage médiatique » encouragent l'utilisation de ces outils « avant qu'ils ne soient prêts », certains ayant même été commercialisés par des entreprises privées. « Je crains qu'ils aient pu nuire aux patients », déplore pour sa part Wynants.

De plus, relève Heaven, de nombreux outils ont été développés « soit par des chercheurs en IA qui n'avaient pas l'expertise médicale pour repérer les défauts dans les données, soit par des chercheurs en médecine qui n'avaient pas les compétences mathématiques pour compenser ces défauts ».

S’il partage le triste constat sur la question des données, le Turing Institute est plus nuancé dans le résumé de son rapport, voyant tout de même « certains aspects positifs » dans la réponse apportée par l’IA : « Les chercheurs ont répondu à la crise avec ingéniosité et détermination, le résultat a été une série de nouveaux projets et de collaborations qui ont éclairé la réponse à la pandémie et ouverts de nouveaux domaines pour de futures études ». 

Vers un partage international des données de santé ?

« Wynants et Driggs croient toujours que l'IA a le potentiel d'aider » ajoute Heaven. Le plus simple serait déjà que les équipes d'IA collaborent davantage avec les cliniciens, explique Driggs. Partager leurs modèles et divulguer comment ils ont été formés afin que d'autres puissent les tester et s'appuyer sur eux. « Ce sont deux choses que nous pourrions faire aujourd'hui », dit-il. « Et ils résoudraient peut-être 50 % des problèmes identifiés ».

Un autre souci remonté par les scientifiques interviewés par Heaven est que « la plupart des chercheurs se sont précipités pour développer leurs propres modèles, plutôt que de travailler ensemble ou d'améliorer ceux qui existent déjà ». Et ce, notamment parce qu'ils n'ont guère d'« incitations professionnelles à partager leurs travaux ou à valider des résultats existants », déplore Heaven :

« Le résultat a été que l'effort collectif des chercheurs du monde entier a produit des centaines d'outils médiocres, plutôt qu'une poignée d'outils correctement formés et testés. »

Pour résoudre ce problème, l'Organisation Mondiale de la Santé (OMS) envisagerait un « contrat de partage de données d'urgence qui entrerait en vigueur lors de crises sanitaires internationales » ajoute-t-il.

Cela permettrait aux chercheurs de « déplacer plus facilement les données à travers les frontières », explique Bilal Mateen, médecin dirigeant l'équipe de technologie clinique du Wellcome Trust, une organisation caritative mondiale de recherche en santé basée à Londres.

Avant le sommet du G7 au Royaume-Uni en juin, les principaux groupes scientifiques des pays participants ont également appelé à « la préparation des données » en vue de futures urgences sanitaires. Des initiatives et appels au changement qu'Heaven qualifie d'« un peu vagues » et au « relent de vœu pieux ».

Pour autant, Mateen en appelle à une approche « naïvement optimiste ». Avant la pandémie, l'élan pour de telles initiatives était en effet au point mort. « J'avais l'impression que la montagne était trop haute pour faire de la randonnée et que la vue n'en valait pas la peine », explique-t-il. La « Covid-19 a remis tout cela à l'ordre du jour ».

« Jusqu'à ce que nous acceptions l'idée que nous devons régler les problèmes peu sexy avant les plus sexy, nous sommes condamnés à répéter les mêmes erreurs », précise Mateen. « C'est inacceptable si cela n'arrive pas. Oublier les leçons de cette pandémie est irrespectueux envers ceux qui sont décédés ».

Écrit par Jean-Marc Manach

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Garbage In, Garbage Out

Vers un partage international des données de santé ?

Fermer

Commentaires (31)


Article très intéressant. :yes:



“Un rappel que derrière le terme galvaudé d’« intelligence artificielle », il n’y a pour le moment pas d’intelligence (ni de magie). Et que la pertinence des résultats obtenus par un modèle entraîné sur la base d’un jeu de données dépend de nombreux facteurs, dont la qualité de ces données, les critères et méthode d’entraînement, etc.”



Tellement vrai ça… :ouioui:



J’aime bien aussi le sous-titre… :D


+1



merci pour l’article



j’aime beaucoup cette idée que la police de caractère des étiquettes des scans puisse indiquer si le patient est atteint ou pas
je ris, mais jaune quoi :/



j’espère que ça n’a été utilisé que pour des tests et que les soucis ont été identifiés avant la mise sur le marché ou l’utilisation réelle de ces outils


Merci pour l’article. Et merci d’avoir rappelé que l’“intelligence artificielle” n’est pas “intelligente” ; on l’oublie trop souvent. Il faut plutôt voir ça comme un méga-fit. Ca trouve un minimum qui n’est pas forcément celui auquel on s’attend. Et vu que c’est un fit qui n’est pas basé sur un modèle physique, on a pour le moment aucun moyen d’interpréter le résultat trouvé : on est face à une boite noire qui mange des données d’entrée et qui sortira toujours un résultat dont la validité n’est pas toujours simple à évaluer.


Je trouve l’article bien trop optimiste. Ce serait la faute des données ? Alors que jusqu’ici seuls les tests se sont montrés efficaces, l’IA n’apporte rien ici.


L’IA est un ensemble d’outil pour analyser en même temps des tonnes de paramètres, ou même de détecter des paramètres qui ne sont pas imaginés par l’être humain.
Mais il faut être capable de lui fournir un jeu de données non biaisé, suffisamment conséquent, et de relancer l’apprentissage en excluant les “fausses pistes”.
Quand je vois les jeux de données pour la vision, c’est un travail titanesque car on “montre” généralement à l’IA les zones intéressantes.



Mais bon, j’ai toujours dit que le métier “d’éducateur/rééducateur d’IA” va émerger :)


Cela me fait penser à la trilogie des rifters. Les IAs sont qualifiées de “fromage de tête”. Une IA devait se charger de synchroniser l’ouverture des portes de trains qui voyagent sous vide. Un jour il y a un accident car la porte c’est ouverte avant l’arrivée du train entraînant la mort des passagers. Ils se sont rendu compte que l’IA avait fait une corrélation entre une horloge sur le quai et les horaires d’arrivées. Sauf que ce jour là quelq’un avait cassée l’horloge. Epic fail :eeek2:



Le problème de ses IA c’est qu’on ne peut pas vraiment débuger une grosse matrice de points


Dans le même genre, il y avait une IA capable de reconnaître les chevaux sur une photo.
Une fois en production, elle reconnaissait que dalle.



En fait, elle avait assimilé le logo présent sur chaque photo de test comme étant un cheval. :transpi:


Arcy

Dans le même genre, il y avait une IA capable de reconnaître les chevaux sur une photo.
Une fois en production, elle reconnaissait que dalle.



En fait, elle avait assimilé le logo présent sur chaque photo de test comme étant un cheval. :transpi:


Bien joué. Le patch proposé est de tatouer tous les chevaux


Arcy

Dans le même genre, il y avait une IA capable de reconnaître les chevaux sur une photo.
Une fois en production, elle reconnaissait que dalle.



En fait, elle avait assimilé le logo présent sur chaque photo de test comme étant un cheval. :transpi:


on le voit bien : TOUT dépend
“de ce que l’on donne à manger’*
à la machine pour son apprentissage ???




  • base de données=faut tout prévoir car avec la machine ce sera “1 ou 0’ (bon/mauvais) :windu:


Arcy

Dans le même genre, il y avait une IA capable de reconnaître les chevaux sur une photo.
Une fois en production, elle reconnaissait que dalle.



En fait, elle avait assimilé le logo présent sur chaque photo de test comme étant un cheval. :transpi:


En fait quand je lis vos retours d’expérience sur l’IA, j’ai l’impression que ce sont simplement des gamins à qui on a appris une chose fausse et qu’ils la répètent bêtement.


SebGF

En fait quand je lis vos retours d’expérience sur l’IA, j’ai l’impression que ce sont simplement des gamins à qui on a appris une chose fausse et qu’ils la répètent bêtement.


Le vrai problème de l’IA, c’est surtout que c’est une boite noire. Pas moyen de savoir comment elle parvient à tel ou tel résultat.
Si ça n’avait pas été le cas, les corrections auraient été beaucoup plus rapide.



the_frogkiller a dit:


Cela me fait penser à la trilogie des rifters. Les IAs sont qualifiées de “fromage de tête”. Une IA devait se charger de synchroniser l’ouverture des portes de trains qui voyagent sous vide. Un jour il y a un accident car la porte c’est ouverte avant l’arrivée du train entraînant la mort des passagers. Ils se sont rendu compte que l’IA avait fait une corrélation entre une horloge sur le quai et les horaires d’arrivées. Sauf que ce jour là quelq’un avait cassée l’horloge. Epic fail :eeek2:



Le problème de ses IA c’est qu’on ne peut pas vraiment débuger une grosse matrice de points




J’ai déjà entendu cette histoire mais je n’ai jamais réussi à mettre la main sur une source certifiant sa véracité. Est ce que tu as sous la main ?


Non désolé c’est ce que j’ai pu en lire dans “La recherche” et autres. Pour les premières IA c’était déjà compliqué de savoir ce qu’elles faisaient car faute de puissance de calcul disponible les données en entrée étaient pretraitees mais maintenant on se passe de cette première étape et donc on donne les données brutes en entrée



des IA, entraînées à reconnaître les signes d’absence de Covid-19 sur un ensemble de données comportant des scanners thoraciques d’enfants, ont appris à identifier les enfants, et non l’absence de Covid-19 ;




L’IA marche très bien, elle a caractérisé les données d’entrée correctement. :yes:
Sauf que ce n’est pas cette caractérisation qui était attendue. :langue:


Ça me fait penser à une conférence sur les biais d’apprentissage de l’IA.
L’oratrice prenait comme exemple une ia entraînée a reconnaître des carpes. Sauf que les images d’entrée étaient exclusivement des photos de pêcheurs qui tenaient leur prise.
Résultat: pour l’IA, une carpe correspondait aux doigts du pêcheur qui tenait le poisson 🤣


Gênial, cela fait penser à l’histoire de l’homme blanc qui coupe du bois et qui demande à l’amérindien si l’hiver sera rude.



the_frogkiller a dit:


Non désolé c’est ce que j’ai pu en lire dans “La recherche” et autres. Pour les premières IA c’était déjà compliqué de savoir ce qu’elles faisaient car faute de puissance de calcul disponible les données en entrée étaient pretraitees mais maintenant on se passe de cette première étape et donc on donne les données brutes en entrée




Sauf à travailler sur une IA qui est capable seule d’apprendre de ses erreurs, et donc de revoir sa base d’apprentissage en fonction de ses erreurs de sortie, on est toujours obligé de prétraiter un minimum les données d’entrée.



Exemple: on ne peut utiliser une IA que dans l’amplitude de sa base d’apprentissage. Si vous utilisez une base uniquement constituée de données pédiatriques, vous ne pourrez pas utiliser l’IA pour des adultes.



Exemple 2: si dans votre base d’apprentissage vous avez des sous domaines sur représentés, l’IA aura du mal à fournir des résultats cohérents en dehors de ces sous domaines.



L’une des conclusions de cette news est donc très juste: il faut que les spécialistes de l’IA et ceux du domaine de la santé travaillent ensemble pour d’un côté expliquer les contraintes de l’IA et de l’autre arriver à sélectionner un jeu de données d’apprentissage cohérents.


Ce que je disais c’est qu’avant ce n’est pas l’image qui était traitée mais le résultat d’un autre algo alors que maintenant avec les puissances de calcul disponible c’est directement l’image qui est digérée par l’IA. Ce complexifie encore plus la compréhension de ce que l’on obtient


L’IA est comme un génie, elle fait un vœu, mais si la requête n’est pas parfaite à 100 % (données d’entrée), il y a un risque très élevé que le résultat attendu ne soit pas le bon, mais plus vous protégez votre requête (il n’est pas possible d’obtenir une requête parfaite à 100 %, je pense), plus il sera difficile de savoir si c’est un mauvais résultat, donc, nous nous fierons au modèle, parce qu’il est vrai jusqu’à preuve du contraire.



Lorsque vous entraînez une IA à reconnaître si c’est un loup ou un chien et que votre résultat est trop “parfait”, il est assez facile d’imaginer des scénarios pour tester l’IA, mais lorsque le problème vient de la police qui écrit sur les étiquettes, c’est déjà beaucoup plus perché comme méthode d’analyse que l’IA a créée, il faut donc être aussi perché pour créer le scénario pour tester ce bug potentiel.


Tu ne voulais pas plutôt parler de résultat obtenu ?



carbier a dit:


Exemple: on ne peut utiliser une IA que dans l’amplitude de sa base d’apprentissage. Si vous utilisez une base uniquement constituée de données pédiatriques, vous ne pourrez pas utiliser l’IA pour des adultes.




Exemple: si votre base d’apprentissage est une tonne de livres de littérature, votre IA sera peu adaptée à répondre à des questions en tant que Chatbot…


des IA, entraînées à reconnaître les signes d'absence de Covid-19 sur


un ensemble de données comportant des scanners thoraciques d’enfants
ont appris à identifier les enfants, et non l’absence de Covid-19 ;



une IA, dont le modèle reposait sur des données contenant un mélange d'analyses prises lorsque les patients étaient allongés et debout, a appris à tort à prédire un risque de Covid-19 grave à partir de la position d'une personne, parce que les patients scannés en position couchée étaient plus susceptibles d'être gravement malades ;

d'autres IA se sont focalisées sur les polices de caractère utilisées pour étiqueter les scans, et conclu que les polices utilisées par des hôpitaux avec des charges de travail plus importantes étaient prédictrices de risques de Covid-19.


tout ça me rassure !
(et…c’est ‘demain que l’IA.’ pourra remplacer l’Humain)=youpi !!! :langue:



vizir67 a dit:


tout ça me rassure ! (et…c’est ‘demain que l’IA.’ pourra remplacer l’Humain)=youpi !!! :langue:




Pour moi, ce qu’il faut comprendre, c’est que la “démocratisation” des outils d’IA correspond aussi à une “démocrétinisation” de la population qui utilise ces outils.



Les outils d’IA, c’est vraiment puissant. Mais faire manger à des IA des images sans réfléchir en se disant qu’elle va toute seule trouver les 7 différences … c’est oublier qu’elle va en trouver 7000 des différences…



C’est comme les histoires d’algo de reconnaissance faciale qui ne fonctionnaient pas sur les populations non-blanche … essentiellement parce qu’on avait oublié de tester sur autre chose que des blancs.



En fait, sans diriger l’apprentissage selon les axes qu’on veut, on est sûr que l’IA n’apprendra pas ce qu’on veut.
Mais on pourrait le “deviner” souvent avec les courbes que sortent les algos d’apprentissage, ou lors des phases de test où l’on vérifie manuellement que l’IA a le même avis que nous.



L’outil est bon, mais ce n’est pas non plus un truc ultra magique. Par contre, c’est un outil qui est capable de trouver des groupes/des conclusions/extrapoler sur plus de 3 axes, ce que très peu d’humain savent faire (va représenter des données qui varient selon 7 axes).



C’est aussi un outil capable de te dire si dans les 20 axes que tu lui as fourni, on peut trouver des méta-axes ou s’il y a des axes qui sont non pertinents.



vizir67 a dit:


TOUT dépend “de ce que l’on donne à manger’




Faut leur donner du poisson, ça rend intelligent. :francais:


bof
cf l’histoire de carpe de



:D



Winderly a dit:


Tu ne voulais pas plutôt parler de résultat obtenu ?




Oui tu a raison



(quote:1891262:brice.wernet)
il faut être capable de lui fournir un jeu de données non biaisé, suffisamment conséquent, et de relancer l’apprentissage en excluant les “fausses pistes”.




Utopie !




(quote:1891262:brice.wernet)
Mais bon, j’ai toujours dit que le métier “d’éducateur/rééducateur d’IA” va émerger :)




Data scientist ? ;)


Le pire est l’excès d’apprentissage : tu formes ton réseau neuronale, il commence à trouver des trucs, tu continues, et si tu le “gaves” trop il commence à apprendre les biais de ton modèle de données (y’en a toujours :-/ )



fofo9012 a dit:


Le pire est l’excès d’apprentissage : tu formes ton réseau neuronale, il commence à trouver des trucs, tu continues, et si tu le “gaves” trop il commence à apprendre les biais de ton modèle de données (y’en a toujours :-/ )




Ou alors il devient bien trop précis…


Celui qui écrit en Comic Sans MS est forcément contaminé :transpi:



SebGF a dit:


En fait quand je lis vos retours d’expérience sur l’IA, j’ai l’impression que ce sont simplement des gamins à qui on a appris une chose fausse et qu’ils la répètent bêtement.




Le sophisme artificiel…