Apprentissage fédéré et usage des mégadonnées : ce que l’IA peut pour la santé

Apprentissage fédéré et usage des mégadonnées : ce que l’IA peut pour la santé

... en collaboration avec l'intelligence humaine

Avatar de l'auteur

Mathilde Saliou

Publié dansSciences et espace

14/02/2023
3
Apprentissage fédéré et usage des mégadonnées : ce que l’IA peut pour la santé

Le 10 février s’est tenu le colloque « IA et mégadonnées : comment vont-elles révolutionner la recherche et la pratique médicale de demain ? » organisé par le Conseil d’État, la CNIL et l'alliance IHU-France des Instituts Hospitalo-Universitaires (IHU). Collecte des données, anonymisation, apprentissage fédéré… retour sur les préoccupations et opportunités évoquées lors de la rencontre. 

Que peut l’intelligence artificielle pour le domaine de la santé ? Après l’ouverture du colloque « IA et mégadonnées : comment vont-elles révolutionner la recherche et la pratique médicale de demain » au Conseil d’État, professionnels, chercheurs et régulateurs se sont succédé en diverses tables rondes pour évoquer les enjeux et les frictions auxquelles ils doivent répondre collectivement pour tirer profit des technologies algorithmiques émergentes.

Notre récapitulatif du colloque sur l’IA et les mégadonnées dans la santé :

Que ce soit « en termes économiques purs ou en termes de maintien de la santé publique », le secteur de la santé « est un moteur économique pour le pays », rappelle Sébastien Massart, directeur stratégique de Dassault Systèmes. Représentant 7% du PIB français, c’est l’un des plus gros employeurs en France, avec 2,5 millions d’équivalents temps plein, « et une part d’emplois technologiques forte ».

Or, dans cette part technologique comme dans les instances dirigeantes, on voit bien que l’intelligence artificielle est riche en opportunités. L’une de ses applications les plus prometteuses « est l’apprentissage profond appliqué aux mégadonnées, illustre la professeure des universités et praticienne hospitalière (PUPH) à l’AP-HP Valérie Paradis. Cela va permettre de les préparer, de les analyser, puis de réaliser des prédictions », et les applications toucheront tous les domaines pratiques : « la médecine prédictive, celle de précision, la médecine préventive et l’aide au diagnostic ».

En reconnaissance d’image, les progrès les plus flagrants

Pour ce dernier point, les progrès réalisés en traitement d’image sont clairs : les machines « facilitent déjà la détection de lésion en dermatologie, en ophtalmologie ». Dans ce type de discipline, les algorithmes aident à identifier les lésions, les classer, voire à formuler des pronostics.

Les images, surtout, sont sources d’un grand nombre d’informations « que l’œil humain ne voit pas, mais que la machine peut analyser ». Que ce soit « en termes de données macroscopiques, microscopiques ou moléculaires », énormément d’éléments qui nous étaient jusque-là inaccessibles le deviennent. L’IA permet par ailleurs de gérer quantité de données « dynamiques, temporelles », bref, de déployer de nouvelles modalités d’examens de suivi.

Les mégadonnées permettent aussi de reconnaître des critères cachés, renchérit le directeur général de l’IHU Liryc Pierre Jaïs : « des paramètres que seul le grand nombre peut dévoiler » et que l’humain aurait donc été en peine d’identifier.

Associé aux technologies d’imagerie 3D, cela permet aussi au médecin de mieux comprendre ce sur quoi il va opérer, illustre le cardiologue : « Le jumeau numérique du cœur d’un patient, cela améliore la compréhension, voire peut conduire à la modification du diagnostic. » Ce type d’application offre un net gain de temps « parce qu’on a pu effectuer des tests en ligne », ce qui permet ensuite d’opérer plus efficacement.

Directrice du Health Data Hub, Stéphanie Combes tient de son côté à souligner les usages envisageables des mégadonnées en termes macro, « pour de la prévision de réhospitalisations, par exemple, ou du suivi de l’évolution des épidémies ».

L’état des données, un défi à part entière

Avant de penser aux modèles d’apprentissage profond, il faut relever le défi de la numérisation. « En radiologie, tout est numérisé depuis longtemps, souligne Valérie Paradis. Mais en histologie [étude des cellules au microscope, ndlr] tout se fait encore en analogique, sur des lames de verre. » Pierre Jaïs cite de son côté le cas des électrocardiogrammes (ECG), « disponibles uniquement sous format papier, et c’est une spécificité française : en Hollande, les ECG sont accessibles en version numérique depuis 1992 ! »

Un autre enjeu consiste à définir ce qu’est, précisément, une donnée de santé pour la recherche, puis à établir comment les obtenir. Stéphanie Combes l’explique, ces informations « sont diverses, viennent de l’administratif, du médical pur, d’autres sources » et posent toutes sortes d’enjeux d’accessibilité. « Dans certains cas, on ne sait pas qui a quoi, on ne connaît pas non plus la qualité des données en question. »

Dans d’autres, comme dans le cas des séquences d’ADN et d’ARN, les bases existent, mais elles sont si vastes qu’il est complexe de les interroger. « On parle de plusieurs pétaoctets de données, une somme qui augmente tous les ans, c’est énorme », affirme Isabelle Ryl, directrice du Paris Artificial Intelligence Research Institute (PRAIRIE). Ce qu’il manque, pour se servir de cette manne, ce sont des acteurs « qui stockent, qui nettoient, qui donnent accès, sans réinventer la roue à chaque fois. En gros, il nous manque le moteur de recherche qui permettra d’interroger ces gigantesques bases de données. »

Propriété intellectuelle et encadrement de l’usage des données de santé

« Nous avons besoin de travailler sur l’identification et l’interopérabilité des données, agrée le directeur de l’IHU ICAN Stéphane Hatem. Mais nous avons aussi besoin de trancher les questions de propriété intellectuelles, celle d’accès et de propriété des données, nous avons besoin de référentiels sur les manières de mener les anonymisations », car ces questions émergent très tôt dans les projets de recherche.

Lorsqu’il soulève ces points, la commissaire de la CNIL responsable des données de santé, Valérie Peugeot, reprend la mission d’évangélisation entamée plus tôt dans la matinée par la présidente de la CNIL Marie-Laure Denis sur le rôle de partenaire que souhaite jouer l’institution. « Ça n’est pas un hasard si notre direction de la conformité est devenue une direction de l’accompagnement à la conformité. » À raison puisque Stéphane Hatem répondra bientôt qu’il « découvre » la fonction d’accompagnement de la CNIL et qu’il se « félicite qu’elle puisse être un acteur opérationnel de terrain ».

Sur les cadres relatifs aux usages des données, c’est le représentant du service juridique de la Commission européenne, Antonios Bouchagiar, qui apporte des éléments de réponse. La volonté d’un espace européen des données de santé, explique-t-il, viendra cadrer aussi bien les utilisations primaires, « quand les données sont créées pour la première fois », que leurs usages secondaires, « pour faciliter la recherche, tout en gardant les principes européens de sécurité ».

« Nous avons des interrogations sur les usages secondaires, répond néanmoins Valérie Peugeot. En l’état, les textes semblent limiter le droit d’opposition à l’usage secondaire des données, nous en sommes inquiets. » Autre point d’attention : la question du lieu géographique où sont stockées et utilisées les données, que la CNIL voudrait voir inscrite noire sur blanc, en Europe. Antonios Bouchagiar explique que les débats sont en cours.

Anonymisation et données de synthèse

L’anonymisation des informations récupérées, elle, constitue un défi à part entière. Isabelle Ryl cite le groupe de travail de la professeure de mathématiques à l’École Polytechnique Stéphanie Allassonière, engagée sur ces questions, ou simplement l’état des débats de la communauté internationale, « très mobilisée sur la question de la création de mégadonnées non identifiables ».

Elle évoque, plus précisément, la piste des données « artificielles » : « Les chercheurs sont de gros consommateurs de données brutes, mais aussi de plus en plus producteurs de données synthétiques. » Peut-être, dans la lignée des débats sur les jumeaux numériques, y aurait-il moyen de créer des « patients artificiels », in silico, pour faciliter les expérimentations.

Comme souvent, cette nouvelle piste ne vient pas sans une nouvelle série de questionnements. À l’heure actuelle, illustre la directrice du PRAIRIE, « on n’est pas encore capable de dire à quel moment une donnée artificielle est suffisamment éloignée du patient pour ne plus lui appartenir ». Au croisement des problématiques de protection de la vie privée et de propriété intellectuelle, ce type d’interrogation est proche de celui que posent les intelligences artificielles génératives en matière de droits d’auteurs, souligne-t-elle.

Partage de valeurs : l’apprentissage fédéré comme solution ?

Pour Valérie Paradis comme pour plusieurs autres intervenants du colloque, les nouveaux modèles d’apprentissage fédéré présentent un potentiel certain. En effet, cette technique permet d’utiliser des données sur site, dans l’hôpital où elles ont été collectées, par exemple, sans les bouger, mais de partager le modèle – et donc les progrès d’entraînement que ces éléments lui permettent – entre différents acteurs.

Si son développement s’avère concluant, ce type de technologie pourrait aussi bien répondre aux préoccupations de protection des données qu’à celles, nécessaire, de création de modèles d’affaires adaptés à la gestion des mégadonnées de santé. Directeur Stratégie et Opérations chez Owkin, Jérôme Chevallier salue en effet la capacité de ces systèmes à « découpler l’information de la donnée elle-même, ce qui permet de protéger cette dernière » tout en tirant profit du modèle créé et entraîné ou des usages qui en sont faits.

En ce domaine, rien n’est encore arrêté. Pour Sébastien Massart (Dassault Systèmes), « le secteur de la santé est en train d’entrer dans l’économie de la connaissance. Il ne travaillait jusque-là que sur le matériel (la molécule, par exemple), il découvre le découplage qui peut exister entre le hardware et le software », le matériel et le logiciel. Comment s’en servir pour favoriser une recherche efficace ? Et créer un écosystème économique stable et profitable ? Rien n’est encore fixé, note-t-il.

Ce qui est certain, c’est qu’il y aura un coût « d’accès et d’entretien de la donnée, puis un coût industriel et scientifique pour établir les modèles et faire les recherches, et enfin la question des usages finaux. » Et d’appeler, comme la plupart des personnes présentes au Conseil d’État, à une coopération de tous les acteurs du secteur.

3
Avatar de l'auteur

Écrit par Mathilde Saliou

Tiens, en parlant de ça :

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

C’est comme CVSS 5.0 mais en moins bien

18:17 Sécu 1
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Géotechnopolitique

16:37 Web 19
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

Il faudrait déjà généraliser la fibre

16:03 HardWeb 19

Sommaire de l'article

Introduction

En reconnaissance d’image, les progrès les plus flagrants

L’état des données, un défi à part entière

Propriété intellectuelle et encadrement de l’usage des données de santé

Anonymisation et données de synthèse

Partage de valeurs : l’apprentissage fédéré comme solution ?

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

Sécu 1
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Web 19
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

HardWeb 19
Photo d'un immeuble troué de part en part

Règlement sur la cyber-résilience : les instances européennes en passe de conclure un accord

DroitSécu 7
lexique IA parodie

AGI, GPAI, modèles de fondation… de quoi on parle ?

IA 6

#LeBrief : logiciels libres scientifiques, fermeture de compte Google, « fabriquer » des femmes pour l’inclusion

livre dématérialisé

Des chercheurs ont élaboré une technique d’extraction des données d’entrainement de ChatGPT

IAScience 3
Un chien avec des lunettes apprend sur une tablette

Devenir expert en sécurité informatique en 3 clics

Sécu 11
Logo ownCloud

ownCloud : faille béante dans les déploiements conteneurisés utilisant graphapi

Sécu 16
Le SoC Graviton4 d’Amazon AWS posé sur une table

Amazon re:invent : SoC Graviton4 (Arm), instance R8g et Trainium2 pour l’IA

Hard 7
Logo Comcybergend

Guéguerre des polices dans le cyber (OFAC et ComCyberMi)

Sécu 10

#LeBrief : faille 0-day dans Chrome, smartphones à Hong Kong, 25 ans de la Dreamcast

Mur d’OVHcloud à Roubaix, avec le logo OVHcloud

OVHcloud Summit 2023 : SecNumCloud, IA et Local Zones

HardWeb 2
algorithmes de la CAF

Transparence, discriminations : les questions soulevées par l’algorithme de la CAF

IASociété 62

Plainte contre l’alternative paiement ou publicité comportementale de Meta

DroitIA 33
Nuage (pour le cloud) avec de la foudre

Économie de la donnée et services de cloud : l’Arcep renforce ses troupes

DroitWeb 0
De vieux ciseaux posés sur une surface en bois

Plus de 60 % des demandes de suppression reçues par Google émanent de Russie

Société 5
Une vieille boussole posée sur un plan en bois

La Commission européenne et Google proposent deux bases de données de fact-checks

DroitWeb 3

#LeBrief : des fichiers Google Drive disparaissent, FreeBSD 14, caméras camouflées, OnePlus 12

Le poing Dev – round 6

Next 148

Produits dangereux sur le web : nouvelles obligations en vue pour les marketplaces

Droit 9
consommation de l'ia

Usages et frugalité : quelle place pour les IA dans la société de demain ?

IA 12

La NASA établit une liaison laser à 16 millions de km, les essais continuent

Science 17
Concept de CPU

Semi-conducteurs : un important accord entre l’Europe et l’Inde

Hard 7

#LeBrief : PS5 Slim en France, Valeo porte plainte contre NVIDIA, pertes publicitaires X/Twitter

Un mélange entre une réunion d’Anonymous et de tête d’ampoules, pour le meilleur et le pire

651e édition des LIDD : Liens Intelligents Du Dimanche

Web 30
Bannière de Flock avec des bomes sur un fond rouge

#Flock, le grand remplacement par les intelligences artificielles

Flock 34
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #9 : LeBrief 2.0, ligne édito, dossiers de fond

Next 65
Pilule rouge et bleue avec des messages codés

Encapsulation de clés et chiffrement d’enveloppes

Sécu 31
Empreinte digital sur une capteur

Empreintes digitales : les capteurs Windows Hello loin d’être exemplaires

Sécu 20

#LeBrief : succès du test d’Ariane 6, réparer plutôt que remplacer, Broadcom finalise le rachat de VMware

Puces en silicium

Apple ne paierait que peu de royalties à Arm pour ses puces

Hard 44

Des logiciels libres scientifiques français à l’honneur

SoftScience 4

Une femme dont le visage se reflète en morceaux dans une série de miroirs.

Pourquoi inclure des femmes si on peut les fabriquer ?

Société 24

Logo de Google sur un ordinateur portable

Google commencera son ménage dans les comptes non utilisés le 1er décembre

Web 7

Commentaires (3)


pamputt Abonné
Il y a 10 mois

Espérons que les scientifiques ne se laisseront pas bernés par les industriels et que les données de santé resteront extrêmement bien protégées et ne pourront être exploitées que si elles sont complètement anonymes, et on sait que ce dernier point est très loin d’être simple à satisfaire.


darkjack Abonné
Il y a 10 mois

gros + 1



Et certains scientifiques ont du mal a comprendre / accepter, les conditions imposées pour l’usage de données patients, même anonymisées. Y compris chez les data scientist…



Un chercheur m’expliquait combien il était simple de désanonymiser certaines données.
Du coup, faut vraiment que l’accès soit blindé…
Ces données, c’est un peu le graal pour les compagnies d’assurances, les recruteurs, etc…


numerid Abonné
Il y a 10 mois

(reply:2119820:pamputt) Et que tout cela reposera sur des formats ouverts.