Apprentissage fédéré et usage des mégadonnées : ce que l’IA peut pour la santé

... en collaboration avec l'intelligence humaine

Notre récapitulatif du colloque sur l’IA et les mégadonnées dans la santé :

Le 14 février 2023 à 14h15

10 min

Sciences et espace

Sciences

Le 10 février s’est tenu le colloque « IA et mégadonnées : comment vont-elles révolutionner la recherche et la pratique médicale de demain ? » organisé par le Conseil d’État, la CNIL et l'alliance IHU-France des Instituts Hospitalo-Universitaires (IHU). Collecte des données, anonymisation, apprentissage fédéré… retour sur les préoccupations et opportunités évoquées lors de la rencontre.

Que peut l’intelligence artificielle pour le domaine de la santé ? Après l’ouverture du colloque « IA et mégadonnées : comment vont-elles révolutionner la recherche et la pratique médicale de demain » au Conseil d’État, professionnels, chercheurs et régulateurs se sont succédé en diverses tables rondes pour évoquer les enjeux et les frictions auxquelles ils doivent répondre collectivement pour tirer profit des technologies algorithmiques émergentes.

Au conseil d’État, la quête d’un équilibre pour favoriser l’IA en santé
Apprentissage fédéré et usage des mégadonnées : ce que l’IA peut pour la santé

Que ce soit « en termes économiques purs ou en termes de maintien de la santé publique », le secteur de la santé « est un moteur économique pour le pays », rappelle Sébastien Massart, directeur stratégique de Dassault Systèmes. Représentant 7% du PIB français, c’est l’un des plus gros employeurs en France, avec 2,5 millions d’équivalents temps plein, « et une part d’emplois technologiques forte ».

Or, dans cette part technologique comme dans les instances dirigeantes, on voit bien que l’intelligence artificielle est riche en opportunités. L’une de ses applications les plus prometteuses « est l’apprentissage profond appliqué aux mégadonnées, illustre la professeure des universités et praticienne hospitalière (PUPH) à l’AP-HP Valérie Paradis. Cela va permettre de les préparer, de les analyser, puis de réaliser des prédictions », et les applications toucheront tous les domaines pratiques : « la médecine prédictive, celle de précision, la médecine préventive et l’aide au diagnostic ».

En reconnaissance d’image, les progrès les plus flagrants

Pour ce dernier point, les progrès réalisés en traitement d’image sont clairs : les machines « facilitent déjà la détection de lésion en dermatologie, en ophtalmologie ». Dans ce type de discipline, les algorithmes aident à identifier les lésions, les classer, voire à formuler des pronostics.

Les images, surtout, sont sources d’un grand nombre d’informations « que l’œil humain ne voit pas, mais que la machine peut analyser ». Que ce soit « en termes de données macroscopiques, microscopiques ou moléculaires », énormément d’éléments qui nous étaient jusque-là inaccessibles le deviennent. L’IA permet par ailleurs de gérer quantité de données « dynamiques, temporelles », bref, de déployer de nouvelles modalités d’examens de suivi.

Les mégadonnées permettent aussi de reconnaître des critères cachés, renchérit le directeur général de l’IHU Liryc Pierre Jaïs : « des paramètres que seul le grand nombre peut dévoiler » et que l’humain aurait donc été en peine d’identifier.

Associé aux technologies d’imagerie 3D, cela permet aussi au médecin de mieux comprendre ce sur quoi il va opérer, illustre le cardiologue : « Le jumeau numérique du cœur d’un patient, cela améliore la compréhension, voire peut conduire à la modification du diagnostic. » Ce type d’application offre un net gain de temps « parce qu’on a pu effectuer des tests en ligne », ce qui permet ensuite d’opérer plus efficacement.

Directrice du Health Data Hub, Stéphanie Combes tient de son côté à souligner les usages envisageables des mégadonnées en termes macro, « pour de la prévision de réhospitalisations, par exemple, ou du suivi de l’évolution des épidémies ».

L’état des données, un défi à part entière

Avant de penser aux modèles d’apprentissage profond, il faut relever le défi de la numérisation. « En radiologie, tout est numérisé depuis longtemps, souligne Valérie Paradis. Mais en histologie [étude des cellules au microscope, ndlr] tout se fait encore en analogique, sur des lames de verre. » Pierre Jaïs cite de son côté le cas des électrocardiogrammes (ECG), « disponibles uniquement sous format papier, et c’est une spécificité française : en Hollande, les ECG sont accessibles en version numérique depuis 1992 ! »

Un autre enjeu consiste à définir ce qu’est, précisément, une donnée de santé pour la recherche, puis à établir comment les obtenir. Stéphanie Combes l’explique, ces informations « sont diverses, viennent de l’administratif, du médical pur, d’autres sources » et posent toutes sortes d’enjeux d’accessibilité. « Dans certains cas, on ne sait pas qui a quoi, on ne connaît pas non plus la qualité des données en question. »

Dans d’autres, comme dans le cas des séquences d’ADN et d’ARN, les bases existent, mais elles sont si vastes qu’il est complexe de les interroger. « On parle de plusieurs pétaoctets de données, une somme qui augmente tous les ans, c’est énorme », affirme Isabelle Ryl, directrice du Paris Artificial Intelligence Research Institute (PRAIRIE). Ce qu’il manque, pour se servir de cette manne, ce sont des acteurs « qui stockent, qui nettoient, qui donnent accès, sans réinventer la roue à chaque fois. En gros, il nous manque le moteur de recherche qui permettra d’interroger ces gigantesques bases de données. »

Propriété intellectuelle et encadrement de l’usage des données de santé

« Nous avons besoin de travailler sur l’identification et l’interopérabilité des données, agrée le directeur de l’IHU ICAN Stéphane Hatem. Mais nous avons aussi besoin de trancher les questions de propriété intellectuelles, celle d’accès et de propriété des données, nous avons besoin de référentiels sur les manières de mener les anonymisations », car ces questions émergent très tôt dans les projets de recherche.

Lorsqu’il soulève ces points, la commissaire de la CNIL responsable des données de santé, Valérie Peugeot, reprend la mission d’évangélisation entamée plus tôt dans la matinée par la présidente de la CNIL Marie-Laure Denis sur le rôle de partenaire que souhaite jouer l’institution. « Ça n’est pas un hasard si notre direction de la conformité est devenue une direction de l’accompagnement à la conformité. » À raison puisque Stéphane Hatem répondra bientôt qu’il « découvre » la fonction d’accompagnement de la CNIL et qu’il se « félicite qu’elle puisse être un acteur opérationnel de terrain ».

Sur les cadres relatifs aux usages des données, c’est le représentant du service juridique de la Commission européenne, Antonios Bouchagiar, qui apporte des éléments de réponse. La volonté d’un espace européen des données de santé, explique-t-il, viendra cadrer aussi bien les utilisations primaires, « quand les données sont créées pour la première fois », que leurs usages secondaires, « pour faciliter la recherche, tout en gardant les principes européens de sécurité ».

Un futur règlement pour créer « l’espace européen des données de santé » (EHDS)

« Nous avons des interrogations sur les usages secondaires, répond néanmoins Valérie Peugeot. En l’état, les textes semblent limiter le droit d’opposition à l’usage secondaire des données, nous en sommes inquiets. » Autre point d’attention : la question du lieu géographique où sont stockées et utilisées les données, que la CNIL voudrait voir inscrite noire sur blanc, en Europe. Antonios Bouchagiar explique que les débats sont en cours.

Anonymisation et données de synthèse

L’anonymisation des informations récupérées, elle, constitue un défi à part entière. Isabelle Ryl cite le groupe de travail de la professeure de mathématiques à l’École Polytechnique Stéphanie Allassonière, engagée sur ces questions, ou simplement l’état des débats de la communauté internationale, « très mobilisée sur la question de la création de mégadonnées non identifiables ».

Elle évoque, plus précisément, la piste des données « artificielles » : « Les chercheurs sont de gros consommateurs de données brutes, mais aussi de plus en plus producteurs de données synthétiques. » Peut-être, dans la lignée des débats sur les jumeaux numériques, y aurait-il moyen de créer des « patients artificiels », in silico, pour faciliter les expérimentations.

Comme souvent, cette nouvelle piste ne vient pas sans une nouvelle série de questionnements. À l’heure actuelle, illustre la directrice du PRAIRIE, « on n’est pas encore capable de dire à quel moment une donnée artificielle est suffisamment éloignée du patient pour ne plus lui appartenir ». Au croisement des problématiques de protection de la vie privée et de propriété intellectuelle, ce type d’interrogation est proche de celui que posent les intelligences artificielles génératives en matière de droits d’auteurs, souligne-t-elle.

Getty poursuit un éditeur d’algorithme en justice pour violation des droits d’auteurs

Partage de valeurs : l’apprentissage fédéré comme solution ?

Pour Valérie Paradis comme pour plusieurs autres intervenants du colloque, les nouveaux modèles d’apprentissage fédéré présentent un potentiel certain. En effet, cette technique permet d’utiliser des données sur site, dans l’hôpital où elles ont été collectées, par exemple, sans les bouger, mais de partager le modèle – et donc les progrès d’entraînement que ces éléments lui permettent – entre différents acteurs.

Si son développement s’avère concluant, ce type de technologie pourrait aussi bien répondre aux préoccupations de protection des données qu’à celles, nécessaire, de création de modèles d’affaires adaptés à la gestion des mégadonnées de santé. Directeur Stratégie et Opérations chez Owkin, Jérôme Chevallier salue en effet la capacité de ces systèmes à « découpler l’information de la donnée elle-même, ce qui permet de protéger cette dernière » tout en tirant profit du modèle créé et entraîné ou des usages qui en sont faits.

En ce domaine, rien n’est encore arrêté. Pour Sébastien Massart (Dassault Systèmes), « le secteur de la santé est en train d’entrer dans l’économie de la connaissance. Il ne travaillait jusque-là que sur le matériel (la molécule, par exemple), il découvre le découplage qui peut exister entre le hardware et le software », le matériel et le logiciel. Comment s’en servir pour favoriser une recherche efficace ? Et créer un écosystème économique stable et profitable ? Rien n’est encore fixé, note-t-il.

Ce qui est certain, c’est qu’il y aura un coût « d’accès et d’entretien de la donnée, puis un coût industriel et scientifique pour établir les modèles et faire les recherches, et enfin la question des usages finaux. » Et d’appeler, comme la plupart des personnes présentes au Conseil d’État, à une coopération de tous les acteurs du secteur.

Commentaires (3)

pamputt Abonné

Le 14/02/2023 à 16h00

Espérons que les scientifiques ne se laisseront pas bernés par les industriels et que les données de santé resteront extrêmement bien protégées et ne pourront être exploitées que si elles sont complètement anonymes, et on sait que ce dernier point est très loin d’être simple à satisfaire.

darkjack Abonné

Le 15/02/2023 à 16h06

gros + 1

Et certains scientifiques ont du mal a comprendre / accepter, les conditions imposées pour l’usage de données patients, même anonymisées. Y compris chez les data scientist…

Un chercheur m’expliquait combien il était simple de désanonymiser certaines données.
Du coup, faut vraiment que l’accès soit blindé…
Ces données, c’est un peu le graal pour les compagnies d’assurances, les recruteurs, etc…

numerid

Le 15/02/2023 à 11h10

(reply:2119820:pamputt) Et que tout cela reposera sur des formats ouverts.