Le supercalculateur Jean-Zay en pause pour mise à jour, les chercheurs bloqués

Ça fait Zayer

Comme promis, le supercalculateur Jean-Zay est en train d’être amélioré pour augmenter sa puissance de calcul d’un facteur x4 selon Emmanuel Macron ou… x10 selon la DGE. Qu’importe, les travaux ont commencé, mais les principaux concernés, les chercheurs, ont été prévenus au dernier moment et se retrouvent un peu le bec dans l’eau.

Martin Clavey

Le 08 février à 08h25

4 min

IA et algorithmes

En juin dernier, à VivaTech, Emmanuel Macron annonçait le financement d'une myriade de projets informatiques dont l'augmentation des performances du supercalculateur du CNRS Jean Zay.

De « x4 avec assez peu de frais »…

Il est pour rappel installé à l'IDRIS (Institut du développement et des ressources en informatique scientifique) depuis 2019. Il disposait à ces débuts d'une puissance crête de 15,9 PFlop/s. Il est passé à 28 PFlop/s au cours de l'été 2020 avec sa première extension. Une seconde en juin 2022 a porté sa puissance de calcul à 36,85 PFlop/s.

« À court terme, on va investir 50 millions pour quadrupler les capacités du supercalculateur Jean Zay. On a déjà investi 40 millions, c'est quelque chose qui nous permet d'être dans la partie. On peut faire x4 avec assez peu de frais [...] on le fait tout de suite pour monter très vite ». Emmanuel Macron ne précisait par contre pas de quoi il était question précisément sur le « x4 ».

… à une « multiplication par 10 » des capacités de Jean Zay

Il est parfois difficile de suivre puisque, dans son rapport d’activité 2023, la Direction générale des entreprises (DGE) explique avoir « structuré une stratégie nationale dédiée à l’intelligence artificielle générative qui repose sur le renforcement de nos capacités de calcul, notamment la multiplication par 10 des capacités du supercalculateur Jean Zay, pouvant entraîner à terme 4 à 5 grands modèles de langage par an ».

Le CNRS précise que la conception de Jean-Zay « permet d'étendre les modes d'utilisation classiques du calcul de haute performance (HPC) à de nouveaux usages pour l’intelligence artificielle (IA) ». Il est constitué de CPU et de GPU, tandis que la mise à jour prévoit de remplacer une partie des CPU par des GPU. Ces derniers sont largement utilisés pour tout ce qui touche à l’intelligence artificielle.

Une bonne nouvelle peut en cacher une mauvaise

Une très bonne nouvelle, a priori, pour les utilisateurs du supercalculateur, dont nombreux sont des chercheurs des diverses institutions et laboratoires français. Mais, Le Monde explique, dans un article publié lundi 5 février, que le planning de cette mise à jour a été annoncé très tard : les chercheurs n'ont été prévenus qu'à la mi-janvier pour un arrêt ce lundi même.

La machine n'est que partiellement arrêtée, mais cette pause d'une partie des processeurs (53 % des capacités de calcul CPU) bloque des travaux de recherche qui étaient prévus et qui ne peuvent être fait ailleurs si facilement.

« On avait prévu ça plutôt en 2026 », reconnait Adeline Nazarenko, toute nouvelle directrice de l’institut des sciences de l'information et de leurs interactions du CNRS, interrogée par Le Monde. Le journal évoque plusieurs cas de chercheurs bloqués par les difficultés de reprogrammation de leurs calculs.

La communauté scientifique « prise de court »

« Toute la communauté scientifique qui travaille sur les modèles du climat, qui alimentent notamment les prévisions du GIEC [Groupe d’experts intergouvernemental sur l’évolution du climat], a été prise de court par cette opération qui rend caduc le travail de planification à long terme en cours » explique, par exemple, Julie Deshayes, directrice de recherche du CNRS et chercheuse en océanographie physique.

Les procédures des marchés publics et un calendrier serré prévoyant une mise à jour opérationnelle avant l'été 2024 ont contraint à ce que l'annonce de la date se fasse tardivement.

Commentaires (15)

bmike32

Le 08/02/2024 à 10h16

si x4 sur l'état actuel : 36*4 = 144 PFlops --> C'est comme une x10 sur l'état initial à 15PFlops. Moi je le vois comme ça, et ce sera top pour les travaux des chercheurs.

the_Grim_Reaper Abonné

Le 08/02/2024 à 10h21

C'est le calcul que j'ai fait également. sauf que j'ai

Puissance d'origine 10 : 15.910 = 159 PFlops
Puissance actuelle 4 : 36.854 = 147.4 PFlops

A la louche, ce sera entre les deux, autour de 150 PFlop la cible.

Même si chacun parle de ce qu'il veut, le calcul et le rapprochement aurait pu être tenté par l'auteur de l'article lui-même. C'est normalement ça aussi qui est attendu de la part des auteurs de Next, un article plus fouillé.

fred42 Abonné

Le 08/02/2024 à 10h24

Avec une puissance multipliée au moins par 4, ce retard va être comblé rapidement .
Le problème principal est la durée de l'arrêt : 4 mois.

dvr-x Abonné

Le 08/02/2024 à 10h53

Le problème c'est peut-être pour recaller les calculs prévus dans le planning, mais comme tu le dis le retard sera comblé rapidement.

Timanu69

Le 08/02/2024 à 12h39

Les chercheurs deviendront des trouveurs ?

bidou.bidou Abonné

Le 08/02/2024 à 17h43

Comme dit par d'autre ça pose des problèmes difficilement surmontables à certains non permanents (le postdoc mis au chômage pendant 4 mois n'a que ses yeux pour pleurer, personne ne paiera de prolongation).
Mais surtout ces histoires de petaflops ça n'intéresse que les politiques pour de l'affichage. L'utilisateur il s'en fiche, il veut que son calcul aille vite. Et tous les calculs ne sont pas des multiplications de matrices vectorisables à l'infini. Et encore moins en demi-précision. On jette à la benne des machines CPU pour y mettre à la place des GPU orientés IA (et c'est à craindre un fléchage IA pour les attributions d'heures). Le calcul de chimie quantique sur des niveaux de précision élevés avec Gaussian va avoir des performances désastreuses (si jamais ça tourne, compatibilité: uniquement K40, K80, P100, V100 et A100) Et des logiciels inadaptés voire incompatibles GPU il y en a des paquets en science.

dvr-x Abonné

Le 08/02/2024 à 10h51

Franchement, même si la nouvelle arrive tard et que quelques calculs restent sur le carreaux, on parle d'un upgrade qui été prévu pour 2026 et qui est avancé à 2024 ? Ils vont quand même gagner 2 ans, avec plus de puissance, donc calculs plus rapides ou plus complexes 2 ans plus tôt que prévu. C'est peut-être un moindre mal...

Furanku Abonné

Le 08/02/2024 à 11h31

Vu comme ça en effet. Mais reste que laisser les chercheurs sur le carreau de la sorte, ça ne devrait pas arriver. Qu'ils aient au moins le temps de réviser leurs plannings et peut-être déporter, provisoirement, une partie des calculs (si ça peut se faire, je ne suis pas du tout expert dans le domaine).

plopl Abonné

Le 08/02/2024 à 14h59

Si tu es en thèse, tu ne vas pas avoir X mois de rallonge. Si tu as un projet ANR, y'a une date limite aussi…

fred42 Abonné

Le 08/02/2024 à 16h37

C'est un peu un cas de force majeure.

jbfaure Abonné

Modifié le 08/02/2024 à 18h18

Certes, l'école doctorale peut bien t'accorder un délai pour la soutenance, mais pour la bourse de thèse c'est une autre affaire, en général ce n'est pas elle qui décide. Et sans bourse de thèse tu auras du mal à payer ton loyer, au plus mauvais moment, c'est à dire dans le stress de la fin de la thèse.

rm Abonné

Le 08/02/2024 à 16h01

« Les procédures des marchés publics et un calendrier serré prévoyant une mise à jour opérationnelle avant l’été 2024 ont contraint à ce que l’annonce de la date se fasse tardivement »
Est-ce qu’on pourrait expliquer plus précisément ce paragraphe ?

DoWnR Abonné

Modifié le 08/02/2024 à 16h35

C'est du business as usual 😅

Tu as un budget public à dépenser avant une date buttoir, du coup tu fais un cahier des charges avec des délais serrés pour la livraison et la mise en prod, en l'occurrence la mise à jour opérationnelle pour l'été 2024. Ensuite le serpent se mord la queue parce que la procédure d'attribution du marché prend largement plus de temps que prévu et grignote le peu de mou que tu avais prévu pour l'exécution du marché, et tu te retrouves avec un fournisseur qui pousse l'installation au plus vite, parce qu'il doit absolument respecter les délais que tu as fixés (et qu'il a acceptés), sous peine d'amendes.

rm Abonné

Le 08/02/2024 à 17h34

Merci pour cette explication !

spidermoon

Le 09/02/2024 à 13h31

x10 selon les syndicats et x4 selon la police