Supercalculateur Jean Zay, nommé ainsi en l'honneur du ministre de l'Éducation nationale qui fut l'artisan, avec Jean Perrin, de la création du CNRS. Capable d'effectuer 13,9 millions de milliards d'opérations par seconde dans sa configuration initiale installée à l'été 2019, ce supercalculateur convergé permet d'étendre les modes d'utilisation classiques du calcul de haute performance (HPC) à de nouveaux usages pour l'intelligence artificielle (IA). En plus de ses 1 528 noeuds de 40 coeurs Intel Cascade Lake à 2,5 GHz, il comprend 261 noeuds "convergés hybrides accélérés" composés chacun de 40 coeurs à 2,5 GHz et de 4 GPUs NVIDIA V100. Chaque noeud dispose de 192 Go de mémoire et chaque GPU de 32 Go. Conçu par Hewlett Packard Enterprise, ce supercalculateur HPE SGI 8600 a été acquis en 2019 par le Genci (Grand équipement national de calcul intensif) et est opéré par l'IDRIS, localisé sur le plateau de Saclay. UPS851 Institut du Développement et des Ressources en Informatique Scientifique 20190051_0007© Cyril Fresillon/IDRIS/CNRS Photothèque

Le supercalculateur Jean-Zay en pause pour mise à jour, les chercheurs bloqués

Ça fait Zayer

Avatar de l'auteur
Martin Clavey

Publié dans

IA et algorithmesSciences et espace

08/02/2024 4 minutes
15

Supercalculateur Jean Zay, nommé ainsi en l'honneur du ministre de l'Éducation nationale qui fut l'artisan, avec Jean Perrin, de la création du CNRS. Capable d'effectuer 13,9 millions de milliards d'opérations par seconde dans sa configuration initiale installée à l'été 2019, ce supercalculateur convergé permet d'étendre les modes d'utilisation classiques du calcul de haute performance (HPC) à de nouveaux usages pour l'intelligence artificielle (IA). En plus de ses 1 528 noeuds de 40 coeurs Intel Cascade Lake à 2,5 GHz, il comprend 261 noeuds "convergés hybrides accélérés" composés chacun de 40 coeurs à 2,5 GHz et de 4 GPUs NVIDIA V100. Chaque noeud dispose de 192 Go de mémoire et chaque GPU de 32 Go. Conçu par Hewlett Packard Enterprise, ce supercalculateur HPE SGI 8600 a été acquis en 2019 par le Genci (Grand équipement national de calcul intensif) et est opéré par l'IDRIS, localisé sur le plateau de Saclay. UPS851 Institut du Développement et des Ressources en Informatique Scientifique 20190051_0007© Cyril Fresillon/IDRIS/CNRS Photothèque

Comme promis, le supercalculateur Jean-Zay est en train d’être amélioré pour augmenter sa puissance de calcul d’un facteur x4 selon Emmanuel Macron ou… x10 selon la DGE. Qu’importe, les travaux ont commencé, mais les principaux concernés, les chercheurs, ont été prévenus au dernier moment et se retrouvent un peu le bec dans l’eau.

En juin dernier, à VivaTech, Emmanuel Macron annonçait le financement d'une myriade de projets informatiques dont l'augmentation des performances du supercalculateur du CNRS Jean Zay.

De « x4 avec assez peu de frais »…

Il est pour rappel installé à l'IDRIS (Institut du développement et des ressources en informatique scientifique) depuis 2019. Il disposait à ces débuts d'une puissance crête de 15,9 PFlop/s. Il est passé à 28 PFlop/s au cours de l'été 2020 avec sa première extension. Une seconde en juin 2022 a porté sa puissance de calcul à 36,85 PFlop/s.

« À court terme, on va investir 50 millions pour quadrupler les capacités du supercalculateur Jean Zay. On a déjà investi 40 millions, c'est quelque chose qui nous permet d'être dans la partie. On peut faire x4 avec assez peu de frais [...] on le fait tout de suite pour monter très vite ». Emmanuel Macron ne précisait par contre pas de quoi il était question précisément sur le « x4 ».

… à une « multiplication par 10 » des capacités de Jean Zay

Il est parfois difficile de suivre puisque, dans son rapport d’activité 2023, la Direction générale des entreprises (DGE) explique avoir « structuré une stratégie nationale dédiée à l’intelligence artificielle générative qui repose sur le renforcement de nos capacités de calcul, notamment la multiplication par 10 des capacités du supercalculateur Jean Zay, pouvant entraîner à terme 4 à 5 grands modèles de langage par an ».

Le CNRS précise que la conception de Jean-Zay « permet d'étendre les modes d'utilisation classiques du calcul de haute performance (HPC) à de nouveaux usages pour l’intelligence artificielle (IA) ». Il est constitué de CPU et de GPU, tandis que la mise à jour prévoit de remplacer une partie des CPU par des GPU. Ces derniers sont largement utilisés pour tout ce qui touche à l’intelligence artificielle.

Une bonne nouvelle peut en cacher une mauvaise

Une très bonne nouvelle, a priori, pour les utilisateurs du supercalculateur, dont nombreux sont des chercheurs des diverses institutions et laboratoires français. Mais, Le Monde explique, dans un article publié lundi 5 février, que le planning de cette mise à jour a été annoncé très tard : les chercheurs n'ont été prévenus qu'à la mi-janvier pour un arrêt ce lundi même.

La machine n'est que partiellement arrêtée, mais cette pause d'une partie des processeurs (53 % des capacités de calcul CPU) bloque des travaux de recherche qui étaient prévus et qui ne peuvent être fait ailleurs si facilement.

« On avait prévu ça plutôt en 2026 », reconnait Adeline Nazarenko, toute nouvelle directrice de l’institut des sciences de l'information et de leurs interactions du CNRS, interrogée par Le Monde. Le journal évoque plusieurs cas de chercheurs bloqués par les difficultés de reprogrammation de leurs calculs.

La communauté scientifique « prise de court »

« Toute la communauté scientifique qui travaille sur les modèles du climat, qui alimentent notamment les prévisions du GIEC [Groupe d’experts intergouvernemental sur l’évolution du climat], a été prise de court par cette opération qui rend caduc le travail de planification à long terme en cours » explique, par exemple, Julie Deshayes, directrice de recherche du CNRS et chercheuse en océanographie physique.

Les procédures des marchés publics et un calendrier serré prévoyant une mise à jour opérationnelle avant l'été 2024 ont contraint à ce que l'annonce de la date se fasse tardivement.

Écrit par Martin Clavey

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

De « x4 avec assez peu de frais »…

… à une « multiplication par 10 » des capacités de Jean Zay

Une bonne nouvelle peut en cacher une mauvaise

La communauté scientifique « prise de court »

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Fermer

Commentaires (15)


si x4 sur l'état actuel : 36*4 = 144 PFlops --> C'est comme une x10 sur l'état initial à 15PFlops. Moi je le vois comme ça, et ce sera top pour les travaux des chercheurs.
C'est le calcul que j'ai fait également. sauf que j'ai

Puissance d'origine 10 : 15.910 = 159 PFlops
Puissance actuelle 4 : 36.854 = 147.4 PFlops

A la louche, ce sera entre les deux, autour de 150 PFlop la cible.

Même si chacun parle de ce qu'il veut, le calcul et le rapprochement aurait pu être tenté par l'auteur de l'article lui-même. C'est normalement ça aussi qui est attendu de la part des auteurs de Next, un article plus fouillé.
Avec une puissance multipliée au moins par 4, ce retard va être comblé rapidement .
Le problème principal est la durée de l'arrêt : 4 mois.
Le problème c'est peut-être pour recaller les calculs prévus dans le planning, mais comme tu le dis le retard sera comblé rapidement.

dvr-x

Le problème c'est peut-être pour recaller les calculs prévus dans le planning, mais comme tu le dis le retard sera comblé rapidement.
Les chercheurs deviendront des trouveurs ?
Comme dit par d'autre ça pose des problèmes difficilement surmontables à certains non permanents (le postdoc mis au chômage pendant 4 mois n'a que ses yeux pour pleurer, personne ne paiera de prolongation).
Mais surtout ces histoires de petaflops ça n'intéresse que les politiques pour de l'affichage. L'utilisateur il s'en fiche, il veut que son calcul aille vite. Et tous les calculs ne sont pas des multiplications de matrices vectorisables à l'infini. Et encore moins en demi-précision. On jette à la benne des machines CPU pour y mettre à la place des GPU orientés IA (et c'est à craindre un fléchage IA pour les attributions d'heures). Le calcul de chimie quantique sur des niveaux de précision élevés avec Gaussian va avoir des performances désastreuses (si jamais ça tourne, compatibilité: uniquement K40, K80, P100, V100 et A100) Et des logiciels inadaptés voire incompatibles GPU il y en a des paquets en science.
Franchement, même si la nouvelle arrive tard et que quelques calculs restent sur le carreaux, on parle d'un upgrade qui été prévu pour 2026 et qui est avancé à 2024 ? Ils vont quand même gagner 2 ans, avec plus de puissance, donc calculs plus rapides ou plus complexes 2 ans plus tôt que prévu. C'est peut-être un moindre mal...
Vu comme ça en effet. Mais reste que laisser les chercheurs sur le carreau de la sorte, ça ne devrait pas arriver. Qu'ils aient au moins le temps de réviser leurs plannings et peut-être déporter, provisoirement, une partie des calculs (si ça peut se faire, je ne suis pas du tout expert dans le domaine).
Si tu es en thèse, tu ne vas pas avoir X mois de rallonge. Si tu as un projet ANR, y'a une date limite aussi…

plopl

Si tu es en thèse, tu ne vas pas avoir X mois de rallonge. Si tu as un projet ANR, y'a une date limite aussi…
C'est un peu un cas de force majeure.

fred42

C'est un peu un cas de force majeure.
Certes, l'école doctorale peut bien t'accorder un délai pour la soutenance, mais pour la bourse de thèse c'est une autre affaire, en général ce n'est pas elle qui décide. Et sans bourse de thèse tu auras du mal à payer ton loyer, au plus mauvais moment, c'est à dire dans le stress de la fin de la thèse.
Modifié le 08/02/2024 à 18h18
« Les procédures des marchés publics et un calendrier serré prévoyant une mise à jour opérationnelle avant l’été 2024 ont contraint à ce que l’annonce de la date se fasse tardivement »
Est-ce qu’on pourrait expliquer plus précisément ce paragraphe ?
C'est du business as usual 😅

Tu as un budget public à dépenser avant une date buttoir, du coup tu fais un cahier des charges avec des délais serrés pour la livraison et la mise en prod, en l'occurrence la mise à jour opérationnelle pour l'été 2024. Ensuite le serpent se mord la queue parce que la procédure d'attribution du marché prend largement plus de temps que prévu et grignote le peu de mou que tu avais prévu pour l'exécution du marché, et tu te retrouves avec un fournisseur qui pousse l'installation au plus vite, parce qu'il doit absolument respecter les délais que tu as fixés (et qu'il a acceptés), sous peine d'amendes.
Modifié le 08/02/2024 à 16h35

DoWnR

C'est du business as usual 😅

Tu as un budget public à dépenser avant une date buttoir, du coup tu fais un cahier des charges avec des délais serrés pour la livraison et la mise en prod, en l'occurrence la mise à jour opérationnelle pour l'été 2024. Ensuite le serpent se mord la queue parce que la procédure d'attribution du marché prend largement plus de temps que prévu et grignote le peu de mou que tu avais prévu pour l'exécution du marché, et tu te retrouves avec un fournisseur qui pousse l'installation au plus vite, parce qu'il doit absolument respecter les délais que tu as fixés (et qu'il a acceptés), sous peine d'amendes.
Merci pour cette explication !
x10 selon les syndicats et x4 selon la police :D