Supercalculateur Jean Zay, nommé ainsi en l'honneur du ministre de l'Éducation nationale qui fut l'artisan, avec Jean Perrin, de la création du CNRS. Capable d'effectuer 13,9 millions de milliards d'opérations par seconde dans sa configuration initiale installée à l'été 2019, ce supercalculateur convergé permet d'étendre les modes d'utilisation classiques du calcul de haute performance (HPC) à de nouveaux usages pour l'intelligence artificielle (IA). En plus de ses 1 528 noeuds de 40 coeurs Intel Cascade Lake à 2,5 GHz, il comprend 261 noeuds "convergés hybrides accélérés" composés chacun de 40 coeurs à 2,5 GHz et de 4 GPUs NVIDIA V100. Chaque noeud dispose de 192 Go de mémoire et chaque GPU de 32 Go. Conçu par Hewlett Packard Enterprise, ce supercalculateur HPE SGI 8600 a été acquis en 2019 par le Genci (Grand équipement national de calcul intensif) et est opéré par l'IDRIS, localisé sur le plateau de Saclay. UPS851 Institut du Développement et des Ressources en Informatique Scientifique 20190051_0007© Cyril Fresillon/IDRIS/CNRS Photothèque

Alors qu’on connait déjà la réponse : 42 !

Le supercalculateur Jean Zay grimpe à 125,9 PFlop/s, avec 1 456 GPU H100

Supercalculateur Jean Zay, nommé ainsi en l'honneur du ministre de l'Éducation nationale qui fut l'artisan, avec Jean Perrin, de la création du CNRS. Capable d'effectuer 13,9 millions de milliards d'opérations par seconde dans sa configuration initiale installée à l'été 2019, ce supercalculateur convergé permet d'étendre les modes d'utilisation classiques du calcul de haute performance (HPC) à de nouveaux usages pour l'intelligence artificielle (IA). En plus de ses 1 528 noeuds de 40 coeurs Intel Cascade Lake à 2,5 GHz, il comprend 261 noeuds "convergés hybrides accélérés" composés chacun de 40 coeurs à 2,5 GHz et de 4 GPUs NVIDIA V100. Chaque noeud dispose de 192 Go de mémoire et chaque GPU de 32 Go. Conçu par Hewlett Packard Enterprise, ce supercalculateur HPE SGI 8600 a été acquis en 2019 par le Genci (Grand équipement national de calcul intensif) et est opéré par l'IDRIS, localisé sur le plateau de Saclay. UPS851 Institut du Développement et des Ressources en Informatique Scientifique 20190051_0007© Cyril Fresillon/IDRIS/CNRS Photothèque

Abonnez-vous pour tout dévorer et ne rien manquer.

Déjà abonné ? Se connecter

Abonnez-vous

Comme prévu, le supercalculateur Jean Zay gagne en puissance. D'ici quelques semaines, il va passer à 125,9 PFlop/s avec l’ajout de 14 racks de calcul BullSequana XH3000 d’Eviden, pour un total de 728 CPU Intel Sapphire Rapids et 1 456 GPU NVIDIA H100. On en profite pour détailler la configuration complète de Jean Zay.

Le supercalculateur Jean Zay a été acheté par le ministère de l'Enseignement supérieur, de la Recherche et de l'Innovation via le GENCI (Grand équipement national de calcul intensif). Le contrat a été signé avec Hewlett-Packard Enterprise le 8 janvier 2019. Il est installé à l'IDRIS, le centre national de calcul du CNRS sur le plateau de Saclay. Il a depuis été amélioré à plusieurs reprises.

16PFlop/s au lancement, puis 28 et 36,85 PFlop/s

À son lancement au premier semestre 2019, il avait une puissance crête de 15,9 PFlop/s. Une première extension a été mise en place durant l’été 2021 pour passer 28 PFlop/s et une seconde en juin 2022 pour atteindre 36,85 petaflops. Au classement des 500 plus gros supercalculateurs, il est 167e avec une puissance de 4,48 petaflops mais cela ne concerne qu'une seule des « partitions » du supercalculateur (il était au classement de juin 2019).

L’année dernière à VivaTech, Emmanuel Macron annonçait « investir 50 millions pour quadrupler les capacités du supercalculateur Jean Zay ». De son côté, la Direction générale des entreprises (DGE) annonçait dans un rapport de 2023 « la multiplication par 10 des capacités du supercalculateur Jean Zay, pouvant entraîner à terme 4 à 5 grands modèles de langage par an ». Dans les deux cas, aucune précision n’était apporté sur la méthode de calcul.

Le GENCI rappelle que pour cette amélioration du supercalculateur, 40 millions d’euros lui ont été attribués. « Cette subvention exceptionnelle s’accompagne également de 10 millions d’euros pour renforcer et prolonger les ressources humaines du Programme national de recherche en intelligence artificielle (PNRIA) et accompagner les communautés IA ».

Quoi qu’il en soit, les travaux ont commencé au début de l’année, mais les chercheurs ont été prévenus au dernier moment. La communauté scientifique a ainsi « été prise de court par cette opération qui rend caduc le travail de planification à long terme en cours », regrettait Julie Deshayes, directrice de recherche du CNRS et chercheuse en océanographie physique.

Et jusqu’à 126 PFlop/s maintenant

Nous avons enfin de plus amples précisions sur le nouveau Jean Zay. Dans un communiqué, le GENCI et le CNRS annoncent avoir choisi « Eviden pour faire du supercalculateur Jean Zay l’une des machines les plus puissantes de France ». La puissance crête de calcul passera de 36,85 à 125,9 PFlop/s, soit une hausse d’un facteur 3,4x ou de 8x si on prend en compte la puissance de Jean Zay à son lancement en 2019.

Le GENCI donne un autre chiffre : les performances sont multipliées par « 13 si on utilise une précision réduite ou mixte comme pour l'intelligence artificielle », un calcul qui prend certainement en compte le passage en FP8 des H100 (nous détaillons les caractéristiques techniques de la nouvelle extension juste après). Avec Blackwell (B200), NVIDIA descend encore d’un cran avec la prise en charge de FP4 (et FP6).

Bref, après les x4 et x10, voici les x3,5, x8 et x13… pas toujours facile de suivre, mais au moins on a des PFlop/s cette fois ! Selon le dernier classement du Top 500 des supercalculateurs, Jean Zay pourrait prétendre à entrer dans le Top 10. Mais le prochain arrive en juin et devrait rehausser le niveau.

1 456 GPU H100 débarquent

La nouvelle partition « sera installée par Eviden en avril et sera entièrement disponible aux utilisateurs au début de l’été 2024 », promet le GENCI. Voici le détail de la configuration de Jean Zay à ce moment-là, avec la nouvelle partition H100.

Partition scalaire (ou partition CPU) :

    • 1 440 CPU Intel Cascade Lake 6248 (20C/40T)

Partition accélérée (ou partition GPU) :

    • 1456 GPUs NVIDIA H100

    • 416 GPUs NVIDIA A100

    • 1 832 NVIDIA V100

Les 1 456 GPU H100 de NVIDIA (Hopper) seront ajoutés via 14 racks de calcul BullSequana XH3000 d’Eviden. Chacun intègre 26 serveurs bi-processeurs Intel Sapphire Rapids avec 48 cœurs, 512 Go de mémoire et 4 GPU H100 (SXM5, avec 80 Go de mémoire) interconnectés via quatre ConnectX-7 de NVIDIA (InfiniBand à 400 Gb/s).

Le détail des 416 GPU A100 et des 1 832 V100

Les 416 GPU A100 sont arrivées sous la forme de 52 serveurs HPE Apollo 6500 Gen 10, chacun avec deux CPU AMD Milan EPYC 7543 (32 cœurs à 2,80 GHz), 512 Go de mémoire et huit GPU A100 (SXM4, avec 80 Go de mémoire).

Pour les V100, c’est plus compliqué… Il y a 396 nœuds, comprenant quatre GPU et deux processeurs Intel Cascade Lake 6248 (20 cœurs à 2,5 GHz) avec 192 Go de mémoire par nœud. Sur les 396, 270 sont avec des V100 de 32 Go et 126 avec des V100 de 16 Go. 126 + 270 = 396, le compte est bon.

Mais 396 (nœuds) x 4 (GPU) = 1 584 GPU V100, contre 1 832 annoncés. Où sont donc les 248 qui manquent à l’appel ? Il s’agit de 31 autres nœuds avec deux processeurs Intel Cascade Lake 6226 (12 cœurs à 2,7 GHz) et huit GPU V100 32 Go de NVIDIA. Sur les 31, 20 ont 384 Go de mémoire et 11 profitent du double, soit 768 Go de mémoire.

Les autres partitions, l’incidence des travaux de février

Idris rappelle que le supercalculateur dispose aussi de partitions pour le pré et post-traitement (quatre nœuds chacun avec 4x Intel Skylake 6132, 3 To de mémoire et un GPU V100), une partition de virtualisation (cinq nœuds avec chacun 2x Intel Cascade Lake 6248, 192 Go de mémoire et une Quatro P6000 de NVIDIA), ainsi qu’une partition compilation (trois nœuds avec chacun un Intel Xeon Silver 4114 et 96 Go de mémoire).

Avant les travaux de février, la partition CPU comprenait 1 528 nœuds (720 aujourd’hui). La partition V100 est passée de 616 à 396 nœuds, soit 220 de moins.

Nouvelle interface de stockage

Le GENCI annonce aussi qu'« une nouvelle infrastructure de stockage permettra de lire/écrire à haut débit et de mettre à disposition les modèles et jeux de données associés ». La capacité sera ainsi de 4,3 Po pour le premier niveau, « en technologie flash » avec des débits supérieurs à 1 To/s en lecture et écriture. Un second niveau avec 39 Po avec des débits de plus de 300 Go/s est aussi de la partie.

Le Grand équipement national de calcul intensif précise en outre que « Jean Zay est l’une des machines les plus éco-efficientes en Europe grâce à l'utilisation massive de technologies accélérées (GPU) et à un refroidissement des serveurs de calcul par eau chaude à cœur ». La chaleur dégagée est utilisée pour « contribuer au chauffage de plus de 1 000 logements sur le plateau de Saclay ».

Commentaires (18)


YES!!! C'est la fête!! Bon, j'aurais préféré 3000, c'est sur :transpi: Mais c'est bien plus que ce à quoi je m'attendais. ça va faire du bien. :best::merci:
Je me rends compte que je manque de connaissances sur le sujet.

Qu'est-ce qu'une partition ?
Quelle est l'architecture matérielle et logicielle d'un tel calculateur ?

Je ne sais pas si ça a fait l'objet d'articles sur NXI ou IH, mai il n'y a pas de liens vers des articles qui expliquent ça.
Une partition c’est un peu comme dans un gateau, un groupe d’éléments CPU et/ou GPU accessibles aux chercheurs/utilisateurs. On peut ajouter des partitions, en enlever, en faire évoluer, etc.
Pour l’infra logicielle, Idris donne des détails par ici (en fin de page) : http://www.idris.fr/jean-zay/cpu/jean-zay-cpu-hw.html#gpu_p13

Sébastien Gavois

Une partition c’est un peu comme dans un gateau, un groupe d’éléments CPU et/ou GPU accessibles aux chercheurs/utilisateurs. On peut ajouter des partitions, en enlever, en faire évoluer, etc.
Pour l’infra logicielle, Idris donne des détails par ici (en fin de page) : http://www.idris.fr/jean-zay/cpu/jean-zay-cpu-hw.html#gpu_p13
Will It Blend? :francais:

benbart34

Will It Blend? :francais:
Rhooo ! Ici, je n'ai pas osé la faire !

fred42

Rhooo ! Ici, je n'ai pas osé la faire !
C'est vraiment des belles machines, de l'artisanat moderne, j'oserai pas pour vrai ! :chinois:
Une partition, c'est un ensemble de noeuds homogènes. Quand on installe différentes tranches successivement, ce sont des partitions. Quand on installe une partie avec des GPU et une partie sans GPU, ce sont deux partitions.
Et la raison d'être des partitions logiques est d'obtenir in fine une homogénéité des ressources/capacités de traitement & stockage.

Les chercheurs font des calculs spécialisés et cherchent à maximiser la parallélisation des traitements exécutés sur une grappe de calculs via différents cadres d'application (MPI, OpenMP, OpenCL, quand je trainais encore mes savates dans le monde académique).
Contrairement à une grappe dans une entité plus lambda qui peut se permettre cette hétérogénéité, ici elle risquerait de provoquer un goulot d'étranglement : dans un schéma classique de parallélisation (map) vient toujours une étape d'aggrégation (reduce). Si cette étape attend après des nœuds moins performants, c'est la capacité de traitement globale qui s'effondre, car c'est la vitesse de calcul du nœud le moins performant qui sera limitante.

Cela permet donc de faire évoluer une grappe sur le temps long, en tolérant son hétérogénéité, et permet aussi à des traitements tolérant cette hétérogénéité de théoriquement bénéficier d'une capacité de calcul maximum augmentée.
Cependant, en réalité, chaque évolution crée donc une partition de capacité de calcul généralement unitairement plus grande qu'aucune autre, qui sera bien souvent unitairement utilisée.
Modifié le 29/03/2024 à 16h41

Historique des modifications :

Posté le 29/03/2024 à 16h38


Et la raison d'être des partitions logiques est d'obtenir in fine une homogénéité des ressources/capacités de traitement & stockage.

Les chercheurs font des calculs spécialisés et cherchent à maximiser la parallélisation des traitements exécutés sur une grappe de calculs via différents cadres d'application (MPI, OpenMP, OpenCL, quand je trainais encore mes savates dans le monde académique).
Contrairement à une grappe dans une entité plus lambda qui peut se permettre cette hétérogénéité, ici elle risquerait de provoquer un goulot d'étranglement : dans un schéma classique de parallélisation (map) vient toujours une étape d'aggrégation (reduce). Si cette étape attend après des nœuds moins performants, c'est la capacité de traitement globale qui s'effondre, car c'est la vitesse de calcul du nœud le moins performant qui sera limitante.

Cela permet donc de faire évoluer une grappe sur le temps long, en tolérant son hétérogénéité, et permet aussi à des traitements tolérant cette hétérogénéité de théoriquement bénéficier d'une capacité de calcul maximum augmentée, mais en réalité, chaque évolution crée donc une partition de capacité de calcul généralement unitairement plus grande qu'aucune autre.

Posté le 29/03/2024 à 16h40


Et la raison d'être des partitions logiques est d'obtenir in fine une homogénéité des ressources/capacités de traitement & stockage.

Les chercheurs font des calculs spécialisés et cherchent à maximiser la parallélisation des traitements exécutés sur une grappe de calculs via différents cadres d'application (MPI, OpenMP, OpenCL, quand je trainais encore mes savates dans le monde académique).
Contrairement à une grappe dans une entité plus lambda qui peut se permettre cette hétérogénéité, ici elle risquerait de provoquer un goulot d'étranglement : dans un schéma classique de parallélisation (map) vient toujours une étape d'aggrégation (reduce). Si cette étape attend après des nœuds moins performants, c'est la capacité de traitement globale qui s'effondre, car c'est la vitesse de calcul du nœud le moins performant qui sera limitante.

Cela permet donc de faire évoluer une grappe sur le temps long, en tolérant son hétérogénéité, et permet aussi à des traitements tolérant cette hétérogénéité de théoriquement bénéficier d'une capacité de calcul maximum augmentée.
Cependant, en réalité, chaque évolution crée donc une partition de capacité de calcul généralement unitairement plus grande qu'aucune autre.

Est-ce que ça peut faire tourner Crysis ?
Est-ce que ça fait tourner DOOM ?

Gilbert_Gosseyn

Est-ce que ça fait tourner DOOM ?
en general, il n'y a pas de sortie video (dvi, hdmi) sur ces cartes graphiques... donc tu dois pouvoir jouer au premier doom avec le chipset intégré de la CM mais pas beaucoup plus :D

elldekaa

en general, il n'y a pas de sortie video (dvi, hdmi) sur ces cartes graphiques... donc tu dois pouvoir jouer au premier doom avec le chipset intégré de la CM mais pas beaucoup plus :D
Avec les nœuds de visualisation + un client VNC, ça doit se faire. :fumer:
"Jean Zay Rien" :francais:

ok je sors ---> []
En réponse au sous-titre : oui mais encore faudrait-il connaitre la question.
Peut importe la question, la réponse est 42 :smack:

the_Grim_Reaper

Peut importe la question, la réponse est 42 :smack:
Et comme vu passer il y a quelques jours, 42 c'est le code ASCII pour le caractère * ça tombe plutôt bien...
Selon le dernier classement du Top 500 des supercalculateurs, Jean Zay pourrait prétendre à entrer dans le Top 10.


En pratique c'est plus compliqué que ça parce que le Top 500 ne permet pas de mélanger CPU et GPU et qu'il est de toute façon très difficile de faire tourner le bench de façon efficace sur des partitions non homogènes.
Et ce bousin va servir à héberger une IA générative d’impôts nouveaux ?
Fermer