Le supercalculateur Jean Zay grimpe à 125,9 PFlop/s, avec 1 456 GPU H100
Alors qu’on connait déjà la réponse : 42 !
Comme prévu, le supercalculateur Jean Zay gagne en puissance. D'ici quelques semaines, il va passer à 125,9 PFlop/s avec l’ajout de 14 racks de calcul BullSequana XH3000 d’Eviden, pour un total de 728 CPU Intel Sapphire Rapids et 1 456 GPU NVIDIA H100. On en profite pour détailler la configuration complète de Jean Zay.
Le 28 mars à 14h21
6 min
Hardware
Hardware
Le supercalculateur Jean Zay a été acheté par le ministère de l'Enseignement supérieur, de la Recherche et de l'Innovation via le GENCI (Grand équipement national de calcul intensif). Le contrat a été signé avec Hewlett-Packard Enterprise le 8 janvier 2019. Il est installé à l'IDRIS, le centre national de calcul du CNRS sur le plateau de Saclay. Il a depuis été amélioré à plusieurs reprises.
16PFlop/s au lancement, puis 28 et 36,85 PFlop/s
À son lancement au premier semestre 2019, il avait une puissance crête de 15,9 PFlop/s. Une première extension a été mise en place durant l’été 2021 pour passer 28 PFlop/s et une seconde en juin 2022 pour atteindre 36,85 petaflops. Au classement des 500 plus gros supercalculateurs, il est 167e avec une puissance de 4,48 petaflops mais cela ne concerne qu'une seule des « partitions » du supercalculateur (il était au classement de juin 2019).
L’année dernière à VivaTech, Emmanuel Macron annonçait « investir 50 millions pour quadrupler les capacités du supercalculateur Jean Zay ». De son côté, la Direction générale des entreprises (DGE) annonçait dans un rapport de 2023 « la multiplication par 10 des capacités du supercalculateur Jean Zay, pouvant entraîner à terme 4 à 5 grands modèles de langage par an ». Dans les deux cas, aucune précision n’était apporté sur la méthode de calcul.
Le GENCI rappelle que pour cette amélioration du supercalculateur, 40 millions d’euros lui ont été attribués. « Cette subvention exceptionnelle s’accompagne également de 10 millions d’euros pour renforcer et prolonger les ressources humaines du Programme national de recherche en intelligence artificielle (PNRIA) et accompagner les communautés IA ».
Quoi qu’il en soit, les travaux ont commencé au début de l’année, mais les chercheurs ont été prévenus au dernier moment. La communauté scientifique a ainsi « été prise de court par cette opération qui rend caduc le travail de planification à long terme en cours », regrettait Julie Deshayes, directrice de recherche du CNRS et chercheuse en océanographie physique.
- Supercalculateurs (exascale), IA, régulation, métavers : Emmanuel Macron tire tous azimuts à VivaTech
- Le supercalculateur Jean-Zay en pause pour mise à jour, les chercheurs bloqués
Et jusqu’à 126 PFlop/s maintenant
Nous avons enfin de plus amples précisions sur le nouveau Jean Zay. Dans un communiqué, le GENCI et le CNRS annoncent avoir choisi « Eviden pour faire du supercalculateur Jean Zay l’une des machines les plus puissantes de France ». La puissance crête de calcul passera de 36,85 à 125,9 PFlop/s, soit une hausse d’un facteur 3,4x ou de 8x si on prend en compte la puissance de Jean Zay à son lancement en 2019.
Le GENCI donne un autre chiffre : les performances sont multipliées par « 13 si on utilise une précision réduite ou mixte comme pour l'intelligence artificielle », un calcul qui prend certainement en compte le passage en FP8 des H100 (nous détaillons les caractéristiques techniques de la nouvelle extension juste après). Avec Blackwell (B200), NVIDIA descend encore d’un cran avec la prise en charge de FP4 (et FP6).
Bref, après les x4 et x10, voici les x3,5, x8 et x13… pas toujours facile de suivre, mais au moins on a des PFlop/s cette fois ! Selon le dernier classement du Top 500 des supercalculateurs, Jean Zay pourrait prétendre à entrer dans le Top 10. Mais le prochain arrive en juin et devrait rehausser le niveau.
1 456 GPU H100 débarquent
La nouvelle partition « sera installée par Eviden en avril et sera entièrement disponible aux utilisateurs au début de l’été 2024 », promet le GENCI. Voici le détail de la configuration de Jean Zay à ce moment-là, avec la nouvelle partition H100.
Partition scalaire (ou partition CPU) :
-
- 1 440 CPU Intel Cascade Lake 6248 (20C/40T)
Partition accélérée (ou partition GPU) :
-
- 1456 GPUs NVIDIA H100
-
- 416 GPUs NVIDIA A100
-
- 1 832 NVIDIA V100
Les 1 456 GPU H100 de NVIDIA (Hopper) seront ajoutés via 14 racks de calcul BullSequana XH3000 d’Eviden. Chacun intègre 26 serveurs bi-processeurs Intel Sapphire Rapids avec 48 cœurs, 512 Go de mémoire et 4 GPU H100 (SXM5, avec 80 Go de mémoire) interconnectés via quatre ConnectX-7 de NVIDIA (InfiniBand à 400 Gb/s).
Le détail des 416 GPU A100 et des 1 832 V100
Les 416 GPU A100 sont arrivées sous la forme de 52 serveurs HPE Apollo 6500 Gen 10, chacun avec deux CPU AMD Milan EPYC 7543 (32 cœurs à 2,80 GHz), 512 Go de mémoire et huit GPU A100 (SXM4, avec 80 Go de mémoire).
Pour les V100, c’est plus compliqué… Il y a 396 nœuds, comprenant quatre GPU et deux processeurs Intel Cascade Lake 6248 (20 cœurs à 2,5 GHz) avec 192 Go de mémoire par nœud. Sur les 396, 270 sont avec des V100 de 32 Go et 126 avec des V100 de 16 Go. 126 + 270 = 396, le compte est bon.
Mais 396 (nœuds) x 4 (GPU)= 1 584 GPU V100, contre 1 832 annoncés. Où sont donc les 248 qui manquent à l’appel ? Il s’agit de 31 autres nœuds avec deux processeurs Intel Cascade Lake 6226 (12 cœurs à 2,7 GHz) et huit GPU V100 32 Go de NVIDIA. Sur les 31, 20 ont 384 Go de mémoire et 11 profitent du double, soit 768 Go de mémoire.
Les autres partitions, l’incidence des travaux de février
Idris rappelle que le supercalculateur dispose aussi de partitions pour le pré et post-traitement (quatre nœuds chacun avec 4x Intel Skylake 6132, 3 To de mémoire et un GPU V100), une partition de virtualisation (cinq nœuds avec chacun 2x Intel Cascade Lake 6248, 192 Go de mémoire et une Quatro P6000 de NVIDIA), ainsi qu’une partition compilation (trois nœuds avec chacun un Intel Xeon Silver 4114 et 96 Go de mémoire).
Avant les travaux de février, la partition CPU comprenait 1 528 nœuds (720 aujourd’hui). La partition V100 est passée de 616 à 396 nœuds, soit 220 de moins.
Nouvelle interface de stockage
Le GENCI annonce aussi qu'« une nouvelle infrastructure de stockage permettra de lire/écrire à haut débit et de mettre à disposition les modèles et jeux de données associés ». La capacité sera ainsi de 4,3 Po pour le premier niveau, « en technologie flash » avec des débits supérieurs à 1 To/s en lecture et écriture. Un second niveau avec 39 Po avec des débits de plus de 300 Go/s est aussi de la partie.
Le Grand équipement national de calcul intensif précise en outre que « Jean Zay est l’une des machines les plus éco-efficientes en Europe grâce à l'utilisation massive de technologies accélérées (GPU) et à un refroidissement des serveurs de calcul par eau chaude à cœur ». La chaleur dégagée est utilisée pour « contribuer au chauffage de plus de 1 000 logements sur le plateau de Saclay ».
Le supercalculateur Jean Zay grimpe à 125,9 PFlop/s, avec 1 456 GPU H100
-
16PFlop/s au lancement, puis 28 et 36,85 PFlop/s
-
Et jusqu’à 126 PFlop/s maintenant
-
1 456 GPU H100 débarquent
-
Le détail des 416 GPU A100 et des 1 832 V100
-
Les autres partitions, l’incidence des travaux de février
-
Nouvelle interface de stockage
Commentaires (18)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 28/03/2024 à 14h33
Le 28/03/2024 à 15h02
Qu'est-ce qu'une partition ?
Quelle est l'architecture matérielle et logicielle d'un tel calculateur ?
Je ne sais pas si ça a fait l'objet d'articles sur NXI ou IH, mai il n'y a pas de liens vers des articles qui expliquent ça.
Le 28/03/2024 à 16h16
Pour l’infra logicielle, Idris donne des détails par ici (en fin de page) : http://www.idris.fr/jean-zay/cpu/jean-zay-cpu-hw.html#gpu_p13
Le 29/03/2024 à 19h55
Le 29/03/2024 à 19h58
Le 29/03/2024 à 20h06
Le 28/03/2024 à 16h25
Modifié le 29/03/2024 à 16h41
Les chercheurs font des calculs spécialisés et cherchent à maximiser la parallélisation des traitements exécutés sur une grappe de calculs via différents cadres d'application (MPI, OpenMP, OpenCL, quand je trainais encore mes savates dans le monde académique).
Contrairement à une grappe dans une entité plus lambda qui peut se permettre cette hétérogénéité, ici elle risquerait de provoquer un goulot d'étranglement : dans un schéma classique de parallélisation (map) vient toujours une étape d'aggrégation (reduce). Si cette étape attend après des nœuds moins performants, c'est la capacité de traitement globale qui s'effondre, car c'est la vitesse de calcul du nœud le moins performant qui sera limitante.
Cela permet donc de faire évoluer une grappe sur le temps long, en tolérant son hétérogénéité, et permet aussi à des traitements tolérant cette hétérogénéité de théoriquement bénéficier d'une capacité de calcul maximum augmentée.
Cependant, en réalité, chaque évolution crée donc une partition de capacité de calcul généralement unitairement plus grande qu'aucune autre, qui sera bien souvent unitairement utilisée.
Le 28/03/2024 à 15h43
Le 28/03/2024 à 16h44
Le 28/03/2024 à 19h09
Le 28/03/2024 à 19h16
Le 29/03/2024 à 00h07
ok je sors ---> []
Le 28/03/2024 à 15h46
Le 28/03/2024 à 16h24
Le 28/03/2024 à 23h52
Le 28/03/2024 à 20h22
Le 30/03/2024 à 17h43