Des GPU A100 (Ampere) de NVIDIA dans six supercalculateurs, Atos annonce son BullSequana X2415

13 000 GPU aux États-Unis et en Allemagne

Le 19 mai 2020 à 12h06

4 min

Hardware

À peine dévoilés, les nouveaux GPU A100 de NVIDIA prennent place dans plusieurs supercalculateurs : quatre projets sont annoncés aux États-Unis et deux en Allemagne, pour un total de 13 000 GPU environ. En Europe, le français Atos « lance le premier supercalculateur équipé des GPU NVIDIA A100 ».

Jeudi, NVIDIA présentait son premier GPU de la génération Ampere : A100. Pensé pour les datacenters, il est gravé en 7 nm et comporte pas moins de 54,2 milliards de transistors. Disponible, il doit d'ores et déjà intégrer plusieurs supercalculateurs un peu partout dans le monde.

Atos l'utilisera dans son BullSequana X2415 qui « fournira une puissance de calcul jamais atteinte jusqu’à présent et accélérera les performances des applications de HPC et d’IA [...] multipliera par plus de deux fois la puissance de calcul et optimisera la consommation d’énergie, grâce à la solution brevetée DLC (Direct Liquid Cooling) d’Atos qui refroidit totalement le système en utilisant de l'eau chaude ».

Un serveur, une baie, une lame, un rail, 1U : c'est quoi ?

Quatre GPU A100, deux CPU EPYC et 512 Go de mémoire par lame

Cette lame est basée sur un design HGX-A100 comprenant quatre GPU A100 interconnectés via des NVLink de 3e génération. Comme l'a fait NVIDIA pour ses propres serveurs, les CPU passent chez AMD puisqu'il s'agit d'EPYC en 7 nm (Milan, sans plus de précision). Un choix déjà fait par Atos sur d'autres produits.

512 Go (16 x 32 Go) de DDR4 accompagnent l'ensemble et jusqu’à quatre ports InfiniBand (NVIDIA Mellanox) pour une topologie de type Dragonfly+. Un SSD M.2 S-ATA ou NVMe est proposé en option.

La disponibilité est prévue d’ici fin juin.

Le Centre de recherche de Jülich – qui participe notamment aux projets « Humain Brain » de la Commission européenne, ainsi que « Science du Climat » et « Systèmes moléculaires » – sera le premier à l'utiliser affirme Atos. Le supercalculateur JUWELS sera ainsi mis à jour avec des lames BullSequana X2415 (et donc des GPU A100).

Il devrait alors « atteindre un pic de performance de plus de 70 pétaFLOPS, devenant ainsi le supercalculateur le plus puissant d’Europe ».

13 000 GPU A100 pour six projets de supercalculateurs

De son côté, NVIDIA annonce que cinq supercalculateurs à travers le monde se préparent à passer à Ampere. Le laboratoire national d'Argonne aux États-Unis va ainsi utiliser un cluster composé de 24 unités DGX A100, chacune comprenant 8 GPU A100 (soit 192 au total) et six NVSwitch de nouvelle génération.

Toujours outre-Atlantique, le National Energy Research Scientific Computing Center (NERSC) de Berkeley (en Californie) travaille avec HPE afin de déployer pas moins de 6 200 GPU A100 dans le supercalculateur Perlmutter. Deux des projets du NERSC utilisent déjà des prototypes de GPU Ampere avec, selon NVIDIA, « une augmentation significative des performances par rapport aux GPU Volta ».

Signalons aussi l’université de l’Indiana et son système Big Red 200 comprenant 256 GPU Ampere pour une puissance de 6 pétaFLOPS. Des recherches en cybersécurité et génétique y seront menées.

En Allemagne, outre le Centre de recherche de Jülich, le Karlsruhe Institute of Technology (KIT) s’est associé à Lenovo pour un nouveau supercalculateur de 17 pétaFLOPS comprenant 740 GPU A100.

Il effectuera des calculs pour des simulations climatiques, de la recherche autour de Covid-19, de nouveaux matériaux pour les batteries, etc. Le Max Planck Institute mise aussi sur Lenovo pour son Raven-GPU, avec 768 GPU cette fois. Il servira aux recherches en astrophysique, biologie, chimie théorique et science des matériaux.

Au total, les six projets de supercalculateurs – quatre aux États-Unis et deux en Allemagne – « utiliseront près de 13 000 GPU A100 », déclare NVIDIA. D’autres devraient suivre.

Commentaires (6)

Gilbert_Gosseyn Abonné

Le 19/05/2020 à 15h32

Comme quoi, niveau CPU serveurs, AMD gagne des points …

LordZurp Abonné

Le 19/05/2020 à 16h24

en fait, NVidia a fait un kickstarter caché et les labos tippeurs vont recevoir leur contrepartie en A100

ElRabbit Abonné

Le 20/05/2020 à 05h25

“Refroidi à l’eau chaude”: il n’y a pas à dire l’innovation informatique française reste à la pointe

barlav Abonné

Le 20/05/2020 à 06h26

ElRabbit a dit:

“Refroidi à l’eau chaude”: il n’y a pas à dire l’innovation informatique française reste à la pointe

Ca m’a fait sourire aussi, mais a 400W la puce, quand tu en as 4 ou 8 par lame, l’eau chauffe vite à mon avis.
L’eau n’est qu’un vecteur pour drainer des watts, et c’est foutrement plus efficace que l’air pour ça.

DoWnR Abonné

Le 20/05/2020 à 17h26

barlav a dit:

Ca m’a fait sourire aussi, mais a 400W la puce, quand tu en as 4 ou 8 par lame, l’eau chauffe vite à mon avis. L’eau n’est qu’un vecteur pour drainer des watts, et c’est foutrement plus efficace que l’air pour ça.

C’est surtout que c’est nettement moins énergivore de directement refroidir les composants avec de l’eau “chaude” à 35-40°C, plutôt que de refroidir inutilement des m³ d’air avec de l’eau “glacée” à 12-15°C. Le côté négatif, c’est que ce que tu ne dépenseras pas sur ta facture d’électricité, tu vas le dépenser en cuivre, aluminium et renforcement du plancher de ton datacenter qui va devoir supporter tout ce poids supplémentaire

the_Grim_Reaper Abonné

Le 21/05/2020 à 09h06

DoWnR a dit:

C’est surtout que c’est nettement moins énergivore de directement refroidir les composants avec de l’eau “chaude” à 35-40°C, plutôt que de refroidir inutilement des m³ d’air avec de l’eau “glacée” à 12-15°C. Le côté négatif, c’est que ce que tu ne dépenseras pas sur ta facture d’électricité, tu vas le dépenser en cuivre, aluminium et renforcement du plancher de ton datacenter qui va devoir supporter tout ce poids supplémentaire

Sauf que le coût d’exploitation annuel d’un DC c’est à 60% la clim dans la plupart des cas.
Puis ton plancher tu peux le garder sur le HPC actuel, mais sur les suivants aussi. Le système de cuivre, si l’intégrateur est bon, tu peux t’en resservir à l’identique (ou presque) sur le prochain HPC (même placement de socket, dissipation thermique similaire pour le système global).

IBM a un système similaire, les lames sont plug and play avec le système de refroidissement intégré à la baie et au batiment. Et si tu restes chez eux, les emplacements sont les mêmes , donc évolutif mais attaché.