Top500 : Fugaku prend la tête avec des SoC ARM, AMD gagne du terrain avec Atos

Godzilla aurait été un meilleur nom !

Le 24 juin 2020 à 15h12

4 min

Hardware

Les Japonais viennent de prendre la première place du Top500 des Supercalculateurs grâce à Fugaku et ses processeurs A64FX (ARM). AMD se fait également remarquer avec plusieurs machines exploitant ses processeurs EPYC. Trois construites avec Atos, une de type DGX SuperPod avec l'A100 (Ampere) de NVIDIA.

Deux fois par an (en juin et octobre), le classement du Top500 des supercalculateurs est mis à jour. Cette 55e édition est particulière puisque c’est la première fois qu’une machine exploitant des SoC ARM se place directement sur la première marche du podium, comme un clin d'œil à Apple.

« Fugaku a obtenu un résultat de 415,5 pétaflops sur le test High Performance Linpack (HPL), surpassant le système Summit désormais deuxième d’un facteur de 2,8x », peut-on lire dans le communiqué. Il passe donc loin devant son prédécesseur. Il est animé par des puces A64FX de 48 cœurs Armv8.2-A SVE (SIMD 512 bits) avec de la mémoire HBM2. Il est installé au RIKEN Center for Computational Science (R-CCS) à Kobe au Japon.

Ses caractéristiques techniques sont disponibles ici.

Plus de 7 millions de cœurs et près de 4 Po de mémoire

Cette machine de guerre intègre 7 299 072 cœurs avec 4 866 048 Go de mémoire pour une puissance maximum théorique en pointe de 513 pétaflops (Rpeak dans les tableaux du Top500). Elle laisse donc sur place Summit et ses 2 414 592 cœurs (via des processeurs IBM POWER9, avec six GPU Tesla V100) avec 2 801 664 Go de mémoire qui atteignent 200 pétaflops « seulement ».

Si les performances Linkpack (des détails sur ce test sont disponibles par ici) sont multipliées par 2,8, ce rapport reste du même ordre de grandeur que celui du nombre de cœurs entre les deux machines. Mais c’est également le cas de la consommation qui passe de 10 096 kW sur Summit à 28 335 kW sur Fugaku.

« En précision simple ou davantage réduite, souvent utilisées dans les applications de machine learning et d'intelligence artificielle, les performances de pointe de Fugaku sont supérieures à 1 000 pétaflops (1 exaflops) ». Pour rappel, plusieurs instituts se sont lancés dans la quête d’une machine exaflopique, une frontière symbolique.

ExaNoDe : le prototype de processeur de calcul exascale européen est en phase finale d'intégration

Quatre supercalculateurs AMD dans le Top50

Logiquement, le reste du classement se décale d’une place vers le bas : Sierra est 3e, Sunwat TaihuLight 4e et Tianhe-2A 5e. D’autres changements arrivent dans la suite du classement, notamment à la 6e place avec l’entrée du supercalculateur italien HPC5.

La machine américaine Selene de NVIDIA (DGX SuperPod A100) débarque ensuite en 7e position avec des processeurs Epyc 7742. C’est le premier du classement avec des puces AMD.

Ce dernier en profite pour se féliciter que « quatre nouveaux supercalculateurs animés par les processeurs AMD EPYC rejoignent les 50 systèmes les plus performants au monde » : Belenos est 30e, Jolio-Curie Rome passe de la 59e à la 34e place et enfin MAHTI rentre directement à la 48e place.

Ces trois derniers ont été construits par l'un de ses grands partenaires du moment, le français Atos, qui annonçait encore récemment son BullSequana X2415. AMD ajoute que le « CERN utilise les processeurs EPYC pour accélérer ses recherches dans le plus grand laboratoire au monde de physique des particules ».

2,23 exaflops au total, les États-Unis arrivent en tête

La capacité totale de l’ensemble des supercalculateurs du Top500 est désormais de 2,23 exaflops, contre 1,65 exaflops six mois auparavant. Une hausse en grande partie due à l'arrivée de Fugaku.

Dans l’ensemble, assez peu de nouvelles machines font leur entrée : 51 seulement, le score le plus faible depuis le début du TOP500 en 1993. La Chine continue de dominer outrageusement les débats en disposant de 226 des 500 supercalculateurs, suivis par les États-Unis avec 114 machines, le Japon avec 30, la France avec 18 et enfin l’Allemagne avec 16. Malgré tout, les États-Unis conservent la première place sur la puissance totale combinée avec 644 pétaflops, contre 564 pétaflops pour la Chine530 pétaflops désormais pour le Japon.

Et si un SoC ARM est désormais en tête, les processeurs x86 occupent le gros du terrain en étant présents sur 481 des 500 supercalculateurs, dont 469 pour Intel et 11 pour AMD (la dernière machine utilise des CPU Hygon). « Les processeurs ARM sont présents dans seulement quatre systèmes du TOP500, dont trois utilisent le nouveau processeur Fujitsu A64FX, le dernier étant alimenté par le CPU ThunderX2 de Marvell ».

De quoi donner des idées à d'autres ?

Commentaires (14)

Furanku Abonné

Le 24/06/2020 à 15h29

Question : ces supercalculateurs, dans leur durée de vie (qui me semble assez courte à la vitesse où l‘on en construit), sont-ils pleinement utilisés ?

Tout cela m’a l‘air d’être une course plus qu‘autre chose. Sauf que l’impact environnemental pour construire de telles machines n‘est pas négligeable…

Donc est-ce que cette puissance est réellement exploitée ensuite, entre autre pour aider la science et la médecine (et non pas l’armée) ? Ou est-ce que c‘est une course à kikialaplusgrosse, avec un bel argument marketing pour les techno choisies ?

foilivier Abonné

Le 24/06/2020 à 15h53

Je me serais attendu à avoir une conso significativement inférieure avec de l‘ARM, mais apparemment ça consomme du watt ces petites bêtes.

foilivier Abonné

Le 24/06/2020 à 15h59

Et surtout, est-ce que ça fait tourner Crysis ?

David_L Abonné

Le 24/06/2020 à 16h54

foilivier a dit:

…

Pour n‘importe quelle architecture, quand tu veux de la performance, li n’y a pas de magie… après tu peux avoir des SoC optimisés pour telle ou telle tâche (ou exploiter du GPU plutôt que du CPU), mais si tu veux être capable d‘exécuter n’importe quel type de calcul dessus…

ARM a surtout l‘avantage sur certains applicatifs selon les puces et architectures (ici avec du SIMD 512 bits par exemple), vu la construction modulaire, et peut tirer partie de ses accélérateurs divers avec des cœurs consommant peu sur mobile par exemple. Mais bon, quand il faut traiter du milliard de milliards d’instructions par secondes…

underground78 Abonné

Le 24/06/2020 à 18h12

Un des gros avantages de l‘ARM en ce moment c’est la possibilité d‘avoir de la mémoire HBM2, beaucoup plus rapide que de la RAM classique. Ce type de mémoire est également utilisé dans les GPU destinés à un usage HPC.

Si Intel ou AMD étaient capables d’utiliser de la HBM2 avec leur processeur actuel, il y aura un gain important pour de nombreuses applications. Dans la majorité des cas ce qui devient rapidement limitant c‘est la bande passante mémoire qui sature avant le processeur lui-même.

David_L Abonné

Le 24/06/2020 à 19h43

underground78 a dit:

…

Ce n‘est pas une impossibilité technique, mais le PC est modulaire et pensé comme tel. Les modules de HBM, ce n’est pas vraiment très modulaire ;) Puis la BP mémoire du CPU n‘est pas forcément le point de tension principal en général. Cela peut dépendre des workloads, mais bon, c’est surtout nécessaire lorsqu‘ils faut alimenter énormément de cœurs avec beaucoup de données, et là on utilise plutôt des GPU De la HBM2 n’y changerait rien (mais ferait exploser les prix).

DoWnR Abonné

Le 24/06/2020 à 19h47

Furanku a dit:

Question : ces supercalculateurs, dans leur durée de vie (qui me semble assez courte à la vitesse où l‘on en construit), sont-ils pleinement utilisés ?Tout cela m’a l‘air d’être une course plus qu‘autre chose. Sauf que l’impact environnemental pour construire de telles machines n‘est pas négligeable…Donc est-ce que cette puissance est réellement exploitée ensuite, entre autre pour aider la science et la médecine (et non pas l’armée) ? Ou est-ce que c‘est une course à kikialaplusgrosse, avec un bel argument marketing pour les techno choisies ?

Vu l’investissement, il vaut mieux qu‘elles soient chargées au maximum. C’est probablement pas représentatif mais sur une machine nettement plus modeste (moins de 20 000 coeurs) et en fin de vie, au boulot on tourne autour des 90-95% de charge sur l‘année, et ça inclut les arrêts pour maintenance et éventuelles pannes, il n’y a vraiment que la première année où on était autour des 75%, principalement parce qu‘il fallait que les utilisateurs migrent de la précédente machine, portent leurs codes, testent et commencent à monter en charge.

Sinon, sur la course à celui qui a la plus grosse, la Chine n’est pas mal dans le genre avec sa "domination" en nombre de machines dans le top500. Une grosse partie de leurs machines n‘ont rien à faire là car elles ne servent probablement pas à faire du HPC, d’ailleurs elles sont la plupart du temps interconnectées en 10GbE et aucune n‘a publié de résultats HPCG où elles se feraient descendre… c’est comme si les GAFAM commençaient à soumettre leurs différents datacenters juste pour augmenter la visibilité des US.

fafaro

Le 25/06/2020 à 09h40

Furanku a dit:

Question : ces supercalculateurs, dans leur durée de vie (qui me semble assez courte à la vitesse où l‘on en construit), sont-ils pleinement utilisés ?Tout cela m’a l‘air d’être une course plus qu‘autre chose. Sauf que l’impact environnemental pour construire de telles machines n‘est pas négligeable…Donc est-ce que cette puissance est réellement exploitée ensuite, entre autre pour aider la science et la médecine (et non pas l’armée) ? Ou est-ce que c‘est une course à kikialaplusgrosse, avec un bel argument marketing pour les techno choisies ?

Voici les chiffres de mars 2020 correspondant aux demandes de temps sur les principales machines nationales en France, avec heures disponibles sur la machine et heures demandées par les projets, et la pression des demandes par rapport à la disponibilités :

Jean Zay CPU : 148 740 000 h dispo, 230 784 661 h demandées, pression = 155%

Jean Zay GPU : 1 282 000 h dispo, 1 446 143 h demandées, pression = 113%

Occigen : 214 382 000 h dispo, 410 640 900 h demandées, pression = 192%

Joliot-Curie SKL : 79 342 000 h dispo, 162 615 900 h demandées, pression = 205%

Joliot-Curie KNL : 62 474 000 h dispo, 46 799 901 h demandées, pression = 75%

Joliot-Curie Rome : 312 550 000 h dispo, 155 142 400 h demandées, pression = 50%

Joliot-Curie V100 : 313 000 h dispo, 60 524 h demandées, pression = 19%

La machine Joliot-Curie Rome est nouvelle et les codes ne sont pas forcément prêts pour y tourner, mais ça devrait vite changer.
Joliot-Curie V100 doit souffrir de la comparaison avec Jean Zay GPU. Et la partition KNL n’a à ma connaissance jamais eu un succès fou.

Les demandes de temps viennent de toutes les disciplines scientifiques, les plus gros consommateurs sont

Environnement

Écoulements non réactifs

Écoulements réactifs et multiphasiques

Astrophysique et géophysique

Physique théorique et physique des plasmas

Physique chimie et propriété des matériaux

Je n‘ai pas retrouvé les chiffres d’heures consommées effectivement et de taux d‘occupation mais sur les machines "CPU généralistes" c’est souvent très élevé (machines utilisées à plus de 90%).

fafaro

Le 25/06/2020 à 09h50

David_L a dit:

Ce n‘est pas une impossibilité technique, mais le PC est modulaire et pensé comme tel. Les modules de HBM, ce n’est pas vraiment très modulaire ;) Puis la BP mémoire du CPU n‘est pas forcément le point de tension principal en général. Cela peut dépendre des workloads, mais bon, c’est surtout nécessaire lorsqu‘ils faut alimenter énormément de cœurs avec beaucoup de données, et là on utilise plutôt des GPU De la HBM2 n’y changerait rien (mais ferait exploser les prix).

Tout ça dépend beaucoup des applications. Certaines dépendent quasi exclusivement du CPU, d‘autres de la bande passante mémoire, d’autres de l‘équilibrage de charge entre processus, d’autres des accès disques, et d‘autres encore d’un mélange de tout ça.
Mais il y a des applis limitées par la bande passante mémoire qui ne peuvent pas utiliser de GPU.

Furanku Abonné

Le 25/06/2020 à 11h55

DoWnR a dit:

fafaro a dit:

Merci pour ces info

OlivierJ Abonné

Le 25/06/2020 à 12h37

Furanku a dit:

est-ce que cette puissance est réellement exploitée ensuite, entre autre pour aider la science et la médecine (et non pas l‘armée) ?

La recherche militaire a très souvent des retombées sur le reste, ce n’est pas mauvais en soi. Et si on peut remplacer des expériences physiques (comme faire péter une bombe atomique) par des calculs, c‘est pas plus mal.

David_L Abonné

Le 25/06/2020 à 14h09

fafaro a dit:

…

Oui, comme dit ça dépend forcément des workloads. Mais ceux qui nécessitent beaucoup de BP mémoire et ne peuvent être traités sur GPU sont plutôt l‘exception que la règle (d’ailleurs tu parles de cas où le GPU n‘est pas utilisable parce que le code n’est pas porté sur CUDA/OpenCL je suppose ?)

underground78 Abonné

Le 25/06/2020 à 18h24

David_L a dit:

Oui, comme dit ça dépend forcément des workloads. Mais ceux qui nécessitent beaucoup de BP mémoire et ne peuvent être traités sur GPU sont plutôt l‘exception que la règle (d’ailleurs tu parles de cas où le GPU n‘est pas utilisable parce que le code n’est pas porté sur CUDA/OpenCL je suppose ?)

Ça c‘est le monde merveilleux, en pratique et pour bosser dans le HPC c’est pas du tout comme ça que ça marche !

Dans le monde scientifique il reste une très grande majorité de codes qui ne sont pas portés sur GPU aujourd‘hui. D’ailleurs le premier supercalculateur français disposant d‘un nombre important de GPU (Jean Zay qui a été cité plus tôt) a été installé il y a moins d’un an.

Ça n‘empêche pas qu’une majorité des codes en question est limitée par la bande passante mémoire.

Mon message était clairement focalisé sur l‘usage HPC où on pourrait voir des gains importants en mettant de la HBM2 sur des nœuds purement CPU (exactement ce qu’on fait les Japonais avec Fugaku).

fafaro a dit:

Je n‘ai pas retrouvé les chiffres d’heures consommées effectivement et de taux d‘occupation

De ce que je sais ils ne sont pas publics mais c’est évidemment un sujet majeur pour les centres de calcul, leurs tutelles, Genci et cie.

fafaro

Le 26/06/2020 à 09h46

David_L a dit:

Oui, comme dit ça dépend forcément des workloads. Mais ceux qui nécessitent beaucoup de BP mémoire et ne peuvent être traités sur GPU sont plutôt l‘exception que la règle (d’ailleurs tu parles de cas où le GPU n‘est pas utilisable parce que le code n’est pas porté sur CUDA/OpenCL je suppose ?)

Certains des codes qu‘on utilise ne sont pas vraiment portables sur GPU. On peut avoir par exemple des structures de données un peu tordues et volumineuses (plusieurs Go par cœur CPU) à mettre en RAM, et des accès aléatoires à la mémoire. Rien ne loge sur le cache, on a en permanence besoin d’aller chercher les données en RAM, les calculs ne sont pas franchement vectoriels, bref rien de bien pour GPU.
Alors bien sûr il y a aussi des codes non portés sur GPU parce qu‘on n’a pas la main d’œuvre pour le faire, mais certains codes ne pourront jamais être portés efficacement parce que les algorithmes ne s‘y prêtent pas. Et pour autant la bande passante mémoire peut être un point critique pour ces codes.