Connexion Premium

Dans les entrailles du GPU Blackwell Ultra de NVIDIA

AspirineMax

Dans les entrailles du GPU Blackwell Ultra de NVIDIA

Le GPU Blackwell Ultra est une amélioration de Blackwell, avec une hausse notable de la mémoire HBM3e et des performances sur plusieurs points, notamment sur l’« attention ». La cible de NVIDIA ne fait aucun doute : les serveurs dédiés aux intelligences artificielles.

Lors de la GTC en mars, NVIDIA a dévoilé les grandes lignes de ses prochains GPU pour les « AI factories », c’est-à-dire des cartes pensées pour les serveurs dédiés à l’intelligence artificielle.

La génération actuelle – Blackwell – a été lancée en mars dernier. C’est donc maintenant au tour de son évolution Blackwell Ultra, puis il faudra attendre un peu avant de voir Vera Rubin en 2026/2027, Feynman en 2028, etc.

Blackwell Ultra côté chiffres : 160 SM, 20 480 CUDA Cores…

Dans un billet de blog technique, NVIDIA donne davantage de détails sur sa puce Blackwell Ultra. Comme le GPU Blackwell de base, cette version Ultra comprend 208 milliards de transistors… enfin 2x 104 milliards pour être précis puisqu’elle est composée de deux GPU sur un même die.

Le GPU Blackwell Ultra comprend jusqu’à 8 Graphics Processing Clusters (GPCs) pour un total de 160 Streaming Multiprocessors (SMs), chacun avec 128 CUDA Cores (soit 20 480 au total) et quatre Tensor Cores de 5e génération (640 au total).

Chaque Streaming Multiprocessors dispose de 256 Ko de mémoire pour les Tensor Cores (TMEM) pour du « stockage synchrone de résultats intermédiaires, permettant une réutilisation des données plus élevée et un trafic de mémoire hors puce réduit ».

Débit des Special Function Units doublé

On y retrouve aussi des Special Function Units (SFUs) pour « des fonctions transcendantales et des opérations spéciales utilisées dans les noyaux d’IA ». Les premiers SFUs remontent à la génération Fermi pour le calcul des sinus, cosinus, racine carré, inverse…

Avec Blackwell Ultra, le fabricant parle d’une « accélération de la couche d’attention deux fois plus élevée » grâce au « débit SFU doublé ». Il était était en effet de 4.5 TeraExponentials/s sur la génération Hopper, puis 5 TeraExponentials/s sur Blackwell (peu de changement), mais il passe à 10,7 TeraExponentials/s sur Blackwell Ultra.

Selon le fabricant, « cette amélioration accélère l’attention […] elle est particulièrement efficace pour les modèles de raisonnement avec de grandes fenêtres de contexte, où la fonction softmax peut devenir un goulot d’étranglement de latence ». Nous avons détaillé la fonction d’activation softmax et son intérêt pour l’entrainement des intelligences artificielles dans un dossier et un tuto.

288 Go de HBM3e pour des modèles toujours plus gros

L’autre gros changement concerne la mémoire HBM3e : elle passe de 192 à 288 Go maximum, toujours avec une bande passante de 8 To/s. Selon le fabricant, cela permet de prendre en charge des modèles avec plus de 300 milliards de paramètres.

Blackwell et sa version Ultra prennent en charge les NVLink de 5e génération, avec jusqu’à 1,8 To/s (18x 100 Go/s), soit deux fois plus que le NVLink de 4e génération sur Hopper. Les deux versions du GPU exploitent du PCIe 6.0 en x16.

50 % de mieux en FP4, pas de changement en FP8 et FP/BF16

De 10 PetaFLOPS en NVFP4 sur Blackwell, la version Ultra grimpe à 15 PetaFLOPS sans dispersion, « soit une augmentation de 1,5 fois par rapport au GPU Blackwell et de 7,5 fois par rapport aux GPU NVIDIA Hopper H100 et H200 ». Avec dispersion, les deux GPU sont à 20 PetaFLOPS. Pas de changement en FP8 avec 5 PetaFLOPS sans dispersion pour les deux Blackwell.

Cette hausse en FP4 ne peut pas être reportée sur les autres niveaux de précision. En FP8 et FP6, les performances entre Blackwell et la version Ultra sont identiques, comme en FP16, BF16, TF32 et FP32. En INT8 les performances chutent à 157,5 TeraOPS sur Blackwell Ultra contre 5 000 TeraOPS sur Blackwell. Même chose en FP64 avec 1,3 TeraOPS à la place de 40 TeraOPS.

Les modèles d’IA utilisent la virgule flottante (FP) et profitent de la descente de la précision (FP8, FP4…), comme nous l’expliquaient deux spécialistes. Pour Léo Hunout (IDRIS au CNRS), « le FP16 (avec la précision mixte, FP16 et FP32 suivant les opérations mathématiques du modèle) a été un grand changement. Le FP8 et inférieur n’est que la suite de ce mouvement ». FP8 et FP4 sont une avancée « très intéressante à la fois pour l’entrainement de modèles », ajoutait Stéphane Requena (directeur innovation et technologie au GENCI)

Voici un résumé des caractéristiques techniques, que vous pouvez également retrouver dans le Blackwell Architecture Technical Brief (PDF de 33 pages) :

1 400 watts pour Blackwell Ultra

Pour résumer, Blackwell Ultra propose un débit SFU doublé, des PetaFLOPS en hausse de 50 % en FP4 et une quantité de mémoire multiplié par 1,5. Dernier point et pas des moindres : le TGP (Total Graphics Power) passe par contre de 1 200 watts sur Blackwell à 1 400 watts sur Blackwell Ultra, soit une hausse de 17 %.

NVIDIA parle au passage de sa puce Grace Blackwell Ultra Superchip, comprenant un CPU Grace et deux GPU Blackwell Ultra (elle existe déjà en version Grace Blackwell Superchip). Cette puce est au cœur des systèmes GB300 NVL 72, comprenant pas moins de 72 GPU NVIDIA Blackwell Ultra et 36 CPU NVIDIA Grace.

Commentaires (4)

votre avatar
Je ne suis pas sur du TDP du CPU Grace mais ça serait 500W. Du coup, l'ensemble du système B300 NVL 7 aurait une consommation de 118.8 KW. C'est complètement fou. On n'est pas dans la sobriété mais bon c'est Nvidia
votre avatar
En général, on ne compare pas directement la consommation. Mais la consommation/FLops par exemple pour apprécier une possible ou non augmentation de sobriété entre deux générations.
votre avatar
Quand on sait que nVidia réalise 80+% de son chiffre d'affaire sur les produits "IA", quand la bulle va éclater (car, oui, elle va éclater), ça va faire très mal ...
votre avatar
Si les GPU restent intéressants pour l'apprentissage/la conversion de modèle (par leur capacité à gérer plein de types de précision), avec les NPU et les modèles en INTx, l'inférence locale ou simplement sur CPU est souvent bien suffisante.
On est vraiment sur du datacenter, mais d'ici 2-5 ans, les calculs vont certainement refluer sur le terminal.