NVIDIA Digits : « le plus petit supercalculateur d’IA au monde », à poser sur votre bureau

Le digits à porté de mains

NVIDIA présente son projet Digits comme « le plus petit supercalculateur d’IA au monde » à poser sur votre bureau. Il propose une puissance d’un PetaFLOP avec une précision FP4 et peut, selon NVIDIA, exécuter en local de larges modèles d’IA avec 200 milliards de paramètres. Son prix : 3 000 dollars en tarif de base.

Sébastien Gavois

Le 09 janvier à 12h07

4 min

Hardware

Une puce GB10 Grace Blackwell Superchip aux commandes

Comme chaque année, NVIDIA multiplie les annonces lors du CES de Las Vegas. Nous avons déjà détaillé les nouvelles GeForce RTX 50 qui promettent des performances doublées par rapport aux RTX 40 équivalentes. Ces cartes graphiques exploitent la nouvelle architecture Blackwell, comme le projet NVIDIA Digits dont il est aujourd’hui question.

NVIDIA annonce ses GeForce RTX 50 dès 649 euros : « + 1 » et « x2 », en résumé

Digits prend la forme d’un petit boîtier dans lequel on retrouve un SoC NVIDIA GB10 Grace Blackwell Superchip. Grace est le nom de la partie CPU du « Superchip », tandis que Blackwell correspond à la partie GPU. On retrouve exactement la même segmentation dans les puces GH200 et GB200, par exemple, avec H200 pour la génération Hopper de GPU et B200 pour Blackwell.

Partie CPU Grace : 20 cœurs ARM

Ce GB10 est, comme son nom le laisse facilement supposer, allégé par rapport aux GH200 et GB200. Sur la partie CPU, NVIDIA annonce seulement 20 cœurs ARM « optimisés pour l’efficacité énergétique », sans plus de précision.

Sur GH200 et GB200, on retrouve pour rappel 72 cœurs ARM Neoverse v2 dans la partie CPU Grace. NVIDIA précise que sa puce est développée en partenariat avec MediaTek.

Partie GPU Blackwell : 1 PetaFLOP en FP4

Pour la partie GPU, NVIDIA annonce une puissance de calcul d’un PetaFLOP avec une précision FP4, soit vingt fois moins que le GPU Blackwell B200 à 20 PetaFLOP (ou 20 000 TeraFLOP).

Nous avions pour rappel détaillé le calcul de NVIDIA : B200 intègre deux GPU sur un même die et passe pour la première fois en FP4, qui permet de doubler les performances brutes par rapport au FP8, lui-même deux fois plus rapide que le FP16, etc. GB10 en FP8 est ainsi à 500 TeraFLOP.

De la LPDDR5X pour la mémoire, du stockage NVMe

NVIDIA ne donne pas beaucoup de détails sur la composition de sa GB10 et précise simplement qu’elle est « dotée d'un GPU NVIDIA Blackwell avec des CUDA Cores de dernière génération et des Tensor Cores de cinquième génération [bref, une architecture Blackwell, ndlr], interconnectés via NVLink-C2C au processeur NVIDIA Grace ».

Chaque DIGITS dispose de 128 Go de mémoire unifiée LPDDR5X et d’un maximum de 4 To de stockage en NVMe (PCIe). Le GPU n’aura donc pas de mémoire HBM (plus rapide que la DDR5X) comme c’est le cas sur les versions haut de gamme des GPU Blackwell pour l’IA.

Des LLM en local avec jusqu’à 200 milliards de paramètres

NVIDIA affirme que, grâce à son supercalculateur de bureau, « les développeurs peuvent exécuter de grands modèles jusqu'à 200 milliards de paramètres », à condition évidemment de les avoir préparés à une précision FP4. Le fabricant ajoute que, grâce à ConnectX, deux supercalculateurs DIGITS « peuvent être reliés pour exécuter des modèles jusqu'à 405 milliards de paramètres ».

Pour NVIDIA, le but est de cette puce GB10 Grace Blackwell est de permettre « aux entreprises et aux chercheurs de prototyper, affiner et tester des modèles en local sur des systèmes locaux avec le système d'exploitation NVIDIA DGX OS basé sur Linux, puis de les déployer de manière transparente sur NVIDIA DGX Cloud ». L’architecture matérielle et la partie logicielle restent les mêmes entre Digits et DGX (Blackwell) dans les datacenters.

Digits sera disponible en mai, pour un tarif débutant à 3 000 dollars. Le détail des configurations n’est pas indiqué.

Commentaires (7)

Abonnez-vous pour prendre part au débat

Déjà abonné ? Se connecter

Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles

Profitez d’un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

ImpactID Abonné

Aujourd'hui à 16h29

Pour comparer, est-ce que la nouvelle rtx 5090, 24GB je crois à grosomodo 2000$ est beaucoup moins apte que ce DIGITS sur ce type de tâches ? Pour 2x10¹¹ paramètres, le point limitant est-il ici la mémoire ?

127.0.0.1

Aujourd'hui à 17h01

le point limitant est-il ici la mémoire ?

Pour ce genre d'usage, carrément oui.

"RTX 5090: 32G VRAM" vs "DIGITS: 128G VRAM" c'est un monde de différence.

Par contre j'ai pas vu d'indication sur la conso (watt).

Liam

Aujourd'hui à 20h19

Oh que oui. Quand tu peux pas mettre tout le modèle en VRAM, tu peux en mettre une partie en RAM centrale mais les échanges constants ralentissent vraiment ÉNORMÉMENT l'inférence (et j'imagine que c'est pareil pour l'entraînement). Mais genre vraiment gigantesquement.

Pour te donner une idée, j'ai joué avec LLaMa 3 en local sur ma config. Sur le modèle à 8 Milliards de paramètres quantisé en 6 bits, qui tournait entièrement sur la VRAM de ma vieille carte graphique, une réponse un peu longue mettait 2-3 secondes à s'afficher en entier.
Sur le modèle à 70 Milliards quantisé en 3 bits, dont seulement 1/3 tenait sur ma VRAM et les 2/3 restants devaient être placés en RAM centrale, une réponse de même longueur mettait environ... 15 minutes.

psikobare

Aujourd'hui à 19h13

À voir comment se passe l'interconnexion avec le pc. Mais potentiellement un excellent produit pour les pros.

Liam

Aujourd'hui à 20h22

Ou même pour un hobbyiste fortuné. Plutôt qu'acheter une 5090 à 2000 Euros qui sera périmée dans 1 an ou 2, ça vaut le coup de mettre direct les 3000 Euros et d'être tranquille pour beaucoup plus longtemps (et d'éviter que ton PC soit à moitié à genoux pendant que tu fais de l'inférence).

Tsinpen

Aujourd'hui à 19h28

C'est avec une grande impatience que j'attends la sortie des puces FP2 qui calculent deux fois plus vite que les FP4.

Liam

Aujourd'hui à 20h12

Faut quand même préciser qu'un modèle quantisé en FP4 est moins précis et donc moins "intelligent" que le même modèle en FP8, lui-même moins précis qu'en FP16. Et qu'autant la différence entre FP16 et FP8 est souvent très faible voire négligeable, autant le passage de FP8 à FP4 est vraiment perceptible, avec une vraie baisse de qualité. Que ce soit en génération d'image par exemple, ou en LLM, on peut pas se contenter de dire que "ça va 2x plus vite" comme si ça allait 2x plus vite pour faire la même chose.