Connexion Abonnez-vous

Amazon lance ses puces Trainium3 pour l’IA : 2,5 pétaflops et 144 Go de HBM3e

Mélange de puces et de chiffres

Amazon lance ses puces Trainium3 pour l’IA : 2,5 pétaflops et 144 Go de HBM3e

Amazon présente ses UltraServers pour les entrainements et l'inférence d’IA avec Trainium3. Le géant du Net augmente à la fois la densité et les performances de sa puce maison, lui permettant ainsi d’afficher un gros x4,4 sur les performances. On vous détaille cette annonce.

Le 03 décembre à 08h25

Amazon vient d’annoncer la disponibilité pour les clients de sa nouvelle puce Trainium3 pour l’entrainement et l’inférence des intelligences artificielles. La division cloud du géant américain continue sur sa lancée, avec une nouvelle génération par an.

Des UltraServers et UltraClusters avec Trainium3 disponibles

L’année dernière, durant la conférence re:Invent, c’était Trainium2 qui était disponible et la puce Trainium3 présentée. Encore un an avant (en 2023), Trainium2 était annoncée pour remplacer le SoC Trainium de première génération.

On rembobine cette fois avec les performances. Trainium2 était annoncée comme quatre fois plus rapide sur les entrainements, avec une capacité mémoire multipliée par trois. L'efficacité énergétique (performances/watt) était multipliée par deux.

Amazon promettait des instances Trn2 avec jusqu'à 100 000 puces Trainium2 via les UltraClusters, pour une puissance de calcul pouvant atteindre « jusqu'à 65 exaflops ». Des UltraServers plus raisonnables avec 64 Trainium2 interconnectés étaient aussi de la partie, pour une puissance maximale de 83,2 pétaflops.

Les UltraClusters Elastic Compute Cloud (EC2) « sont composés de milliers d'instances EC2 accélérées, colocalisées dans une zone de disponibilité AWS donnée et interconnectées via un réseau », explique Amazon. Les UltraServers sont d’au moins un ordre de grandeur plus petits, puisqu’il est question de « plusieurs instances EC2 ».

Trainium3 : x2 sur les performances, 50 % de mémoire en plus

Nous revoilà à Trainium3, dont les UltraServers équipés de cette génération proposent « une puissance de calcul jusqu'à 4,4 fois supérieure, une efficacité énergétique quatre fois plus grande et une bande passante mémoire presque quatre fois supérieure à celle des serveurs Trainium2 UltraServers ». Trainium3 est gravée avec une technologie 3 nm.

Un UltraServer peut héberger jusqu’à 144 puces Trainium3 pour une puissance de 362 pétaflops, avec une précision en virgule flottante de 8 bits (FP8). Avec un arrondi, on arrive bien au rapport x4,4 annoncé par Amazon par rapport aux 83,2 pétaflops de la génération précédente. Un UltraServer Trn3 complet dispose de 20,7 To de mémoire HBM3e et d’une bande passante agrégée de 706 To/s.

Avec une division par 144, cela nous donne 2,5 pétaflops de calculs en FP8 et 144 Go de mémoire par puce. Le même calcul donne respectivement 1,3 pétaflop et 96 Go pour la puce Trainium2. La bande passante mémoire totale de Trn2 est de 185 To/s (on a donc un gain de x3,8 avec Trainium3).

2 500 téraflops (ou 2,5 pétaflops) pour Trainium3 alors que NVIDIA revendique pour rappel 5 000 téraflops en FP8 pour un die Blackwell, mais le fabricant en intègre deux par puce, soit 10 000 téraflops. Pour rappel, la H100 de NVIDIA est annoncée pour 3 958 téraflops en FP8.

UltraClusters : jusqu’à un million de puces Trainium3

L’entreprise affirme avoir amélioré sa partie réseau, notamment son NeuronSwitch-v1 qui permet de doubler la bande passante à l’intérieur des UltraServers. Pour les échanges entre les puces, une version améliorée de Neuron Fabric permet de réduire la latence à moins de 10 ms.

Les UltraClusters sont aussi améliorés et peuvent connecter entre eux des milliers d'UltraServers pour arriver à un total d’un million de puces Trainium, soit 10 fois plus que les 100 000 puces de la génération précédente.

Prudence sur les chiffres d'Amazon toutefois. La société se faisait récemment l’écho du projet Rainier : une « infrastructure collaborative avec près d’un demi-million de puces Trainium2 ». Trainium3 ne fait donc « que » deux fois mieux, pas 10. Les puces de Rainier sont réparties entre plusieurs centres de données aux États-Unis.

Selon Amazon, ses UltraClusters permettent « l'entraînement de modèles multimodaux avec des milliards de jetons et de l'inférence en temps réel pour des millions d'utilisateurs en simultané ».

AWS re:Invent 2025 Trainium3

Trainium4 : FP4 et au NVLink Fusion

Si vous avez lu attentivement le début de cet article, vous savez certainement de quoi parle la fin : Trainium4. Amazon annonce « six fois plus de performances de traitement (FP4), trois fois plus de performances en FP8 et quatre fois plus de bande passante mémoire ».

L’annonce sur FP4 est la conséquence directe du x3 en FP8. En divisant la précision par deux, on multiplie les performances par deux. Amazon rejoint donc NVIDIA qui était le premier à se lancer en FP4 avec Blackwell.

Enfin, Amazon prévoit de rendre Trainium4 compatible avec NVLink Fusion, une technologie NVIDIA permettant de monter « une infrastructure d’IA semi-personnalisée », avec des puces du Caméléon et celles de partenaires. Au lancement, MediaTek, Marvell, Alchip Technologies, Astera Labs, Synopsys et Cadence s'étaient associés à l'annonce.

Commentaires (13)

votre avatar
Trainium, c'est comme les murs ou les portes indescrutibles en Scenarium dans les films ou jeux vidéo ? :D
votre avatar
C'est le matériau dont sont fait les trains (d'ou le nom) :D
votre avatar
1 million de puces. Je me place en PLS pour la planète.

Pendant ce temps là, la fondation Raspberry galère à payer de la RAM...

L'avantage c'est que côté pro on va continuer d'avoir AWS qui nous achète des équipements électriques pour leur DC.

Mais ça me rend quand même triste de voir qu'on peut investir autant pour l’IA mais que tout le monde botte en touche pour sauver l'écosystème dans lequel on vit et quon laissera à nos enfants. Aux génies de l’IA, on a besoin de vous comme des autres pour nous offrir le meilleur futur restant.
votre avatar
Je suis prêt à parier que les politiciens & cie raisonnent en terme d'économie d'échelle, se disant que les économies engendrées par l'IA les LLM, financeront la transition écologique... (OU pas.)
votre avatar
C'est bien ces petaflops, mais on n'y comprend rien à cette unité d'un ancien temps. Il nous faut des valeurs en GWh.
:francais:
votre avatar
J’ai acheté un ssd de 2 to Samsung en 2023.
J’ai regardé ce week-end 16go de ram et 2 to de ssd m2 (moins bonne marque) j’en avais pour au moins 300€.
Le ssd m2 en ce moment c’est entre ~160 et 200€ dans ses eaux la.
Ça fait mal de voir le prix doubler.

Ça a cause de l’IA, il y a quelques temps c’était les gpu avec les crypto…

Ils se privent de clients « légitimes » pour alimenter la bulle qui leur rapporte pas un rond.
votre avatar
Ah si, Nvidia s'en met plein les poches en vendant tout ce matos qui dans quelques mois/années sera soit obsolète soit inutile
votre avatar
... Et c'est à ce moment que l'on innovera en convertissant ces machines spécialisées IA en serveur PC tout ce qu'il y a de plus normal. La boucle sera enfin bouclée.

C'est beau le progrès quand même.
votre avatar
Sauf que les CPUs spécialisés ne sont pas forcément performants pour un usage général
votre avatar
(Ce n'était pas du premier degré)

Mais c'est ça l'innovation. On réinvente la roue 2 fois.

C'est Coluche qui disait que si on donnait le Sahara à des technocrate. Dans 2 ans ils vont chercher du sable ailleurs.
votre avatar
La majorité de la mémoire vive (DRAM) est produite par 3 gros industriels : Micron, Samsung, et Hynix.

Il existe 3 grands types de DRAM :
- DDR : celle utilisée pour les barrettes de RAM
- GDDR : celle que l'on va retrouver dans les cartes graphiques
- HBM (High Bandwidth Memory) : celle-ci va être particulièrement utile pour des unités de calculs qui ont besoin d'un gros débit, comme le genre de puce présenté dans l'article ici.

Il s'avère que la demande en HBM a explosé, et que les personnes qui l'achètent n'ont pas une grosse limite de budget. Les 3 fabricants ne sont pas fous, on les inonde d'argent pour fabriquer de la HBM, OSEF des autres DRAM, tu redistribues tes chaînes de production à ce qui remplit tes poches.
votre avatar
On peut tout de même espérer que les développeurs de logiciels et jeux en tout genre cesseront enfin d'externaliser leurs problèmes sur les clients finaux et donc optimiseront leurs produits. Il semblerait qu'on observe une chute de près de moitié des ventes de cartes mères, donc il va bien leur falloir s'adapter au marché.

Je suis sûr qu'il y a déjà des annonces en ce sens ! Je vais checker X vite fait.

Microsoft admits File Explorer is slow in Windows 11, and it’s going to preload it in the background to help improve launch performance.

Ok... Ce sera comme d'habitude en fait :craint: Après tout, c'est le problème du client s'il n'a pas pris le bon ordinateur quand il a été contraint d'en acheter un pour disposer de Windows 11... Et en plus le résultat est insuffisant... Il faudra que je comprenne un jour comment une bande de blaireaux aussi incompétents parvient à gagner autant d'argent chaque année :craint: Aucune jalousie, je veux juste faire de même :glasses:

Externaliser, toujours externaliser, même quand on a les moyens de bien faire...
votre avatar
Ce n'est pas vraiment cela. On sait faire rapide et optimisé. Simplement c'est moins porteur de valeur.

Windows est le stimulant pour l'achat de nouveaux PC. Autant que les éditeurs de jeux avaient des contrat pour 'remplir 1 cd/DVD'. Ou une exigence d'avoir la dernière carte vidéo. Ca forçait l'achat de matériel adapté.

Ca s'applique un peu a tout les domaines. Voiture (loi contraignante), chaudière (norme qui changent sans arrêt), etc.

Le truc inquiétant est que Linux en prend le pas aussi. Moins vite certes, mais on voit quand même un peu le phénomène. Ca fait plus de choses qu'avant (out of the box) mais bon. Vouloir faire du 'dumb friendly' qui fait la cuisine et le ménage. Ce n'est pas forcément le besoin de tous. Bon au moins ce n'est pas commercial.

Amazon lance ses puces Trainium3 pour l’IA : 2,5 pétaflops et 144 Go de HBM3e

  • Des UltraServers et UltraClusters avec Trainium3 disponibles

  • Trainium3 : x2 sur les performances, 50 % de mémoire en plus

  • UltraClusters : jusqu’à un million de puces Trainium3

  • Trainium4 : FP4 et au NVLink Fusion

Fermer