Amazon re:invent : SoC Graviton4 (Arm), instance R8 g et Trainium2 pour l’IA

Tout plus mieux qu'avant

Comme chaque année, Amazon profite de sa conférence re:invent pour dévoiler des nouveautés tous azimuts. Nous vous proposerons comme toujours un compte rendu des principales annonces, mais voici déjà ce qu’il faut retenir sur la partie hardware. Le SoC maison Graviton (Arm) passe à la 4e génération, et on le retrouve dans les instances R8 g. Pour l’IA, la puce Trainium2 débarque.

Sébastien Gavois

Le 29 novembre 2023 à 09h30

5 min

Hardware

Graviton à Graviton3E : rapide rétrospective de 2018 à 2022

Amazon propose une petite rétrospective pour commencer. Le premier Graviton – avec une architecture Arm – a été lancé en novembre 2018, avec 16 Cortex A72. Il était disponible via les instances A1, de 1 vCPU avec 2 Go de mémoire à 16 vCPU et 32 Go. À cette époque, des instances R5 et M5 avec des puces AMD étaient aussi disponibles.

Un an plus tard, en décembre 2019, Graviton2 débarque. Arm est toujours aux commandes, avec 64 cœurs Neoverse N1 (64 bits) et une finesse de gravure en 7 nm. Amazon revendiquait alors des performances « jusqu'à sept plus élevées que sur des instances A1, dont deux fois en virgule flottante ». Cette fois-ci, ce sont les instances C6, M6 et R6 qui en profitent.

ARM dans les datacenters : des détails techniques sur Neoverse V1, N2 et CMN-700

Il faudra laisser passer une année blanche (2020) avant de voir débarquer Graviton3, en novembre 2021 donc. Cette puce intègre toujours 64 cœurs Arm, mais cette fois des Neoverse V1 (bien plus rapides). On retrouve ces SoC sur des instances C7.

Là encore, Amazon revendique de fortes hausses des performances : « jusqu'à 25 % de plus sur le calcul, et jusqu'à deux fois plus en virgule flottante et en cryptographie ». Autre changement important : la prise en charge de bfloat16 et des performances jusqu'à trois fois supérieures pour le machine learning.

- Les nombres en informatique : entiers, virgule flottante, simple et double précision (FP32/64), Tensor Float (TF32)…

L’année dernière, pas de Graviton4, mais une puce Graviton3E à la place, qui n’est « qu’une » version un peu dopée du Graviton3, avec toujours des cœurs Neoverse V1. Amazon annonce tout de même des « performances de traitement d'instructions vectorielles jusqu'à 35 % supérieures ». Aujourd’hui, Amazon revendique pas moins de 150 instances différentes dans son catalogue avec un SoC Graviton aux commandes.

Graviton4 : 96 cœurs Neoverse V2

Voici maintenant Graviton4, qui se veut « économe en énergie ». Le géant du Net donne quelques détails techniques : 96 cœurs Neoverse V2 (« Jusqu'à x2 les performances de Neoverse V1 », selon Arm), 2 Mo de cache L2 par cœur et 12 canaux DDR5-5600.

Amazon indique que Graviton4 serait « jusqu'à 40 % plus rapide pour les bases de données, 30 % plus rapide pour les applications Web et 45 % plus rapide pour les grandes applications Java que le Graviton3 ». La densité augmente aussi de 50 % puisqu’on passe de 64 à 96 cœurs.

Fiche technique d’une puce Neoverse V2 d’ARM

Instances R8 g, avec jusqu’à 192 cœurs et 1,5 To de mémoire ?

Pour l’occasion, de nouvelles instances R8 g seront proposées. Selon le communiqué, elles « offrent des performances jusqu'à 30 % supérieures et des instances bien plus grandes avec jusqu'à trois fois plus de processeurs virtuels (vCPU) et de mémoire que les instances R7 g, basées sur AWS Graviton3 ».

Les actuelles R7 g grimpent déjà jusqu’à 64 vCPU et 512 Go de mémoire. R8 g devrait donc monter jusqu’à 192 cœurs et 1,5 To de mémoire vive. Les instances R8G sont accessibles en Preview, avec une disponibilité générale prévue pour les prochains mois.

Trainium2 met à terre Trainium pour l’entrainement des IA

Bien évidemment, l’intelligence artificielle s’invite dans la partie hardware de la conférence. AWS annonce en effet sa puce Trainium2. Elle prend la relève de Trainium premier du nom… qui est l'accélérateur de machine learning (ML) de deuxième génération d’AWS.

Amazon revendique des gains très importants : « Trainium2 est conçue pour offrir des performances d'entraînement jusqu'à quatre fois plus rapides et une capacité de mémoire multipliée par trois par rapport aux puces Trainium de première génération, tout en améliorant l'efficacité énergétique (performances/watt) jusqu'à deux fois ».

Une puce pour les (très) gros modèles de langage

Trainium2 sera disponible dans des instances Trn2, à l’instar des Trainium qui sont dans des Trn1. Par instance, on retrouve 16 puces Trn1 ou Trn2 suivant les cas. « Les instances Trn2 doivent permettre aux clients de grimper jusqu'à 100 000 puces Trainium2 dans les UltraClusters EC2 de nouvelle génération ». Amazon revendique « jusqu'à 65 Exaflops de calcul ».

Le changement d’échelle est important pour l’entrainement d’un grand modèle de langage avec 300 milliards de paramètres. On passe en effet de quelques mois à quelques semaines seulement, selon Amazon.

Commentaires (12)

Gilbert_Gosseyn Abonné

Le 29/11/2023 à 16h51

"Instances R8g, avec jusqu’à 192 cœurs et 1,5 Go de mémoire ?

Pour l’occasion, de nouvelles instances R8g seront proposées. Selon le communiqué, elles « offrent des performances jusqu’à 30 % supérieures et des instances bien plus grandes avec jusqu’à trois fois plus de processeurs virtuels (vCPU) et de mémoire que les instances R7g, basées sur AWS Graviton3 »."

Cela ne serait pas plutôt 1,5 To de mémoire ?

Sébastien Gavois Équipe

Le 29/11/2023 à 22h45

Oui, 3x 512 Go -> 1,5 To. C’est corrigé, merci :)

Cqoicebordel Abonné

Le 30/11/2023 à 00h30

Non, c'est toujours faux dans le titre de la section.

Question à part, vous recevez les signalements pour erreurs ? Parce que je l'ai fait pour celle là et d'autres dans

Next et c'est toujours pas corrigé.

Non pas que je critique ton boulot. C'est juste que si c'est pas utilisé, ça sert à rien que je me casse le cul à remplir les signalements.

Cqoicebordel Abonné

Le 30/11/2023 à 22h46

Personne lit les commentaires non plus, visiblement…

Sébastien Gavois Équipe

Le 30/11/2023 à 22h57

Sisi… Les signalements d’erreur arrivent bien à la rédac, on ne peut pour le moment pas y répondre facilement pour le moment. Donc déjà merci des signalements (nombreux) sur cette faute. Je n’ai pas eu le temps de le faire aussi rapidement que nécessaire à cause de longs déplacements, c’est désormais fait.

Et tu peux continuer à signaler les erreurs, et commenter :)

Cqoicebordel Abonné

Le 01/12/2023 à 13h34

Honnêtement, même sans réponse, ça me va quand c'est corrigé.

Et ici, c'est corrigé, mais les autres signalements ne l'ont pas été.
C'est ultra frustrant parce qu'on fait la relecture, et on corrige les fautes dans la demi-heure, l'heure, ou même les 24h après la publications, et faut attendre minimum 48h pour que ce soit corrigé, si ça l'est.
Du coup, on a (j'ai) l'impression de pisser dans un violon, alors qu'on (j') essaye de se décarcasser pour que le maximum de lecteurs voient l'article sous sa meilleure forme.

Et si c'est le nombre de notifications de corrections qui rend le travail difficile, y'a plusieurs solutions : soit corriger plus vite, soit afficher les demandes de correction publiquement (souligner le texte, avec un tooltip, par exemple), ou, relire les articles avant de les publier…

Bref, désolé de ma mauvaise humeur, c'est vraiment ultra frustrant de faire des efforts et de voir que ça n'a que peu d'effets :(

fred42 Abonné

Le 01/12/2023 à 16h36

Je t'entends déjà dire : "C'est quoi ce bordel !" en ruminant.

La période de transition n'est pas facile, un peu bienveillance.

Et si toi aussi tu lisais plus les commentaires, tu aurais vu qu'ils avaient déjà dit plusieurs fois que les erreurs arrivaient bien chez eux après un soucis de redirection de mail au début.

Cqoicebordel Abonné

Le 01/12/2023 à 19h49

Je l'ai vu, mais mes remontés d'il y a trois jours sont pas corrigées.

Je comprend la période de transition, mais là, ça a rien à voir : c'est juste éditer du texte pour retirer les erreurs, vu qu'ils reçoivent les notifications d'erreurs.

Un article est probablement le plus lu dans ses premières 24h. Si on fait la notification dans les 3 premières heures, attendre trois jours pour que ce soit corrigé, bah c'est presque inutile.

Surtout que c'est pas un problème récent. C'était déjà comme ça dans la v7.

On fait la Q/A gratos, on fait aussi la relecture gratos, et le tout rapidement. Le minimum, c'est que les coquilles soient corrigées (relativement) rapidement.
Ca me pose pas de problème de faire tout ça, mais uniquement si y'a des effets, sinon, ça sert à rien.

fred42 Abonné

Le 01/12/2023 à 20h20

Je remonte aussi pas mal d'erreurs, je considère ça comme une contribution au site mais je ne m'énerve pas quand ce n'est pas fait tout de suite. Je laisse l'équipe gérer ses priorités.

Cqoicebordel Abonné

Le 01/12/2023 à 22h26

Je m'énerve pas, je suis juste frustré et de mauvaise humeur :)

C'est juste que j'ai vu trop d'erreurs qui n'ont jamais été corrigées, et à force, ça fatigue, c'tout.

kissifrot Abonné

Le 29/11/2023 à 20h16

Ça serait bien que ça fasse baisser le prix des r6g

mrintrepide Abonné

Le 30/11/2023 à 10h45

J'imagine que l'avantage de cela est le prix et la consommation/dissipation électrique/thermique par rapport à un double 96 coeurs EPYC x86 d'AMD ?