Amazon intensifie la concurrence sur les LLM avec ses modèles Nova et ses puces Trainium3

Microsoft et Google dans la ligne de mire

Amazon Web Services tient actuellement sa conférence annuelle re:invent à Las Vegas. Elle y a notamment annoncé hier soir une nouvelle famille de modèles d’IA, nommée Nova, ainsi que la disponibilité de sa puce Trainium2, spécialisée dans l'entrainement et l'inférence. L’ambition est claire : rattraper et dépasser Microsoft et Google.

Vincent Hermann

Le 04 décembre à 11h51

9 min

IA et algorithmes

Si AWS est en tête sur le cloud, elle ne l’est pas dans l’intelligence artificielle. La filiale d’Amazon est perçue comme en retard dans ce domaine, particulièrement sur les LLM qui attirent l’essentiel de l’attention. Dans le cadre de sa conférence re:invent, AWS vient justement de frapper fort avec une importante série d’annonces, tant sur le logiciel que le matériel.

Nova, toute une famille de LLM

Le cœur des annonces d’AWS était Nova, nom donné par la société à une nouvelle famille de grands modèles de langage. Le premier, Nova Micro, est un modèle textuel prenant en charge une fenêtre de contexte de 128 000 jetons et axé sur la faible latence. Il est clairement conçu pour les petits appareils ou les tâches spécifiques. Le réglage fin et la distillation sont pris en charge.

Deuxième de la liste, Nova Lite. Il s’agit cette fois d’un modèle multimodal avec une fenêtre de contexte de 300 000 jetons. Il est présenté comme très peu coûteux et peut traiter des images, des vidéos et du texte pour générer du texte. Lite peut traiter jusqu’à 30 min de vidéo en une seule demande. Le réglage fin et la distillation sont aussi de la partie.

Nova Pro est pour l’instant le plus gros représentant de la nouvelle famille. AWS le décrit comme très performant et multimodal. Prenant en charge lui aussi 300 000 jetons, il est en quelque sorte la version complète de Nova Lite. Il peut d’ailleurs servir de modèle d’enseignement pour distiller ses connaissances vers les modèles Micro et Lite.

Nova Micro, Lite et Pro sont disponibles dès à présent. Ils seront rejoints en début d’année prochaine par un quatrième modèle nommé Premier, qui sera alors le modèle le plus puissant d’Amazon, orienté vers les tâches de raisonnement complexes. Il est en cours d’entrainement et AWS reviendra plus en détail sur ses caractéristiques d’ici sa sortie.

Canvas et Réel pour la génération multimédia

À ces quatre modèles de fondation s’ajoutent deux modèles spécialisés. Le premier, Canvas, est dédié à la génération d’images, à partir de texte ou d’autres images. On peut s’en servir notamment pour modifier des images existantes, en décrivant dans la demande le type de traitement que l’on souhaite appliquer, comme des modifications de la palette de couleurs.

Le second, Reel, peut générer des vidéos en haute qualité d’un maximum de 6 secondes à partir de texte et d’images. Tous les éléments composant les vidéos peuvent être paramétrés dans la demande. AWS promet un passage à 2 min dans le courant de l’année prochaine. Canvas et Reel sont également disponibles. Le réglage fin pour ces deux modèles est promis pour « bientôt ». En revanche, tous deux sont équipés de contrôles de sécurité, dont les filigranes pour marquer l’origine des contenus générés.

Il n’y a, comme très souvent, aucune information sur les données utilisées pour l’entrainement sur aucun des six modèles.

Disponibilité limitée et tarification agressive

Bien que tous les modèles soient disponibles (à l’exception de Premier), ils ne le sont pas partout. La disponibilité commerciale réelle est pour l’instant limitée à la région US East (Virginie du Nord) via Amazon Bedrock. Nova Micro, Lite et Pro sont également disponibles dans US West (Oregon) et US East (Ohio), mais pas Canvas et Reel. Aucune date de disponibilité n’est indiquée dans les annonces pour d’autres régions.

Les quatre modèles de fondation prennent en charge plus de 200 langues, dont de « fortes capacités » en anglais, allemand, espagnol, français, italien, japonais, coréen, arabe, chinois simplifié, russe, hindi, portugais, néerlandais, turc et hébreu. Canvas et Reel ne prennent pour l’instant en charge que l’anglais.

La tarification se veut agressive. Sur Nova Pro par exemple, le coût est de 0,8 dollar pour un million de jetons en entrée et de 3,2 dollars pour un million de jetons en sortie. Pour comparaison, OpenAI demande respectivement 2,5 et 10 dollars pour son GPT-4o. Google fait respectivement payer 1,25 et 2,5 dollars pour son Gemini 1.5 Pro, suite à une baisse importante du tarif en septembre. Il était en effet de 3,5 et 10,5 dollars.

Nova Lite, toujours pour un million de jetons en entrée et sortie, demande pour sa part 0,06 et 0,24 dollar. Quant au plus petit modèle, Micro, le tarif descend à 0,035 et 0,14 dollar, soit des prix inférieurs à ceux de Gemini Flash 8B, le plus petit modèle de Google. Une intensification sensible de la concurrence, même si l’on ne connait pas encore les capacités et performances réelles des nouveaux modèles d’Amazon.

La puce Trainium2 disponible, Trainium3 pour l'année prochaine

L’année dernière, lors de la conférence re:invent, Amazon annonçait sa puce Trainium2 pour l’intelligence artificielle, aussi bien en entrainement qu’en inférence (lorsqu’on utilise le modèle). La société ne tarissait pas d’éloges : « Trainium2 est conçue pour offrir des performances d'entraînement jusqu'à quatre fois plus rapides et une capacité de mémoire multipliée par trois par rapport aux puces Trainium de première génération, tout en améliorant l'efficacité énergétique (performances/watt) jusqu'à deux fois ».

Amazon re:invent : SoC Graviton4 (Arm), instance R8 g et Trainium2 pour l’IA

Il a fallu attendre un an pour que les instances AWS avec Trainium2 (Trn2) soient disponibles, mais uniquement dans les datacenters de la région East (Ohio) des États-Unis pour le moment. Une ouverture plus large est prévue, sans plus de détails.

Selon Amazon, les instances Trn2 « offrent un rapport performance/prix 30 à 40 % supérieur à celui des instances GPU EC2 (P5e et P5en) et disposent de 16 puces Trainium2 pour fournir 20,8 PFLOPS de puissance de calcul ». AWS propose aussi des EC2 Trn2 UltraServers (en preview pour l’instant) avec 64 Trainium2 interconnectés, pour une puissance maximale de 83,2 PFLOPS

Enfin, avec Anthropic, AWS construit un UltraCluster EC2 avec des Trn2 UltraServers (nom de code Rainier). Cet ensemble contiendra des « centaines de milliers de puces Trainium2 et plus de cinq fois le nombre d'exaflops utilisés pour former leur génération actuelle de modèles d'IA ». Selon Amazon, « une fois terminé, il devrait s’agir du plus grand cluster de calcul d’IA au monde ».

De son côté, Anthropic adapte déjà son modèle Claude pour qu’il fonctionne sur Trainium2. Ce rapprochement entre les deux sociétés n’est pas le fruit du hasard. Un an après avoir investi 4 milliards de dollars dans Anthropic, Amazon a doublé la mise il y a quelques jours avec 4 milliards de dollars de fonds supplémentaires pour la startup spécialisée dans l'IA. Anthropic est pour rappel également soutenue par Google (2 milliards de dollars) et présentée comme la grande rivale d’OpenAI (ChatGPT).

Amazon évoque également la suite : Trainium3. Elle sera « la première puce AWS fabriquée avec un processus en 3 nanomètres », permettant d’augmenter les performances en réduisant la consommation.

Selon AWS, les « UltraServer alimentés par Trainium3 devraient être quatre fois plus performants que les UltraServer Trn2 ». La société ne donne par contre aucun détail supplémentaire sur ses puces, dommage. Nous savons simplement que les premières instances « basées sur Trainium3 devraient être disponibles fin 2025 ».

D’autres annonces de la conférence re:invent

Si les modèles Nova et les puces Trainium étaient les annonces les plus importantes, la conférence re:invent en a vu d’autres, puisqu’il s’agit de la grand-messe annuelle d’Amazon pour les développeurs et clients.

Pour rester dans le domaine de l’IA, la société a annoncé par exemple Automated Reasoning checks, un nouveau service dédié à la détection des hallucinations. Disponible en préversion à travers Bedrock Guardrails, il ferait d’AWS « le premier et le seul grand fournisseur de cloud à intégrer le raisonnement automatisé dans ses offres d'IA générative ». Ce qui est faux, puisque Microsoft a annoncé son propre service dans ce domaine en septembre.

Signalons également plusieurs annonces pour Amazon Q, dont un partenariat avec GitLab. L’assistant Duo de GitLab va ainsi être combiné aux agents autonomes Q, pour (à nouveau) offrir des gains de productivité aux développeurs. L’un des bénéfices sera l’intégration de Q Developer dans la fenêtre de discussion de Duo. L’annonce est liée à une autre sur les capacités de Q Developer, qui s’étendent davantage vers la gestion du cycle de vie. Ce point doit devenir un facteur de différenciation selon Amazon.

Du neuf aussi pour Q Business, notamment l’élargissement de QuickSight à l’ensemble des informations qu’une entreprise peut avoir dans ses bases, entrepôts et lacs de données. Cette capacité est disponible en avant-première. Amazon propose en outre une nouvelle API pour permettre aux produits tiers d’intégrer Q Business. Un partenariat a d’ailleurs été annoncé avec Zoom, qui se servira de Q Business pour améliorer son propre assistant IA.

Les (nombreuses) annonces d'Amazon peuvent être consultées depuis cette page. La conférence est toujours en cours.

Commentaires (1)

atok

Aujourd'hui à 02h48

Toujours plus pour moins chère ?

Quand je vais demander à Claude au bar du coin où il met son réacteur nucléaire pour alimenter tout ça... ^^

Pardon, c'est pas dredi. Je suis déjà loin ->[]