Microsoft Ignite 2023 : puces maison Maia 100 (IA) et Cobalt 100 (CPU), Azure Boost et Confidential VM

Maya l’abeille va butiner tes données

Le 20 novembre 2023 à 14h52

9 min

Hardware

Lors de la conférence Ignite la semaine dernière, Microsoft a fait de nombreuses annonces sur la partie logicielle, mais aussi sur la partie matérielle. Il y a ainsi un CPU Cobalt 100 (avec des cœurs ARM) et un accélérateur Maia 100, tous les deux développés en interne. Microsoft annonce au passage la disponibilité générale d’Azure Boost.

L’un des moments forts de la conférence Ignite a été l’annonce de deux puces développées en interne par Microsoft : l’Azure Maia 100 et l’Azure Cobalt 100. Dans un contexte de pénuries pour les GPU dédiés à l’accélération des tâches à l’IA, particulièrement chez NVIDIA (elle pourrait durer jusqu’en 2025, selon TSMC), il n’est pas étonnant que ce travail ait commencé il y a un moment chez Microsoft.

L’été dernier, Sam Altman avait indiqué que la pénurie de GPU entravait le développement des produits OpenAI. Sam Altman qui était d’ailleurs au centre d’un feuilleton digne de Santa Barbara ce week-end (il a été licencié d’OpenAI sans crier gare), qui s’est soldé par son passage chez… Microsoft avec une partie de l’équipe d’OpenAI.

Développer des puces maison permet à l’entreprise de réduire sa dépendance à d’autres constructeurs et de gagner des parts de marché. Microsoft jongle d’ailleurs entre l’annonce de ces puces maisons – évidemment présentées comme meilleures que la concurrence – et l'ajout des CPU/GPU de ses partenaires que sont AMD, Intel et NVIDIA.

Microsoft aura ses propres puces pour l’entrainement des grands modèles

La première puce, Maia 100, est un accélérateur matériel pour l’intelligence artificielle. Elle est conçue pour former et exécuter des modèles, y compris les grands. Cobalt 100 est au contraire un processeur plus général (Satya Nadela parle d’ailleurs d’un CPU durant sa conférence), conçu pour les autres besoins, mais en tandem avec la première. L’ambition de Microsoft est claire : « redéfinir l’infrastructure cloud, des puces en silicium aux systèmes, pour préparer l’IA dans chaque entreprise, dans chaque application, pour tout le monde ». L’entreprise était présente sur quasiment tous les secteurs, il ne lui manquait plus que la partie silicium.

« Microsoft construit l'infrastructure pour soutenir l'innovation en matière d'IA, et nous réimaginons chaque aspect de nos centres de données pour répondre aux besoins de nos clients. À l'échelle à laquelle nous opérons, il est important pour nous d'optimiser et d'intégrer chaque couche de la pile d'infrastructure afin de maximiser les performances, de diversifier notre chaîne d'approvisionnement et de donner aux clients un choix d'infrastructure », a déclaré Scott Guthrie, vice-président de la division Cloud et IA.

L’annonce précède de peu l’introduction. Selon Microsoft, Maia 100 et Cobalt 100 commenceront à être déployées dans les centres Azure dès le début de l’année prochaine. Dans un premier temps, elles seront réservées aux services maison, Copilot et Azure OpenAI Service ayant été cités comme exemples. Par la suite, elles devraient être disponibles dans d’autres offres.

Développées en interne depuis une feuille blanche

Ces puces, dont la deuxième génération est déjà en développement, ont été conçues depuis zéro, selon l’entreprise. Maia 100 contient 105 milliards de transistors et est gravée en 5 nm, « ce qui en fait l'une des plus grandes puces » utilisant ce procédé, selon Microsoft. C’est à elle que Microsoft compte confier l’entrainement et l’inférence de ses modèles, notamment sur Bing, GitHub, Microsoft 365 et OpenAI Service. À titre de comparaison, la puce Ada Lovelace des GeForce RTX 40 contient 76,3 milliards de transistors.

Dans un autre billet de blog, Microsoft donne quelques détails supplémentaires, particulièrement sur sa puce Azure Cobalt 100. Elle exploite l'architecture Arm « pour des performances ou une efficacité en watts optimale ». Elle s’occupera des charges de travail courantes sur Microsoft Cloud, et le fabricant y place de gros espoirs.

« Cobalt 100, la première génération de la série, est une puce 64 bits avec 128 cœurs [Arm, génération non précisée, ndlr] qui offre jusqu'à 40 % d'amélioration des performances par rapport aux générations actuelles de puces Azure Arm qui alimentent des services tels que Microsoft Teams et Azure SQL ». Microsoft ne donne par contre aucun détail supplémentaire, c’est bien dommage. Le « 64 bits » ne renseigne pas davantage, car les cœurs ARM sont depuis longtemps en 64 bits. C’est par exemple le cas du Cortex-A53 qui a déjà près de dix ans.

Lors de la conférence, Satya Nadella a affirmé que la puce Cobalt 100 « alimente déjà – au moment où nous parlons – certaines parties de Microsoft Teams, Azure Communications Services et Azure SQL ». Il prévoit de la mettre à disposition des clients dès « l'année prochaine ». On pourra alors tester ce qu’elle a dans le ventre, car nous n’avons pour le moment aucune idée de ses performances.

Même constat pour Maia 100. Contrairement aux puces de certains concurrents (TPU de Google, Tranium d’Amazon, MTIA de Meta…), Microsoft a choisi de ne pas la faire tester sur des plateformes comme MLCommons. Il semble – pour l’instant en tout cas – que Maia 100 ait été strictement développée pour des besoins internes.

En revanche, l’entreprise a expliqué avoir dû concevoir de nouvelles baies de serveurs pour accueillir ces puces, dont le format est un peu plus grand que ceux des GPU habituellement utilisés. Un refroidissement liquide est nécessaire, la Maia 100 consommant aussi plus d’énergie. Rien n’a été dit sur le rapport performances/watt.

On s’en doute, la firme ne prévoit pas d’arrêter de s’approvisionner en GPU tiers. Du moins pour le moment. Bien que l’arrivée de ses propres puces soit prévue dans quelques mois seulement, elles ne pourront probablement pas répondre seules à la demande.

Une bonne raison de continuer à entretenir des relations cordiales avec les fournisseurs habituels, NVIDIA en tête. L’intégration des nouveaux GPU H200 de ce dernier est d’ailleurs prévue pour l’année prochaine. Sur la même période, ce sera également le cas des accélérateurs MI300 d’AMD.

Des plans qui pourraient aussi rapidement évoluer avec l’arrivée des « transfuges » de chez OpenAI, notamment des pontes de la partie R&D. D’autant qu’OpenAI travaillait, elle aussi, sur ses propres puces TPU pour les calculs liés à l’intelligence artificielle, dont un prototype aurait récemment été présenté aux investisseurs.

Disponibilité générale d’Azure Boost pour les VM

La société profite de sa conférence pour annoncer la disponibilité générale d’Azure Boost (lancée en preview en juillet de cette année). Comme son nom l’indique, cette technologie permet d’augmenter les performances. Plus précisément, cela prend la forme d’une carte d’extension « conçue par Microsoft, qui décharge les processus de virtualisation de serveur traditionnellement effectués par l’hyperviseur et le système d’exploitation hôte, sur des logiciels et du matériel conçus à ces fins ».

Conséquence directe : « Ce déchargement libère des ressources du processeur pour les machines virtuelles invitées, ce qui améliore les performances ». La partie en réseau est améliorée (jusqu’à 200 Gb/s de bande passante), le stockage aussi (jusqu’à 17,3 Gb/s et 3,8 millions IOPS en local, contre 12,5 Gb/s et 650 000 IOPS à distance).

De plus amples informations sur Azure Boost ainsi que la liste des machines virtuelles pouvant en profiter sont disponibles par ici.

Des machines virtuelles confidentielles en approche

Puisque l’on parle de machines virtuelles, Microsoft a annoncé ses Confidential VM. Il s’agit de machines spécifiques, dont la sécurité a été renforcée.

Les caractéristiques principales sont une isolation matérielle entre les machines virtuelles, l’hyperviseur et le code de gestion sur l’hôte, des règles d’attestation personnalisables pour s’assurer que l’hôte est conforme avant déploiement, chiffrement du disque système avant le premier démarrage, clés de chiffrement gérées par le plateforme ou le client, installe virtuelle dédiée TPM pour l’attestation et la protection des clés et autres secrets de la VM, ainsi qu’un équivalent virtuel de Trusted Launch.

Les Confidential VM peuvent être utilisées avec les systèmes d’exploitation suivants :

Cependant, à cause des restrictions de sécurité, un certain nombre de fonctions Azure ne sont pas supportées : Batch, Backup, Site Recovery, Dedicated Host, Scale Sets, Compute Gallery, les disques Shared et Ultra, Accelerated Networking, les migrations Live ainsi que les captures d’écran pendant les diagnostics de démarrage.

Ces machines seront en préversion dans les semaines qui viennent. Elles sont équipées de puces H100 de NVIDIA et contiennent des processeurs gérant soit le TDX d’Intel ou le SEV-SNP d’AMD.

Commentaires (13)

sephirostoy Abonné

Le 20/11/2023 à 15h24

40% d’amélioration de perf pour le hardware qui fait tourner les serveurs Teams : va-t-on avoir enfin le rafraichissement des status en direct ?

yvan Abonné

Le 20/11/2023 à 15h40

Jamais vu de souci à ce niveau…

RuMaRoCO Abonné

Le 20/11/2023 à 16h16

Possiblement pour cette fonction, mais je confirme Teams n’est pas optimisé et à un grand nombre de Bug.
(Non libération de périphérique de captation (microphone) et-ou de restitution(HP) entre deux réunions par exemple…)

yvan Abonné

Le 20/11/2023 à 16h18

Idem, jamais vu de manière systématique et pourtant j’ai une carte son Audient avec des drivers pas vraiment orientés multimédia et parfois capricieux.

RuMaRoCO Abonné

Le 20/11/2023 à 16h20

Concernant la new, sa fait toujours bizarre de voir Microsoft faire du matériel, à part qlq éléments (clavier , souris) je n’ai pas de bon souvenir de leur gestion des matériels (LUMIA par exemple)

Narm

Le 21/11/2023 à 09h51

De mon côté, je n'ai que de bons souvenirs du matériel Microsoft, notamment leur gamme Sidewinder. Et mon Lumia 830 a surement été un des meilleurs téléphone que j'ai eu, là où ça pêchait c'était effectivement la fin en queue de poisson de W10M.

Wosgien Abonné

Le 21/11/2023 à 18h36

Les lumia étaient excellents - quoique les attribuer à Microsoft, je ne suis pas convaincu.

RuMaRoCO Abonné

Le 22/11/2023 à 10h51

Je suis d'accord, bien que certain pense que l'environnement Windowsphone n'était pas bien, pour moi, à cet époque mes lumia étaient très bien.
Mais quand je parle du suivi, je parle de la 1ere douille avec les lumia 700 et 800 qui n'ont jamais pu passé en windowshone 8. (de ce que je me souviens ça date maintenant)

Wosgien Abonné

Le 22/11/2023 à 22h56

Ayant donné un lumia 735 passé en Windows 10 sans bidouille, je ne suis pas d'accord.
D'autant plus qu'une fois passé en Windows 10 et Windows Phone abandonné, le store a commencé à se remplir et le lumia a eu une seconde vie :)

DantonQ-Robespierre Abonné

Le 20/11/2023 à 16h45

Cependant, à cause des restrictions de sécurité, un certain nombre de fonctions Azure ne sont pas supportées : Batch, Backup, Site Recovery, Dedicated Host, Scale Sets, Compute Gallery, les disques Shared et Ultra, Accelerated Networking, les migrations Live ainsi que les captures d’écran pendant les diagnostics de démarrage.

Alors je vous présente mon incroyable, inimitable… gâteau au chocolat zéro calories ! sans chocolat, sans farine, sans oeufs, sans beurre, ni lait, ni sucre… sans rien en fait, c’est un gâteau uniquement conceptuel, qui existe en un sens, dans nos têtes, mais qui n’a aucun goût, aucune fonction, aucune utilité…

…pour des raisons de sécurité oeuf course ! En effet, pouvons-nous prendre le risque qu’un de nos clients grands comptes fasse une crise d’allergie à l’un des ingrédients lors de la dégustation ?
Non, non, non !!!

Avec Confidential VM, vous avez la VM… mais aucune de ses fonctions. Vous ne pourrez même pas y installer un simple fichier texte, notre produit ne laissera rien passer. Rien. Zéro. Non, même pas ça.

SebGF Abonné

Le 20/11/2023 à 17h19

Microsoft aura ses propres puces pour l’entrainement des grands modèles

Nvidia va un peu faire la gueule, non ? Vu qu’en ce moment vendre du GPU pour entraîner et faire tourner de l’IA c’est sa mamelle.

fofo9012 Abonné

Le 21/11/2023 à 07h45

HS : il manque les images sur cet article, et la fonction contextuel signaler une erreur fait elle-même un furtif "un erreur technique est survenue"

next Équipe

Le 21/11/2023 à 07h56

Yes, on a un petit souci de redirection avec le cdn, pour le report d'erreur,on regarde ça