Connexion Premium

Microsoft lance Windows ML pour l’inférence locale de modèles IA

Le 24 septembre 2025 à 10h13

Windows ML, pour Machine Learning, a été présenté cette année pendant la conférence Build, avec une première préversion. Il s’agit d’un environnement d’exécution pensé pour l’inférence locale, donc sans interroger des serveurs distants, et pour fournir une couche unifiée dans le traitement, sans tenir compte du matériel sous-jacent.

Microsoft a annoncé la disponibilité générale de son Windows ML hier soir. Une étape importante pour l’éditeur, car ce nouveau produit est désormais intégré au SDK (Software development kit) de Windows et prend en charge tous les PC ayant au moins Windows 11 24H2. Microsoft ajoute que plusieurs éditeurs intègrent déjà Windows ML dans leurs produits, notamment Adobe, BUFFERZONE, Dot Inc., McAfee, Reincubate, Topaz Labs et Wondershare.

« En exploitant la puissance des CPU, GPU et NPU de notre écosystème dynamique de partenaires de silicium et en s’appuyant sur la forte dynamique d’ONNX, Windows ML permet aux développeurs de fournir des charges de travail d’IA en temps réel, sécurisées et efficaces, directement sur l’appareil », indique Microsoft dans son annonce.

La société insiste sur la facilité, précisant que l’utilisation d’ONNX permet l’intégration simple dans les flux de travail, l’utilisation des API ORT « familières » et le support de diverses architectures matérielles, ces dernières étant détectées pour télécharger les fournisseurs d’exécution appropriés.

Les développeurs peuvent en outre précompiler leurs modèles à l’avance (AOT) et tabler sur des scénarios d’utilisation en fonction du type de matériel. Par exemple, en débloquant toutes les capacités du modèle quand un GPU dédié est détecté et en s’en remettant au NPU le reste du temps. Pour cette partie matérielle, Microsoft dit avoir travaillé avec AMD, Intel, NVIDIA et Qualcomm. Windows ML est cependant décrit comme « optimisé pour le matériel le plus récent ».

Le 24 septembre 2025 à 10h13

Commentaires (16)

votre avatar
hé bien... Non. Au revoir Microsoft.
votre avatar
Qu'est ce qui est reproché à Microsoft exactement ici ? Ils ne font que mettre en place une API qui permet aux applications d'accéder au matériel dédié à l'IA, rien de plus.
votre avatar
Sa complicité avec des criminels.
votre avatar
Ah oui donc rien à voir avec la news, en fait.
votre avatar
Oh, pardon d'avoir dérangé la quiétude et l'insouciance... Me concernant j'ai du mal à fermer les yeux.
votre avatar
Très bonne initiative je trouve. Simplifier un peu ce bazar qu'est l'IA local, avec plusieurs moteurs d'inférences disséminés et des format différents pour chaque...
votre avatar
Je viens de regarder, c'est assez intéressant pour déployer facilement un modèle sur n'importe quelle machine.

En gros, une fois que l'on a un modèle de machine learning, on utilise leurs outils pour le convertir au format ONNX (ça semble assez général, car ça inclut Scikit-learn, donc potentiellement des trucs plus classiques comme des Random Forest).
Derrière, il propose un Runtime à l'échelle de l'OS (donc pas une copie à chaque programme) qui va lui être responsable d'exécuter le modèle sur la machine, en tenant compte des spécificités de celle-ci (genre, utiliser cuda pour du matos Nvidia en général, TensorRT-RTX pour les cartes RTX, ROCm pour de l'AMD...). Ce genre de chose est généralement une horreur. Là, c'est plutôt cool, il suffit de convertir son modèle en ONNX et de l'exécuter sans se soucier du matos.
votre avatar
Sinon, Ollama c'est libre ;)

Edit : juste au moment où Ollama annonce ses Cloud models XD
https://ollama.com/blog/cloud-models
votre avatar
Est-ce que ça répond à la problématique à laquelle Microsoft répond ici, en particulier une abstraction du matériel pour faire tourner localement sous Windows de l'IA ?

Et citer les modèles cloud alors que justement, ici on a des modèles qui tournent localement, me semble un peu hors sujet.
votre avatar
Ollama c'est une CLI qui permet d'exécuter un LLM sans avoir à se soucier du reste. Je n'ai jamais rien configuré dessus pour le matériel alors que je l'ai utilisé aussi bien sur du CPU seul que des configs avec GPU.
(ce sont aussi des libs qu'on peut intégrer dans des programmes pour lancer simplement une exec de LLM et des API qu'on peut appeler, ça s'intègre avec OpenWeb UI par exemple)

Le deuxième point était une boutade : le but premier d'Ollama est justement de faire tourner en local des modèles que tu télécharges. Ici, au moment où MS annonce la même chose, Ollama propose des versions exécutées en Cloud (surtout des gros modèles à 3 ou 400b params).
votre avatar
En fait, Ollama ne répond pas du tout à la même problématique. Ollama se limite à fournir une CLI pour un grand nombre de LLMs exécutés locallement. Ici, Microsoft ML propose de porter n'importe quel modèle (LLM inclus, mais pas que, j'ai vu que tu peux utiliser un modèle de Random Forest Classifier de Scikit-learn, donc c'est vraiment large), de l'utiliser dans ton application via l'API et le runtime sans avoir à te soucier, en tant que développer, du matos sur lequel ton programme va être exécuté.

Mais potentiellement, Ollama pourrait tirer profit de Microsoft ML pour porter et exécuter n'importe quelle modèle de LLM sur n'import quel matériel sur Windows.

De l'autre côté ONNX runtime (l'outil principal derrière Windows ML) est quand même dispo sur plein de plateforme avec plein d'"execution provider" (il y a Apple CoreML, Android NNAPI... par exemple), mais le dev doit gérer lui-même ONNX runtime (ajouter le runtime à son package/le télécharger, là où dans Windows ML, c'est intégré comme un outil système) et les "execution provider" (tu dois les empaqueter/télécharger dans ton package, et utiliser les bons en fonction du matos)
votre avatar
Ollama n'est pas juste une CLI... C'est tout un moteur dans lequel les modèles vont pouvoir s'exécuter. D'ailleurs, la dernière grosse évolution d'Ollama concerne justement ce moteur : https://www.ollama.com/blog/new-model-scheduling
votre avatar
OK pour mettre des LLM dans les apps avec n'importe quelle machine, mais pour des LLM intégré à l'OS, faut un PC Copilot+? :D
votre avatar
A priori, non. J'ai trouvé ça dans les spécifications :

*System requirements


  • OS: Windows 11 version 24H2 (build 26100) or later

  • Architecture: x64 or ARM64

  • Hardware: Any PC configuration (CPUs, integrated/discrete GPUs, NPUs)*



Et comme je l'ai dit plus haut, ce n'est pas uniquement du LLM, mais n'import quel modèle. Tu peux aller chercher un modèle sur Hugging Face, le convertir en ONNX et l'utiliser dans ton application sans avoir à te faire chier à gérer les environnements pour que ça fonctionne au mieux sur tous les matos. Si le mec, il n'a qu'un CPU, bien ça tournera, lentement, sur le CPU.
votre avatar
c'est surtout qu'il y a quelques mois en arrière je n'ai pas réussi à faire fonctionner un modèle sous npu correctement avec ollama j'ai pu utiliser le CPU ou le GPU mais jamais le NPU, il se peut qu'il faut que le modèle soit aussi compatible NPU mais je n'en suis pas sur à 100%, il se peut que les choses aient évoluées côté ollama mais cette avancé côté Windows ML pourrait enfin régler ce problème car c'est bien d'avoir des NPU mais si on ne peut pas les utiliser c'est un peu dommage :(
votre avatar
A ma connaissance, Ollama fonctionne sur CPU (mais c'est très lent) et sur les GPU nVidia et AMD (mais pas intel)