Microsoft lance Windows ML pour l’inférence locale de modèles IA
Le 24 septembre 2025 à 10h13
2 min
IA et algorithmes
IA
Windows ML, pour Machine Learning, a été présenté cette année pendant la conférence Build, avec une première préversion. Il s’agit d’un environnement d’exécution pensé pour l’inférence locale, donc sans interroger des serveurs distants, et pour fournir une couche unifiée dans le traitement, sans tenir compte du matériel sous-jacent.
Microsoft a annoncé la disponibilité générale de son Windows ML hier soir. Une étape importante pour l’éditeur, car ce nouveau produit est désormais intégré au SDK (Software development kit) de Windows et prend en charge tous les PC ayant au moins Windows 11 24H2. Microsoft ajoute que plusieurs éditeurs intègrent déjà Windows ML dans leurs produits, notamment Adobe, BUFFERZONE, Dot Inc., McAfee, Reincubate, Topaz Labs et Wondershare.
« En exploitant la puissance des CPU, GPU et NPU de notre écosystème dynamique de partenaires de silicium et en s’appuyant sur la forte dynamique d’ONNX, Windows ML permet aux développeurs de fournir des charges de travail d’IA en temps réel, sécurisées et efficaces, directement sur l’appareil », indique Microsoft dans son annonce.
La société insiste sur la facilité, précisant que l’utilisation d’ONNX permet l’intégration simple dans les flux de travail, l’utilisation des API ORT « familières » et le support de diverses architectures matérielles, ces dernières étant détectées pour télécharger les fournisseurs d’exécution appropriés.
Les développeurs peuvent en outre précompiler leurs modèles à l’avance (AOT) et tabler sur des scénarios d’utilisation en fonction du type de matériel. Par exemple, en débloquant toutes les capacités du modèle quand un GPU dédié est détecté et en s’en remettant au NPU le reste du temps. Pour cette partie matérielle, Microsoft dit avoir travaillé avec AMD, Intel, NVIDIA et Qualcomm. Windows ML est cependant décrit comme « optimisé pour le matériel le plus récent ».
Le 24 septembre 2025 à 10h13
Commentaires (16)
Abonnez-vous pour prendre part au débat
Déjà abonné ou lecteur ? Se connecter
Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles d'un média expert
Profitez d'au moins 1 To de stockage pour vos sauvegardes
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 24/09/2025 à 10h38
Le 26/09/2025 à 16h38
Le 26/09/2025 à 23h04
Le 27/09/2025 à 01h06
Modifié le 27/09/2025 à 09h43
Le 24/09/2025 à 11h14
Le 24/09/2025 à 11h57
En gros, une fois que l'on a un modèle de machine learning, on utilise leurs outils pour le convertir au format ONNX (ça semble assez général, car ça inclut Scikit-learn, donc potentiellement des trucs plus classiques comme des Random Forest).
Derrière, il propose un Runtime à l'échelle de l'OS (donc pas une copie à chaque programme) qui va lui être responsable d'exécuter le modèle sur la machine, en tenant compte des spécificités de celle-ci (genre, utiliser cuda pour du matos Nvidia en général, TensorRT-RTX pour les cartes RTX, ROCm pour de l'AMD...). Ce genre de chose est généralement une horreur. Là, c'est plutôt cool, il suffit de convertir son modèle en ONNX et de l'exécuter sans se soucier du matos.
Modifié le 24/09/2025 à 12h21
Edit : juste au moment où Ollama annonce ses Cloud models XD
https://ollama.com/blog/cloud-models
Le 24/09/2025 à 12h35
Et citer les modèles cloud alors que justement, ici on a des modèles qui tournent localement, me semble un peu hors sujet.
Le 24/09/2025 à 13h07
(ce sont aussi des libs qu'on peut intégrer dans des programmes pour lancer simplement une exec de LLM et des API qu'on peut appeler, ça s'intègre avec OpenWeb UI par exemple)
Le deuxième point était une boutade : le but premier d'Ollama est justement de faire tourner en local des modèles que tu télécharges. Ici, au moment où MS annonce la même chose, Ollama propose des versions exécutées en Cloud (surtout des gros modèles à 3 ou 400b params).
Le 24/09/2025 à 14h09
Mais potentiellement, Ollama pourrait tirer profit de Microsoft ML pour porter et exécuter n'importe quelle modèle de LLM sur n'import quel matériel sur Windows.
De l'autre côté ONNX runtime (l'outil principal derrière Windows ML) est quand même dispo sur plein de plateforme avec plein d'"execution provider" (il y a Apple CoreML, Android NNAPI... par exemple), mais le dev doit gérer lui-même ONNX runtime (ajouter le runtime à son package/le télécharger, là où dans Windows ML, c'est intégré comme un outil système) et les "execution provider" (tu dois les empaqueter/télécharger dans ton package, et utiliser les bons en fonction du matos)
Le 24/09/2025 à 14h23
Le 24/09/2025 à 12h58
Le 24/09/2025 à 14h27
*System requirements
Et comme je l'ai dit plus haut, ce n'est pas uniquement du LLM, mais n'import quel modèle. Tu peux aller chercher un modèle sur Hugging Face, le convertir en ONNX et l'utiliser dans ton application sans avoir à te faire chier à gérer les environnements pour que ça fonctionne au mieux sur tous les matos. Si le mec, il n'a qu'un CPU, bien ça tournera, lentement, sur le CPU.
Le 24/09/2025 à 17h13
Le 24/09/2025 à 17h20
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?