Arm se lancerait pleinement dans l’intelligence artificielle en 2025

Selon Nikkei Asia, la société compterait se lancer dans le développement de puces dédiées pour l’intelligence artificielle l’année prochaine, avec un prototype dès le printemps 2025. Bien évidemment, aucun détail n’est pour le moment donné.

Le développement sera assuré par Arm (avec la participation de son principal actionnaire SoftBank), dans le but ensuite de scinder la branche IA et de la placer sous le contrôle de SoftBank, selon nos confrères. « SoftBank négocie déjà avec Taiwan Semiconductor Manufacturing Corp. [TSMC, ndlr] et d’autres afin de sécuriser la capacité de production ».

Selon Nikkei, Arm disposerait d’une fenêtre intéressante : « NVIDIA est actuellement en tête du domaine mais ne peut pas répondre à la demande croissante. SoftBank y voit une opportunité ». Arm n’est pas le seul en piste, loin de là. De nombreuses sociétés (y compris en France) se sont déjà lancées dans la conception de puces pour l’intelligence artificielle.

Commentaires (7)


Est-ce qu'il y a des gens ici qui pourraient me dire si, selon eux, il est techniquement envisageable d'avoir une carte externe dédiée à l'inférence d'IA, un peu à l'image d'une carte graphique externe ?

J'aimerais bientôt changer de PC portable, mais si c'est pour qu'il soit obsolète dans 3 ans car incapable de faire fonctionner une IA "moderne" en local, ça m'embêterai. Alors que s'il est possible de le "booster" en IA grâce à une carte externe, je ne risque plus cette obsolescence rapide : il me suffirai d'acheter une telle carte le moment venu.
Pour faire très simple, pas à ma connaissance.

Les gros modèles (type GPT ou Dall-E) sont lourds, demande beaucoup de mémoire, pas mal de puissance de calculs et beaucoup de table intermédiaire (donc beaucoup d'aller-retour entre un potentiellement espace mémoire et une unité de calcul). Une telle carte devrait donc avoir les caractéristiques d'une carte graphique.

Il existe bien les e-GPU, mais niveau budget, c'est cher, et ce n'est pas fait pour être transporté.

Je sais qu'il existe des cartes accélératrices (je connais celles-là : https://coral.ai/products/#production-products) mais c'est avant tout pour des petits modèles et des trucs développés pour ce matos. La majorité, c'est purement pour du DIY (avec un RPi par exemple : faire une caméra de surveillance/reconnaissance de visage) et c'est très limité (il faut que le code soit adapté, il faut utiliser tensorflow lite comme bibliothèque, il faut rester sur des petits modèles...). Par exemple, QNAP propose une de ces cartes (https://www.qnap.com/en/product/g650-04686-01-qnap) pour plusieurs de leurs applications sur leurs NAS (tag d'images et reconnaissance de visage en direct).

Après, tu peux toujours essayer de parier sur NVidia et acheter un PC équipé d'une CG récente. Ils sont largement dominants sur le marché. Leur bibliothèque CUDA est adopté par tous. La majorité des personnes qui bosse sur les réseaux de neurones (et sur le GPGPU) bosse avec NVidia et CUDA. Avec une bonne RTX de dernière génération, tu peux normalement espérer faire tourner les modèles récents pendant plusieurs années.

Après, normalement, ces cartes ne sont que des accélérateurs, techniquement, tu dois pouvoir faire tourner n'importe quel modèle sur un CPU. Ca risque juste d'être lent (même si Intel semble vouloir mettre billes dans les domaines)

tazvld

Pour faire très simple, pas à ma connaissance.

Les gros modèles (type GPT ou Dall-E) sont lourds, demande beaucoup de mémoire, pas mal de puissance de calculs et beaucoup de table intermédiaire (donc beaucoup d'aller-retour entre un potentiellement espace mémoire et une unité de calcul). Une telle carte devrait donc avoir les caractéristiques d'une carte graphique.

Il existe bien les e-GPU, mais niveau budget, c'est cher, et ce n'est pas fait pour être transporté.

Je sais qu'il existe des cartes accélératrices (je connais celles-là : https://coral.ai/products/#production-products) mais c'est avant tout pour des petits modèles et des trucs développés pour ce matos. La majorité, c'est purement pour du DIY (avec un RPi par exemple : faire une caméra de surveillance/reconnaissance de visage) et c'est très limité (il faut que le code soit adapté, il faut utiliser tensorflow lite comme bibliothèque, il faut rester sur des petits modèles...). Par exemple, QNAP propose une de ces cartes (https://www.qnap.com/en/product/g650-04686-01-qnap) pour plusieurs de leurs applications sur leurs NAS (tag d'images et reconnaissance de visage en direct).

Après, tu peux toujours essayer de parier sur NVidia et acheter un PC équipé d'une CG récente. Ils sont largement dominants sur le marché. Leur bibliothèque CUDA est adopté par tous. La majorité des personnes qui bosse sur les réseaux de neurones (et sur le GPGPU) bosse avec NVidia et CUDA. Avec une bonne RTX de dernière génération, tu peux normalement espérer faire tourner les modèles récents pendant plusieurs années.

Après, normalement, ces cartes ne sont que des accélérateurs, techniquement, tu dois pouvoir faire tourner n'importe quel modèle sur un CPU. Ca risque juste d'être lent (même si Intel semble vouloir mettre billes dans les domaines)
Merci pour la réponse.
En fait, on aurait carrément besoin d'un mini-ordi spécialisé, avec RAM, NPU et SSD intégrés, si j'ai bien compris. Et c'est probablement pas pour tout de suite, c'est ça ?

potn

Merci pour la réponse.
En fait, on aurait carrément besoin d'un mini-ordi spécialisé, avec RAM, NPU et SSD intégrés, si j'ai bien compris. Et c'est probablement pas pour tout de suite, c'est ça ?
Comme l'a dit Freeben666, et ce que je sous-entendais par "Intel semble vouloir mettre billes dans les domaines", Intel commence à intégrer des NPU dans ses processeurs (https://www.lemondeinformatique.fr/actualites/lire-les-core-ultra-d-intel-ouvrent-la-voie-des-pc%C2%A0ai-92466.html) et potentiellement les prochains Arrow Lake en seraient aussi pourvus. (il y a aussi OneAPI)

Mais sinon, pour l'instant, je reste assez dubitatif quant à l'utilisation de gros modèle en local. En effet, ça demande tellement de ressource qu'il faudrait l'équivalent d'un bon PC en plus à côté. Typiquement, je ne me vois pas faire mon boulot, avoir des programmes allumé, VSCode et un LLM pour remplacer Copilot sur ma machine. Mais j'imagine que c'est la même chose pour un graphiste avec Photoshop et un outil de génération d'image.

Lancer des gros modèles en local, c'est bien pour tester, pour faire des trucs ponctuels, mais j'ai du mal à voir un usage régulier. Ça demande trop de puissance. À l'échelle d'une entreprise, un serveur dédié pourrait être plus viable.

Après, il est toujours envisageable de faire tourner des modèles moins performant, mais plus léger. Aujourd'hui, beaucoup de gros modèle de LLM accessible viennent avec des versions plus ou moins allégées et il y a l'apparition de nouveaux modèles plus légers comme Mamba (la légèreté d'un RNN, la puissance d'un transformer). Donc, il y a encore possibilité d'évolution future.

tazvld

Comme l'a dit Freeben666, et ce que je sous-entendais par "Intel semble vouloir mettre billes dans les domaines", Intel commence à intégrer des NPU dans ses processeurs (https://www.lemondeinformatique.fr/actualites/lire-les-core-ultra-d-intel-ouvrent-la-voie-des-pc%C2%A0ai-92466.html) et potentiellement les prochains Arrow Lake en seraient aussi pourvus. (il y a aussi OneAPI)

Mais sinon, pour l'instant, je reste assez dubitatif quant à l'utilisation de gros modèle en local. En effet, ça demande tellement de ressource qu'il faudrait l'équivalent d'un bon PC en plus à côté. Typiquement, je ne me vois pas faire mon boulot, avoir des programmes allumé, VSCode et un LLM pour remplacer Copilot sur ma machine. Mais j'imagine que c'est la même chose pour un graphiste avec Photoshop et un outil de génération d'image.

Lancer des gros modèles en local, c'est bien pour tester, pour faire des trucs ponctuels, mais j'ai du mal à voir un usage régulier. Ça demande trop de puissance. À l'échelle d'une entreprise, un serveur dédié pourrait être plus viable.

Après, il est toujours envisageable de faire tourner des modèles moins performant, mais plus léger. Aujourd'hui, beaucoup de gros modèle de LLM accessible viennent avec des versions plus ou moins allégées et il y a l'apparition de nouveaux modèles plus légers comme Mamba (la légèreté d'un RNN, la puissance d'un transformer). Donc, il y a encore possibilité d'évolution future.
En tant qu'indépendant, si je souhaite avoir un équivalent à Github Copilot en local pour éviter les problèmes juridiques liés à l'IA dans le cloud, je peux me contenter d'un "petit" modèle.

Mais surtout, je penses au cas où bientôt je pourrais demander à une IA de "trier toutes mes photos de Jean" dans un dossier dédié. Ou "supprime moi tous mes mails de publicité".
Je ne veut pas envoyer tous mes mails ou photos dans le cloud pour ça.

potn

En tant qu'indépendant, si je souhaite avoir un équivalent à Github Copilot en local pour éviter les problèmes juridiques liés à l'IA dans le cloud, je peux me contenter d'un "petit" modèle.

Mais surtout, je penses au cas où bientôt je pourrais demander à une IA de "trier toutes mes photos de Jean" dans un dossier dédié. Ou "supprime moi tous mes mails de publicité".
Je ne veut pas envoyer tous mes mails ou photos dans le cloud pour ça.
Pour le Copilot en local, il y a TabbyML. Ça tourne assez bien sur CPU jusqu'aux models 3B, c'est juste pas très rapide. Au delà, un GPU avec beaucoup de VRAM est nécessaire.

Pour l'identification de visages sur des photos, Immich le fait sans matériel particulier, ça tourne très bien sur un NAS avec un i3 par exemple. C'est un très bon équivalent à Google Photos en auto hébergé.

J'ai rien dans ma besace pour les mails.
Intel commence à mettre des "NPU" dans ses processeurs (uniquement Core Ultra pour le moment, il me semble). Chez AMD, les processeurs avec Radeon intégrée doivent pouvoir assister dans l'inférence d'IA également, et si j'ai bien suivi ils ajoutent aussi des "NPU" à partir des Ryzen 8000. Après, la principale limite qu'on va rencontrer sur un ordinateur "standard", c'est la capacité de mémoire pour pouvoir charger les plus gros modèles.
Modifié le 15/05/2024 à 11h29

Historique des modifications :

Posté le 15/05/2024 à 11h28


Intel commence à mettre des "NPU" dans ses processeurs (uniquement Core Ultra pour le moment, il me semble). Chez AMD, les processeurs avec Radeon intégrée doivent pouvoir assister dans l'inférence d'IA également. Après, le principale limite qu'on va rencontrer sur un ordinateur "standard", c'est la capacité de mémoire pour pouvoir charger les plus gros modèles.

Fermer