[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances
Tout ça pour… ça ?
Illustration : Flock
Le 08 avril à 15h53
Installer des grands modèles de langage sur un ordinateur, c’est facile. Les utiliser via un chatbot aussi, à condition d’avoir suffisamment de puissance et de mémoire disponibles. Voici un tuto pour en profiter chez vous en local, avec un rapide comparatif de performances entre un serveur avec 24 cœurs CPU et un autre avec un GPU. Les gains sont énormes.
[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances
Tout ça pour… ça ?
Illustration : Flock
Installer des grands modèles de langage sur un ordinateur, c’est facile. Les utiliser via un chatbot aussi, à condition d’avoir suffisamment de puissance et de mémoire disponibles. Voici un tuto pour en profiter chez vous en local, avec un rapide comparatif de performances entre un serveur avec 24 cœurs CPU et un autre avec un GPU. Les gains sont énormes.
Le 08 avril à 15h53
Hardware
Hardware
7 min
Les intelligences artificielles génératives, on les connaît principalement via ChatGPT, Claude et autres Le Chat. C’est-à-dire via les chatbots proposés en ligne par les géants du secteur que sont OpenAI, Anthropic et le français Mistral.
Utiliser une IA générative en ligne, c’est accepter d’envoyer ses données…
Derrière, tournent de grands modèles de langage (LLM) avec, pêle-mêle, GPT, Claude Opus/Sonnet/Haiku, Mistral Large/Small, etc. Les requêtes sont envoyées en ligne, l’inférence se fait sur les serveurs des entreprises qui ont développé les LLMs et la réponse est ensuite retournée à votre machine.
Dans ce genre de cas, il faut accepter le fait que vos données sortent de votre ordinateur et se retrouvent en ligne, sur les serveurs d’autres sociétés. Ces données peuvent aussi servir à entrainer et/ou améliorer des modèles. En résumé, pour la confidentialité, on repassera. Il existe depuis longtemps une alternative : utiliser des IA génératives en local.
…mais c’est aussi possible en local, sans connexion Internet
Il est possible de les faire tourner sur des CPU seulement, mais avoir en plus un GPU permet de grandement accélérer les calculs.
- #Nextquick : pourquoi les GPU des cartes graphiques sont-ils aussi bons pour l’IA ?
- #Nextquick Une simple requête à ChatGPT, c’est déjà des centaines de milliards de calculs
Nous avons déjà détaillé dans un Nextquick pourquoi les cartes graphiques sont autrement plus performantes que les CPU dans ce genre de situation. La réponse tient en un mot : matrice. Pour rappel, une simple requête à ChatGPT et c’est déjà des centaines de milliards de calculs pour avoir une réponse.
Quand il s’agit de faire tourner des IA génératives en local, un autre paramètre à considérer est la quantité de mémoire disponible. En effet, il faut charger les poids et paramètres du modèle en mémoire vive… et cela commence rapidement à chiffrer quand on parle de milliards de paramètres, voire des dizaines ou des centaines de milliards de paramètres.
Il reste 84% de l'article à découvrir.
Déjà abonné ou lecteur ? Se connecter
Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.
Accédez en illimité aux articles
Profitez d'un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
expert et sans pub.
Commentaires (18)
Modifié le 8 avril à 16h17
Le 8 avril à 16h20
Le 8 avril à 16h41
J'utilise la combinaison llama.cpp et llama-swap dans docker, ça permet de facilement gérer l'inférence de différents modèles
Le 8 avril à 17h19
Contrairement à ce qu'on pourrait croire, le matos AMD fonctionne bien, de gros progrès ont été fait, et le support Vulkan par llama n'y est sans doute pas pour rien.
Actuellement je joue avec tous ces modèles :
1) Fortytwo_Strand-Rust-Coder-14B-v1-Q4_K_M.gguf 8,4G => TRÈS bon sur le rust et correct sur le C/C++
2) gemma-4-26B-A4B-it-UD-Q3_K_M.gguf 12G => Excellent sur la traduction pour un petit modèle et généraliste pour le poids.
3) GLM-4.7-Flash-REAP-23B-A3B-Q3_K_M.gguf 11G => Plus généraliste en tâches complexes sur le développement, bien en coéquipier de Stand Rust codeur qui écrit juste le code. Si possible mieux en Q4 mais plus lent/lourd.
4) google_gemma-4-26B-A4B-it-Q4_K_M.gguf 16G => Bien mieux que le Q3
5) NousResearch_NousCoder-14B-Q4_K_M.gguf 8,4G => En test, vieux modèle, assez léger
6) Qwen3-4B-Instruct-2507-Q8_0.gguf 4,0G => Petit modèle pouvant jouer le rôle d'agent, en alternative à phi (encore plus léger il me semble lui)
7) Qwen3-Coder-30B-A3B-Instruct-Q3_K_M.gguf 14G => Une référence en dev général
8) Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf 18G => Encore meilleur
9) Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf 17G => Meilleur que le Q4 K M sur le raisonnement mais moins bon en dev.
Le 8 avril à 21h48
Projet sponsorisé par Red Hat
Le 10 avril à 09h03
Le 8 avril à 17h43
Sinon, j'avais testé Ollama y'a un bail quand DeepsSeek était sorti, et c'est une tuerie de facilité cet outil !
Le 8 avril à 18h45
Le 8 avril à 21h19
Le 8 avril à 22h06
Fake news
Modifié le 9 avril à 08h35
Ils le disent, GEMMA est développé principalement pour viser les terminaux sous Android.
Le 9 avril à 08h35
Le 9 avril à 08h44
https://press.asus.com/news/press-releases/asus-ugen300-usb-ai-accelerator-generative-ai-edge/
https://hailo.ai/products/ai-accelerators/hailo-8-m2-ai-acceleration-module/
https://www.geniatech.com/product/aim-m2/
c'est la version M.2 NVMe qui pourrait m'interesser car:
Un avis les gars ?
@SébastienGavois : un test est envisable avec ce genre de produit ?
Please advise.
Le 9 avril à 09h38
Le 9 avril à 08h53
@SébastienGavois Il y a un double intérêt de la GPU, l'accélérateur du LLM et l'utilisation du module Vision du LLM!
Le 9 avril à 09h37
Apres le principal problème pour un comparo des offres Cloud avec GPU va vite être le prix. Sur de la facturation à l’heure sans frais d’entrée ça va, par contre sur des offres mensuels ou avec des dizaines/centaines d‘euros de FAS ca va etre compliqué. Et demander un accès pour des tests ça se fait, mais ca veut rien dire car y’a tjs le risque que la machine soit bichonnée pour cette occasion. Pour des tests, seul le client mystère est efficace ^^
Le 10 avril à 08h49
Le 9 avril à 11h58
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?