Connexion Premium

[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances

Tout ça pour… ça ?

[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances

Illustration : Flock

Installer des grands modèles de langage sur un ordinateur, c’est facile. Les utiliser via un chatbot aussi, à condition d’avoir suffisamment de puissance et de mémoire disponibles. Voici un tuto pour en profiter chez vous en local, avec un rapide comparatif de performances entre un serveur avec 24 cœurs CPU et un autre avec un GPU. Les gains sont énormes.

Le 08 avril à 15h53

Les intelligences artificielles génératives, on les connaît principalement via ChatGPT, Claude et autres Le Chat. C’est-à-dire via les chatbots proposés en ligne par les géants du secteur que sont OpenAI, Anthropic et le français Mistral.

Utiliser une IA générative en ligne, c’est accepter d’envoyer ses données…

Derrière, tournent de grands modèles de langage (LLM) avec, pêle-mêle, GPT, Claude Opus/Sonnet/Haiku, Mistral Large/Small, etc. Les requêtes sont envoyées en ligne, l’inférence se fait sur les serveurs des entreprises qui ont développé les LLMs et la réponse est ensuite retournée à votre machine.

Dans ce genre de cas, il faut accepter le fait que vos données sortent de votre ordinateur et se retrouvent en ligne, sur les serveurs d’autres sociétés. Ces données peuvent aussi servir à entrainer et/ou améliorer des modèles. En résumé, pour la confidentialité, on repassera. Il existe depuis longtemps une alternative : utiliser des IA génératives en local.

…mais c’est aussi possible en local, sans connexion Internet

Il est possible de les faire tourner sur des CPU seulement, mais avoir en plus un GPU permet de grandement accélérer les calculs.

Nous avons déjà détaillé dans un Nextquick pourquoi les cartes graphiques sont autrement plus performantes que les CPU dans ce genre de situation. La réponse tient en un mot : matrice. Pour rappel, une simple requête à ChatGPT et c’est déjà des centaines de milliards de calculs pour avoir une réponse.

Quand il s’agit de faire tourner des IA génératives en local, un autre paramètre à considérer est la quantité de mémoire disponible. En effet, il faut charger les poids et paramètres du modèle en mémoire vive… et cela commence rapidement à chiffrer quand on parle de milliards de paramètres, voire des dizaines ou des centaines de milliards de paramètres.

Il reste 84% de l'article à découvrir.

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Commentaires (18)

votre avatar
Si on aime mettre les mains dans le cambouis, llama.cpp est une bonne alternative
votre avatar
T’es comme moi, t’aimes bien te salir les mains sur ce genre de choses ^^ :D
votre avatar
Il est reconnu que l’inférence llama.cpp est plus rapide que Ollama (même si Ollama est basé sur llamacpp...)
J'utilise la combinaison llama.cpp et llama-swap dans docker, ça permet de facilement gérer l'inférence de différents modèles
votre avatar
Je confirme, je n'utilise que ça, avec Vulkan. Ça tourne vachement bien, j'ai même pu mixer mon vieux GPU Nvidia (gtx 1650 connectée en oculink sur port NVME) avec une RX 9060 XT, et ça roule. Répartition de charge 10% pour le gpu Nvidia, 90% pour l'AMD, ça me permet de dépasser le seuil fatidique des 16Gb sans passer par la ram qui ralenti considérablement les échanges.
Contrairement à ce qu'on pourrait croire, le matos AMD fonctionne bien, de gros progrès ont été fait, et le support Vulkan par llama n'y est sans doute pas pour rien.

Actuellement je joue avec tous ces modèles :

1) Fortytwo_Strand-Rust-Coder-14B-v1-Q4_K_M.gguf 8,4G => TRÈS bon sur le rust et correct sur le C/C++
2) gemma-4-26B-A4B-it-UD-Q3_K_M.gguf 12G => Excellent sur la traduction pour un petit modèle et généraliste pour le poids.
3) GLM-4.7-Flash-REAP-23B-A3B-Q3_K_M.gguf 11G => Plus généraliste en tâches complexes sur le développement, bien en coéquipier de Stand Rust codeur qui écrit juste le code. Si possible mieux en Q4 mais plus lent/lourd.
4) google_gemma-4-26B-A4B-it-Q4_K_M.gguf 16G => Bien mieux que le Q3
5) NousResearch_NousCoder-14B-Q4_K_M.gguf 8,4G => En test, vieux modèle, assez léger
6) Qwen3-4B-Instruct-2507-Q8_0.gguf 4,0G => Petit modèle pouvant jouer le rôle d'agent, en alternative à phi (encore plus léger il me semble lui)
7) Qwen3-Coder-30B-A3B-Instruct-Q3_K_M.gguf 14G => Une référence en dev général
8) Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf 18G => Encore meilleur
9) Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf 17G => Meilleur que le Q4 K M sur le raisonnement mais moins bon en dev.
votre avatar
Qui peut aussi être géré dans un container via ramalama
Projet sponsorisé par Red Hat
votre avatar
Honnetement, LMStudio ou Jan en local complet, font le boulot via interface graphique 100% pour les non coders. J'aime llama.cpp en script mais pour 90% du quotidien, LMstudio (qui utilise les GPU et APU AMD out of the box) ou Jan font l'affaire.
votre avatar
Mon test pour les LLM, c'est de demander le cast de la Soupe aux Choux. Ils ont tendances à répondre correctement d'abord, puis à ajouter Michel Galabru au cast, étant donné que Galabru et de Funes ont souvent joué ensemble.

Sinon, j'avais testé Ollama y'a un bail quand DeepsSeek était sorti, et c'est une tuerie de facilité cet outil !
votre avatar
LM Studio est pas mal aussi
votre avatar
Claude me suggére d'y aller à pied, rien à foutre de la voiture à laver ! digne d'un gosse qui ne lirait pas l'enoncé.
votre avatar
Un produit estampillé Google, mais qui n'exploite pas les données ?

Fake news :fumer:
votre avatar
Probablement pour être RGPD compliant, et pour pousser le coût vers l'utilisateur plutôt que google, la fourniture de service coûtant cher et n'étant pas encore rentabilisée.
Ils le disent, GEMMA est développé principalement pour viser les terminaux sous Android.
votre avatar
Merci pour ce tuto qui m'aidera à m'endormir moi idiot ce soir 👍
votre avatar
j'ai recemment découvert l'existence de ce genre de produit:

https://press.asus.com/news/press-releases/asus-ugen300-usb-ai-accelerator-generative-ai-edge/

https://hailo.ai/products/ai-accelerators/hailo-8-m2-ai-acceleration-module/

https://www.geniatech.com/product/aim-m2/

c'est la version M.2 NVMe qui pourrait m'interesser car:

  • cela donnera une utilité à mon slot M.2 Gen4 x 4 au dos de ma carte mère (en esperant que cela ne chauffe pas trop)

  • cela pourra être reconnu par un eventuel futur OS qui exigerait un NPU pour s'installer...



Un avis les gars ?

@SébastienGavois : un test est envisable avec ce genre de produit ?

Please advise.
votre avatar
Yep possible et envisagé même, à voir ce qu’il va en ressortir :)
votre avatar
Hello, je profite de cet article intéressant pour relancer ma demande sur un comparatif des offres Cloud avec GPU.
@SébastienGavois Il y a un double intérêt de la GPU, l'accélérateur du LLM et l'utilisation du module Vision du LLM! :mrgreen:
votre avatar
J’avais en tête cette demande quand j’ai fait ce petit test ^^
Apres le principal problème pour un comparo des offres Cloud avec GPU va vite être le prix. Sur de la facturation à l’heure sans frais d’entrée ça va, par contre sur des offres mensuels ou avec des dizaines/centaines d‘euros de FAS ca va etre compliqué. Et demander un accès pour des tests ça se fait, mais ca veut rien dire car y’a tjs le risque que la machine soit bichonnée pour cette occasion. Pour des tests, seul le client mystère est efficace ^^
votre avatar
Oui tu confirmes mes observations. Tu as sans doute raison il me faut peut être avoir une une approche avec une facturation à la journée/l'heure juste pour les tests du LLM avec Vision (et GPU). Ce serait pour moi sans doute plus complexe et moins pratique mais peut être pas impossible sur une base d'un à deux tests hebdomadaires. A voir!
votre avatar
Tiens il existe un petit plug in bien sympathique dans firefox/chrome pour avoir une interface graphique pour ollama qui s'appelle page assist.