[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances

Tout ça pour… ça ?

Illustration : Flock

Sébastien Gavois

Le 08 avril à 15h53

Installer des grands modèles de langage sur un ordinateur, c’est facile. Les utiliser via un chatbot aussi, à condition d’avoir suffisamment de puissance et de mémoire disponibles. Voici un tuto pour en profiter chez vous en local, avec un rapide comparatif de performances entre un serveur avec 24 cœurs CPU et un autre avec un GPU. Les gains sont énormes.

[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances

Tout ça pour… ça ?

Illustration : Flock

Sébastien Gavois

Le 08 avril à 15h53

Hardware

7 min

Les intelligences artificielles génératives, on les connaît principalement via ChatGPT, Claude et autres Le Chat. C’est-à-dire via les chatbots proposés en ligne par les géants du secteur que sont OpenAI, Anthropic et le français Mistral.

Utiliser une IA générative en ligne, c’est accepter d’envoyer ses données…

Derrière, tournent de grands modèles de langage (LLM) avec, pêle-mêle, GPT, Claude Opus/Sonnet/Haiku, Mistral Large/Small, etc. Les requêtes sont envoyées en ligne, l’inférence se fait sur les serveurs des entreprises qui ont développé les LLMs et la réponse est ensuite retournée à votre machine.

Dans ce genre de cas, il faut accepter le fait que vos données sortent de votre ordinateur et se retrouvent en ligne, sur les serveurs d’autres sociétés. Ces données peuvent aussi servir à entrainer et/ou améliorer des modèles. En résumé, pour la confidentialité, on repassera. Il existe depuis longtemps une alternative : utiliser des IA génératives en local.

…mais c’est aussi possible en local, sans connexion Internet

Il est possible de les faire tourner sur des CPU seulement, mais avoir en plus un GPU permet de grandement accélérer les calculs.

Nous avons déjà détaillé dans un Nextquick pourquoi les cartes graphiques sont autrement plus performantes que les CPU dans ce genre de situation. La réponse tient en un mot : matrice. Pour rappel, une simple requête à ChatGPT et c’est déjà des centaines de milliards de calculs pour avoir une réponse.

Quand il s’agit de faire tourner des IA génératives en local, un autre paramètre à considérer est la quantité de mémoire disponible. En effet, il faut charger les poids et paramètres du modèle en mémoire vive… et cela commence rapidement à chiffrer quand on parle de milliards de paramètres, voire des dizaines ou des centaines de milliards de paramètres.

Il reste 84% de l'article à découvrir.

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

La suite de cet article est réservée à nos abonnés

Soutenez un journalisme indépendant,
expert et sans pub.

Abonnez-vous sur next.ink/subs

Commentaires (18)

hezirem Premium

Modifié le 8 avril à 16h17

Si on aime mettre les mains dans le cambouis, llama.cpp est une bonne alternative

Sébastien Gavois Équipe

Le 8 avril à 16h20

T’es comme moi, t’aimes bien te salir les mains sur ce genre de choses ^^

zandera Premium

Le 8 avril à 16h41

Il est reconnu que l’inférence llama.cpp est plus rapide que Ollama (même si Ollama est basé sur llamacpp...)
J'utilise la combinaison llama.cpp et llama-swap dans docker, ça permet de facilement gérer l'inférence de différents modèles

bingo.crepuscule

Le 8 avril à 17h19

Je confirme, je n'utilise que ça, avec Vulkan. Ça tourne vachement bien, j'ai même pu mixer mon vieux GPU Nvidia (gtx 1650 connectée en oculink sur port NVME) avec une RX 9060 XT, et ça roule. Répartition de charge 10% pour le gpu Nvidia, 90% pour l'AMD, ça me permet de dépasser le seuil fatidique des 16Gb sans passer par la ram qui ralenti considérablement les échanges.
Contrairement à ce qu'on pourrait croire, le matos AMD fonctionne bien, de gros progrès ont été fait, et le support Vulkan par llama n'y est sans doute pas pour rien.

Actuellement je joue avec tous ces modèles :

1) Fortytwo_Strand-Rust-Coder-14B-v1-Q4_K_M.gguf 8,4G => TRÈS bon sur le rust et correct sur le C/C++
2) gemma-4-26B-A4B-it-UD-Q3_K_M.gguf 12G => Excellent sur la traduction pour un petit modèle et généraliste pour le poids.
3) GLM-4.7-Flash-REAP-23B-A3B-Q3_K_M.gguf 11G => Plus généraliste en tâches complexes sur le développement, bien en coéquipier de Stand Rust codeur qui écrit juste le code. Si possible mieux en Q4 mais plus lent/lourd.
4) google_gemma-4-26B-A4B-it-Q4_K_M.gguf 16G => Bien mieux que le Q3
5) NousResearch_NousCoder-14B-Q4_K_M.gguf 8,4G => En test, vieux modèle, assez léger
6) Qwen3-4B-Instruct-2507-Q8_0.gguf 4,0G => Petit modèle pouvant jouer le rôle d'agent, en alternative à phi (encore plus léger il me semble lui)
7) Qwen3-Coder-30B-A3B-Instruct-Q3_K_M.gguf 14G => Une référence en dev général
8) Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf 18G => Encore meilleur
9) Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf 17G => Meilleur que le Q4 K M sur le raisonnement mais moins bon en dev.

mrintrepide Premium

Le 8 avril à 21h48

Qui peut aussi être géré dans un container via ramalama
Projet sponsorisé par Red Hat

Turon35 Premium

Le 10 avril à 09h03

Honnetement, LMStudio ou Jan en local complet, font le boulot via interface graphique 100% pour les non coders. J'aime llama.cpp en script mais pour 90% du quotidien, LMstudio (qui utilise les GPU et APU AMD out of the box) ou Jan font l'affaire.

Cqoicebordel Premium

Le 8 avril à 17h43

Mon test pour les LLM, c'est de demander le cast de la Soupe aux Choux. Ils ont tendances à répondre correctement d'abord, puis à ajouter Michel Galabru au cast, étant donné que Galabru et de Funes ont souvent joué ensemble.

Sinon, j'avais testé Ollama y'a un bail quand DeepsSeek était sorti, et c'est une tuerie de facilité cet outil !

roncamma Premium

Le 8 avril à 18h45

LM Studio est pas mal aussi

trash.spam.jetable Premium

Le 8 avril à 21h19

Claude me suggére d'y aller à pied, rien à foutre de la voiture à laver ! digne d'un gosse qui ne lirait pas l'enoncé.

Jarodd Premium

Le 8 avril à 22h06

Un produit estampillé Google, mais qui n'exploite pas les données ?

Fake news

bingo.crepuscule

Modifié le 9 avril à 08h35

Probablement pour être RGPD compliant, et pour pousser le coût vers l'utilisateur plutôt que google, la fourniture de service coûtant cher et n'étant pas encore rentabilisée.
Ils le disent, GEMMA est développé principalement pour viser les terminaux sous Android.

Optiwizer Premium

Le 9 avril à 08h35

Merci pour ce tuto qui m'aidera à m'endormir moi idiot ce soir 👍

Optiwizer Premium

Le 9 avril à 08h44

j'ai recemment découvert l'existence de ce genre de produit:

https://press.asus.com/news/press-releases/asus-ugen300-usb-ai-accelerator-generative-ai-edge/

https://hailo.ai/products/ai-accelerators/hailo-8-m2-ai-acceleration-module/

https://www.geniatech.com/product/aim-m2/

c'est la version M.2 NVMe qui pourrait m'interesser car:

cela donnera une utilité à mon slot M.2 Gen4 x 4 au dos de ma carte mère (en esperant que cela ne chauffe pas trop)

cela pourra être reconnu par un eventuel futur OS qui exigerait un NPU pour s'installer...

Un avis les gars ?

@SébastienGavois : un test est envisable avec ce genre de produit ?

Please advise.

Sébastien Gavois Équipe

Le 9 avril à 09h38

Yep possible et envisagé même, à voir ce qu’il va en ressortir :)

Cetera Premium

Le 9 avril à 08h53

Hello, je profite de cet article intéressant pour relancer ma demande sur un comparatif des offres Cloud avec GPU.
@SébastienGavois Il y a un double intérêt de la GPU, l'accélérateur du LLM et l'utilisation du module Vision du LLM!

Sébastien Gavois Équipe

Le 9 avril à 09h37

J’avais en tête cette demande quand j’ai fait ce petit test ^^
Apres le principal problème pour un comparo des offres Cloud avec GPU va vite être le prix. Sur de la facturation à l’heure sans frais d’entrée ça va, par contre sur des offres mensuels ou avec des dizaines/centaines d‘euros de FAS ca va etre compliqué. Et demander un accès pour des tests ça se fait, mais ca veut rien dire car y’a tjs le risque que la machine soit bichonnée pour cette occasion. Pour des tests, seul le client mystère est efficace ^^

Cetera Premium

Le 10 avril à 08h49

Oui tu confirmes mes observations. Tu as sans doute raison il me faut peut être avoir une une approche avec une facturation à la journée/l'heure juste pour les tests du LLM avec Vision (et GPU). Ce serait pour moi sans doute plus complexe et moins pratique mais peut être pas impossible sur une base d'un à deux tests hebdomadaires. A voir!

Skiz Ophraine Premium

Le 9 avril à 11h58

Tiens il existe un petit plug in bien sympathique dans firefox/chrome pour avoir une interface graphique pour ollama qui s'appelle page assist.