TurboQuant veut réduire grandement les besoins en mémoire des IA génératives… et ça marche

On en revient toujours à Shannon

Illustration : Flock

Martin Clavey

Le 27 mars à 11h39

Des chercheurs de Google ont publié un ensemble d’algorithmes de quantification, nommé TurboQuant. Ils permettent une compression massive réduisant l’utilisation de la mémoire, notamment pour l’IA générative, alors que le prix de la RAM est dans toutes les têtes.

TurboQuant veut réduire grandement les besoins en mémoire des IA génératives… et ça marche

On en revient toujours à Shannon

Illustration : Flock

Martin Clavey

Le 27 mars à 11h39

IA et algorithmes

6 min

Le nombre de paramètres et la taille de la fenêtre contextuelle des modèles de langage (LLM) prennent une place de plus en plus importante dans leur utilisation, notamment pour traiter des quantités énormes de documents et leur permettre d’augmenter leur acuité. Mais son utilisation intensive demande une quantité importante de mémoire. L’optimisation de la compression de ces informations devient primordiale.

On vous explique le nerf de la guerre : la quantification

La quantification vectorielle est une technique déjà utilisée pour cette compression. Mais jusqu’ici, celle-ci créait au fur et à mesure un « surcoût de mémoire ». Google a annoncé ce mardi 24 mars que ses chercheurs avaient justement mis en place une série d’algorithmes de quantification qui « répond de manière optimale » à ce problème.

De fait, ils avaient mis en ligne leur article sur la plateforme de prépublication scientifique arXiv dès le 28 avril 2025 et celui-ci était passé assez inaperçu. Dans leurs billets, les chercheurs de Google expliquent que leur article a été accepté pour présentation à la conférence scientifique ICLR qui se déroulera du 23 avril au 27 avril 2026 à Rio.

Il reste 81% de l'article à découvrir.

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

La suite de cet article est réservée à nos abonnés

Soutenez un journalisme indépendant,
expert et sans pub.

Abonnez-vous sur next.ink/subs

Commentaires (10)

dylem29 Premium

Le 27 mars à 11h54

est-ce-que ça pourrait faire mieux tourner les LLMs sur les smartphone?
genre 6 ou 8GB?

potn Premium

Le 27 mars à 13h38

Ou même sur un PC utilisant ollama ?

RuMaRoCO Premium

Le 27 mars à 12h29

Si ça permet d'empecher (ou au moins de réduire) la flamber de prix de la mémoire. c'est que du mieux.

dedalum Premium

Le 27 mars à 12h58

Je crains helas l'effet rebond sur le sujet, vu la hype actuelle :(

Mr.Nox Premium

Le 27 mars à 16h03

Bien au contraire, les commandes élèves de ces entreprises vont continuer car la RAM sera utilisée pour de plus gros modèles ou pour en proposer des encore plus spécialisés.

Soriatane Premium

Le 27 mars à 13h41

Donc on sollicité cite moins la RAM et plus le CPU, j'ai bon?

coco74

Le 27 mars à 14h11

Oui, tu pourra donc avoir une pénurie de cpu en plus de la pénurie de la ram 😬

Xandr0s Premium

Modifié le 27 mars à 16h32

Un bon article ici : https://www.minimachines.net/actu/hausse-prix-processeurs-140264

BrainBSOD Premium

Modifié le 28 mars à 10h56

du coup c'est bon ? on arrête les cneries et on arrête de complètement bloquer le marché du retail pour ces data center IA optimiser avec les pieds ?

serpolet Premium

Le 28 mars à 12h57

les chercheurs de Google ont proposé de convertir ces vecteurs en coordonnées polaires

Les abeilles aussi utilisent les coordonnées polaires !