Connexion Premium

TurboQuant veut réduire grandement les besoins en mémoire des IA génératives… et ça marche

On en revient toujours à Shannon

TurboQuant veut réduire grandement les besoins en mémoire des IA génératives… et ça marche

Illustration : Flock

Des chercheurs de Google ont publié un ensemble d’algorithmes de quantification, nommé TurboQuant. Ils permettent une compression massive réduisant l’utilisation de la mémoire, notamment pour l’IA générative, alors que le prix de la RAM est dans toutes les têtes.

Le 27 mars à 11h39

Le nombre de paramètres et la taille de la fenêtre contextuelle des modèles de langage (LLM) prennent une place de plus en plus importante dans leur utilisation, notamment pour traiter des quantités énormes de documents et leur permettre d’augmenter leur acuité. Mais son utilisation intensive demande une quantité importante de mémoire. L’optimisation de la compression de ces informations devient primordiale.

On vous explique le nerf de la guerre : la quantification

La quantification vectorielle est une technique déjà utilisée pour cette compression. Mais jusqu’ici, celle-ci créait au fur et à mesure un « surcoût de mémoire ». Google a annoncé ce mardi 24 mars que ses chercheurs avaient justement mis en place une série d’algorithmes de quantification qui « répond de manière optimale » à ce problème.

De fait, ils avaient mis en ligne leur article sur la plateforme de prépublication scientifique arXiv dès le 28 avril 2025 et celui-ci était passé assez inaperçu. Dans leurs billets, les chercheurs de Google expliquent que leur article a été accepté pour présentation à la conférence scientifique ICLR qui se déroulera du 23 avril au 27 avril 2026 à Rio.

Il reste 81% de l'article à découvrir.

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Commentaires (10)

votre avatar
est-ce-que ça pourrait faire mieux tourner les LLMs sur les smartphone?
genre 6 ou 8GB?
votre avatar
Ou même sur un PC utilisant ollama ?
votre avatar
Si ça permet d'empecher (ou au moins de réduire) la flamber de prix de la mémoire. c'est que du mieux.
votre avatar
Je crains helas l'effet rebond sur le sujet, vu la hype actuelle :(
votre avatar
Bien au contraire, les commandes élèves de ces entreprises vont continuer car la RAM sera utilisée pour de plus gros modèles ou pour en proposer des encore plus spécialisés.
votre avatar
Donc on sollicité cite moins la RAM et plus le CPU, j'ai bon?
votre avatar
Oui, tu pourra donc avoir une pénurie de cpu en plus de la pénurie de la ram 😬
votre avatar
votre avatar
du coup c'est bon ? on arrête les cneries et on arrête de complètement bloquer le marché du retail pour ces data center IA optimiser avec les pieds ?
votre avatar
les chercheurs de Google ont proposé de convertir ces vecteurs en coordonnées polaires
Les abeilles aussi utilisent les coordonnées polaires !