Le mur de la mémoire qui freine le déploiement des LLM
Chaque fois qu’un grand modèle de langage traite une longue conversation ou un document, il construit un cache clé-valeur (KV) — une mémoire de travail de tous les tokens précédents que le mécanisme d’attention consulte. Pour des modèles comme Llama 3.1 8B traitant des contextes de 128 000 tokens, ce cache seul peut consommer 40 Go de mémoire GPU, dépassant souvent l’espace occupé par les poids du modèle eux-mêmes. Cette empreinte mémoire limite directement le nombre d’utilisateurs qu’un seul GPU peut servir simultanément et la longueur possible de la fenêtre de contexte.
Google Research a désormais démontré un moyen de compresser ce cache de 6x avec une dégradation de qualité quasi nulle. Leur algorithme, TurboQuant, a été publié le 25 mars 2026 et sera formellement présenté à ICLR 2026 à Rio de Janeiro le 25 avril. L’article (arXiv : 2504.19874) a été rédigé par Amir Zandieh, Majid Daliri, Majid Hadian et Vahab Mirrokni.
Comment fonctionne TurboQuant : rotation plus correction résiduelle
TurboQuant est élégamment simple dans son principe. L’algorithme utilise un pipeline en deux étapes qui compresse chaque vecteur KV de 16 bits en virgule flottante à environ 3 bits par coordonnée.
Étape 1 — PolarQuant. Chaque vecteur KV est multiplié par une matrice orthogonale aléatoire. Cette rotation répartit l’énergie uniformément sur toutes les coordonnées, transformant la distribution en une distribution Beta prévisible. Comme la distribution est connue mathématiquement, un ensemble optimal de compartiments de quantification peut être précalculé à l’aide de l’algorithme Lloyd-Max — une seule fois, à l’avance, pour tous les modèles.
Étape 2 — Johnson-Lindenstrauss Quantifié (QJL). Un sketch à 1 bit de l’erreur de quantification résiduelle est calculé et stocké aux côtés du vecteur quantifié. Cette étape de correction d’erreur récupère la majeure partie de l’information perdue lors de la quantification scalaire, poussant la compression globale à des niveaux quasi sans perte.
L’avantage critique est que TurboQuant est entièrement indépendant des données. Le même codebook précalculé fonctionne pour chaque modèle, chaque couche et chaque tête d’attention. Il n’y a ni jeu de données de calibration, ni passe de fine-tuning, ni réglage spécifique au modèle requis. Cela en fait un véritable remplacement direct du cache KV standard en FP16.
Résultats des benchmarks : perte de qualité quasi nulle à 6x de compression
Google a évalué TurboQuant sur cinq benchmarks standards de contexte long — LongBench, Needle-in-a-Haystack (NIAH), ZeroSCROLLS, RULER et L-Eval — en utilisant les modèles Gemma, Mistral et Llama 3.1 8B Instruct.
Les résultats sont frappants. À 3,5 bits par coordonnée (TQ3.5), l’algorithme atteint une neutralité qualitative absolue — le changement de perplexité est inférieur à 0,5 % pour les modèles Llama 3 et Mistral. Sur le benchmark Needle-in-a-Haystack, TurboQuant maintient une précision de récupération de 100 % sur 104 000 tokens, égalant exactement les performances en pleine précision. À son réglage le plus agressif (TQ3, 3 bits), il délivre une compression de 4,9x par rapport au FP16, stockant chaque vecteur de 128 valeurs en seulement 52 octets.
Sur les GPU NVIDIA H100, TurboQuant à 4 bits atteint une accélération jusqu’à 8x du calcul attention-logit par rapport aux clés non quantifiées à 32 bits. L’implication pratique est immédiate : un cache KV de 40 Go se réduit à environ 6,7 Go, libérant suffisamment de mémoire pour servir plusieurs requêtes simultanées ou étendre considérablement les fenêtres de contexte sur le même matériel.
Publicité
Comment TurboQuant se compare aux méthodes existantes
TurboQuant entre dans un domaine avec plusieurs approches établies de compression du cache KV, mais occupe une position unique.
KIVI, publié à ICML 2024, a introduit la quantification asymétrique à 2 bits et est devenu le référentiel standard, atteignant une réduction mémoire de 2,6x. TurboQuant fait plus que doubler ce ratio de compression tout en égalant ou dépassant la qualité de KIVI — à 3,5 bits, TurboQuant obtient 0,997 sur le benchmark Needle contre 0,981 pour KIVI à 2 bits.
Le moteur d’inférence vLLM prend déjà en charge nativement la quantification du cache KV en FP8, offrant environ 2x de compression par rapport au BF16. Il est prêt pour la production aujourd’hui mais offre bien moins de compression que TurboQuant.
KVTC de NVIDIA, également présenté à ICLR 2026, adopte une approche différente utilisant la décorrélation par PCA et le codage entropique pour atteindre une compression impressionnante de 20x — mais avec une pénalité de précision mesurable de moins d’un point de pourcentage. TurboQuant échange une compression moindre contre une perte de qualité réellement nulle, un compromis que de nombreux systèmes de production préféreront.
Choc de marché : les actions des puces mémoire ébranlées
Les marchés financiers ont réagi rapidement aux implications de TurboQuant. Le lendemain de la publication du blog de recherche de Google, les actions de SK Hynix ont chuté de 6,23 % et Samsung Electronics a baissé de 4,8 % à la Bourse de Corée. Kioxia au Japon a reculé de près de 6 %, tandis que Micron et Sandisk ont fléchi aux États-Unis.
La logique est directe : si les charges de travail IA nécessitent 6x moins de mémoire par requête, la croissance de la demande de puces HBM et DRAM pourrait décélérer. Les analystes ont toutefois tempéré la panique. La demande de mémoire est déterminée par de nombreux facteurs au-delà de la taille du cache KV, et une mémoire moindre par requête pourrait permettre davantage de déploiements au total — élargissant le marché adressable plutôt que de le rétrécir.
Le fossé de production : de la recherche à la réalité
En avril 2026, Google n’a pas publié d’implémentation officielle de TurboQuant. La communauté a comblé le vide avec de multiples implémentations open source — des versions PyTorch, des noyaux GPU Triton, une discussion d’intégration llama.cpp, et même un portage Apple Silicon MLX — mais aucune ne porte l’approbation de Google ni n’a été éprouvée en conditions réelles à grande échelle.
Pour les équipes d’ingénierie évaluant TurboQuant, le chemin vers la production implique l’intégration de ces noyaux communautaires dans les piles de service existantes comme vLLM ou SGLang, puis la validation de la qualité sur leur modèle et charge de travail spécifiques. La nature indépendante des données de l’algorithme simplifie ce processus par rapport à la plupart des méthodes de quantification — il n’y a pas d’étape de calibration par modèle — mais l’optimisation au niveau du noyau pour différentes architectures GPU reste un travail en cours.
Questions Fréquemment Posées
Qu’est-ce que TurboQuant et comment réduit-il l’utilisation mémoire des LLM ?
TurboQuant est un algorithme de compression du cache KV développé par Google Research qui quantifie le cache clé-valeur dans les modèles transformer de 16 bits en virgule flottante à environ 3 bits par valeur. Il utilise un processus en deux étapes — rotation orthogonale aléatoire suivie d’une quantification scalaire optimale et d’une correction d’erreur à 1 bit — pour atteindre une réduction mémoire de 6x avec moins de 0,5 % de changement de perplexité. La technique ne nécessite ni réentraînement ni données de calibration.
TurboQuant nécessite-t-il un réentraînement du modèle ou du matériel spécial ?
Non. TurboQuant est entièrement indépendant des données, ce qui signifie que le même codebook de quantification précalculé fonctionne pour tout modèle transformer sans fine-tuning ni calibration. Il fonctionne sur les GPU NVIDIA standards et a été évalué sur des H100, où il offre une accélération du calcul d’attention jusqu’à 8x. Des implémentations communautaires existent également pour Apple Silicon et d’autres plateformes.
Comment TurboQuant se compare-t-il aux autres méthodes de compression du cache KV ?
TurboQuant atteint une compression de 6x avec une perte de précision quasi nulle, le positionnant entre KIVI (compression 2,6x, ICML 2024) et KVTC de NVIDIA (compression 20x avec une légère pénalité de précision, ICLR 2026). Le facteur différenciant clé est que TurboQuant ne nécessite aucune donnée d’entraînement ni calibration spécifique au modèle, ce qui en fait le plus simple à déployer tout en maintenant la plus haute qualité parmi les méthodes à haute compression.
Sources et lectures complémentaires
- TurboQuant: Redefining AI Efficiency with Extreme Compression — Google Research Blog
- TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate — arXiv
- Google AI TurboQuant Memory Chip Stocks Samsung Micron — CNBC
- Google’s TurboQuant Compresses LLM KV Caches to 3 Bits — Tom’s Hardware
- TurboQuant: Reducing LLM Memory Usage With Vector Quantization — Hackaday
- Google TurboQuant AI Memory Compression Pied Piper — TechCrunch
















