جدار الذاكرة الذي يعيق نشر نماذج اللغة الكبيرة
في كل مرة يعالج فيها نموذج لغوي كبير محادثة أو مستنداً طويلاً، يبني ذاكرة تخزين مؤقت للمفاتيح والقيم (KV) — ذاكرة تشغيلية لجميع الرموز السابقة التي يرجع إليها آلية الانتباه. لنماذج مثل Llama 3.1 8B التي تعالج سياقات بطول 128 ألف رمز، يمكن لهذه الذاكرة المؤقتة وحدها أن تستهلك 40 جيجابايت من ذاكرة وحدة معالجة الرسومات، وغالباً ما تتجاوز المساحة التي تشغلها أوزان النموذج نفسه. هذا الاستهلاك يحد مباشرة من عدد المستخدمين الذين يمكن لوحدة GPU واحدة خدمتهم في وقت واحد ومدى إمكانية تمديد نافذة السياق.
أثبت Google Research الآن طريقة لضغط هذه الذاكرة المؤقتة بمقدار 6 أضعاف مع تدهور جودة شبه معدوم. خوارزميتهم، TurboQuant، نُشرت في 25 مارس 2026 وستُقدَّم رسمياً في ICLR 2026 بريو دي جانيرو في 25 أبريل. الورقة البحثية (arXiv: 2504.19874) أعدها Amir Zandieh وMajid Daliri وMajid Hadian وVahab Mirrokni.
كيف يعمل TurboQuant: التدوير بالإضافة إلى تصحيح المتبقي
TurboQuant أنيق في بساطته الجوهرية. يستخدم الخوارزمية أنبوب معالجة من مرحلتين يضغط كل متجه KV من 16 بت بالفاصلة العائمة إلى حوالي 3 بت لكل إحداثية.
المرحلة 1 — PolarQuant. يُضرب كل متجه KV بمصفوفة متعامدة عشوائية. يوزع هذا التدوير الطاقة بشكل موحد على جميع الإحداثيات، محولاً التوزيع إلى توزيع Beta قابل للتنبؤ. ولأن التوزيع معروف رياضياً، يمكن حساب مجموعة مثلى من حاويات التكميم مسبقاً باستخدام خوارزمية Lloyd-Max — مرة واحدة مقدماً لجميع النماذج.
المرحلة 2 — Johnson-Lindenstrauss المكمَّم (QJL). يُحسَب رسم تخطيطي بـ 1 بت لخطأ التكميم المتبقي ويُخزَّن إلى جانب المتجه المكمَّم. تسترد خطوة تصحيح الخطأ هذه معظم المعلومات المفقودة أثناء التكميم العددي، دافعة الضغط الكلي إلى مستويات شبه خالية من الفقد.
الميزة الحاسمة هي أن TurboQuant مستقل تماماً عن البيانات. يعمل نفس كتاب الرموز المحسوب مسبقاً لكل نموذج وكل طبقة وكل رأس انتباه. لا توجد مجموعة بيانات معايرة ولا مرور تحسين ولا ضبط خاص بالنموذج مطلوب. مما يجعله بديلاً مباشراً حقيقياً لذاكرة التخزين المؤقت KV القياسية بصيغة FP16.
نتائج المعايير: فقد جودة شبه معدوم عند 6 أضعاف ضغط
قيّمت Google TurboQuant على خمسة معايير قياسية للسياق الطويل — LongBench وNeedle-in-a-Haystack (NIAH) وZeroSCROLLS وRULER وL-Eval — باستخدام نماذج Gemma وMistral وLlama 3.1 8B Instruct.
النتائج لافتة. عند 3.5 بت لكل إحداثية (TQ3.5)، يحقق الخوارزمية حيادية جودة مطلقة — تغير الحيرة أقل من 0.5% لنماذج Llama 3 وMistral. على معيار Needle-in-a-Haystack، يحافظ TurboQuant على دقة استرجاع 100% عبر 104,000 رمز، مطابقاً لأداء الدقة الكاملة تماماً. في إعداده الأكثر حدة (TQ3، 3 بت)، يوفر ضغطاً بمقدار 4.9 مرة مقارنة بـ FP16، مخزناً كل متجه من 128 قيمة في 52 بايت فقط.
على وحدات GPU NVIDIA H100، يحقق TurboQuant بـ 4 بت تسريعاً يصل إلى 8 أضعاف في حساب لوجت الانتباه مقارنة بالمفاتيح غير المكمّمة بـ 32 بت. التأثير العملي فوري: ذاكرة تخزين مؤقت KV بحجم 40 جيجابايت تتقلص إلى حوالي 6.7 جيجابايت، محررة ذاكرة كافية لخدمة طلبات متعددة متزامنة أو تمديد نوافذ السياق بشكل كبير على نفس الأجهزة.
إعلان
كيف يقارن TurboQuant بالأساليب الحالية
يدخل TurboQuant مجالاً يضم عدة مقاربات راسخة لضغط ذاكرة التخزين المؤقت KV، لكنه يحتل موقعاً فريداً.
KIVI، المنشور في ICML 2024، قدّم التكميم غير المتماثل بـ 2 بت وأصبح المرجع القياسي، محققاً تخفيضاً في الذاكرة بمقدار 2.6 مرة. يضاعف TurboQuant نسبة الضغط هذه أكثر من الضعف مع مطابقة أو تجاوز جودة KIVI — عند 3.5 بت، يسجل TurboQuant 0.997 على معيار Needle مقابل 0.981 لـ KIVI عند 2 بت.
يدعم محرك الاستدلال vLLM بالفعل تكميم ذاكرة التخزين المؤقت KV بصيغة FP8 أصلياً، موفراً ضغطاً بنحو 2 مرة مقارنة بـ BF16. إنه جاهز للإنتاج اليوم لكنه يقدم ضغطاً أقل بكثير من TurboQuant.
KVTC من NVIDIA، المقدَّم أيضاً في ICLR 2026، يتبنى نهجاً مختلفاً يستخدم إزالة الارتباط بـ PCA والترميز الإنتروبي لتحقيق ضغط مثير للإعجاب بمقدار 20 مرة — لكن مع عقوبة دقة قابلة للقياس بأقل من نقطة مئوية واحدة. يقايض TurboQuant ضغطاً أقل مقابل فقد جودة صفري حقيقي، وهي مقايضة ستفضلها العديد من أنظمة الإنتاج.
صدمة السوق: أسهم شرائح الذاكرة تتزعزع
تفاعلت الأسواق المالية بسرعة مع تداعيات TurboQuant. في اليوم التالي لنشر Google مدونة البحث، انخفضت أسهم SK Hynix بنسبة 6.23% وتراجعت Samsung Electronics بنسبة 4.8% في بورصة كوريا. انخفضت Kioxia اليابانية بنحو 6%، بينما تراجعت Micron وSandisk في التداول الأمريكي.
المنطق واضح: إذا كانت أحمال العمل الذكية تحتاج 6 أضعاف أقل من الذاكرة لكل طلب، فقد يتباطأ نمو الطلب على شرائح HBM وDRAM. لكن المحللين ردوا على حالة الذعر. الطلب على الذاكرة تحركه عوامل كثيرة تتجاوز حجم ذاكرة التخزين المؤقت KV، وقد تتيح الذاكرة الأقل لكل طلب المزيد من عمليات النشر إجمالاً — موسعة السوق القابل للعنونة بدلاً من تقليصه.
فجوة الإنتاج: من البحث إلى الواقع
حتى أبريل 2026، لم تُصدر Google تطبيقاً رسمياً لـ TurboQuant. سدّ المجتمع الفجوة بتطبيقات مفتوحة المصدر متعددة — إصدارات PyTorch ونوى GPU Triton ونقاش تكامل llama.cpp وحتى منفذ Apple Silicon MLX — لكن لا يحمل أي منها موافقة Google ولم يُختبر في ظروف حقيقية على نطاق واسع.
بالنسبة لفرق الهندسة التي تقيّم TurboQuant، يتضمن المسار نحو الإنتاج دمج هذه النوى المجتمعية في حزم الخدمة الحالية مثل vLLM أو SGLang، ثم التحقق من الجودة على النموذج وحمل العمل المحدد. تبسط طبيعة الخوارزمية المستقلة عن البيانات هذا الأمر مقارنة بمعظم أساليب التكميم — لا توجد خطوة معايرة لكل نموذج — لكن تحسين النوى لبنيات GPU المختلفة لا يزال عملاً جارياً.
الأسئلة الشائعة
ما هو TurboQuant وكيف يقلل استخدام ذاكرة نماذج اللغة الكبيرة؟
TurboQuant هو خوارزمية ضغط ذاكرة التخزين المؤقت KV من Google Research تكمّم ذاكرة التخزين المؤقت للمفاتيح والقيم في نماذج transformer من 16 بت بالفاصلة العائمة إلى حوالي 3 بت لكل قيمة. يستخدم عملية من مرحلتين — تدوير متعامد عشوائي يليه تكميم عددي أمثل وتصحيح خطأ بـ 1 بت — لتحقيق تخفيض ذاكرة بمقدار 6 أضعاف مع تغير حيرة أقل من 0.5%. لا تتطلب التقنية إعادة تدريب أو بيانات معايرة.
هل يتطلب TurboQuant إعادة تدريب النموذج أو أجهزة خاصة؟
لا. TurboQuant مستقل تماماً عن البيانات، مما يعني أن نفس كتاب الرموز المحسوب مسبقاً يعمل لأي نموذج transformer دون تحسين دقيق أو معايرة. يعمل على وحدات GPU NVIDIA القياسية وتم تقييمه على H100 حيث يوفر تسريعاً في حساب الانتباه يصل إلى 8 أضعاف. توجد أيضاً تطبيقات مجتمعية لـ Apple Silicon ومنصات أخرى.
كيف يقارن TurboQuant بأساليب ضغط ذاكرة التخزين المؤقت KV الأخرى؟
يحقق TurboQuant ضغطاً بمقدار 6 أضعاف مع فقد دقة شبه معدوم، مما يضعه بين KIVI (ضغط 2.6 مرة، ICML 2024) وKVTC من NVIDIA (ضغط 20 مرة مع عقوبة دقة طفيفة، ICLR 2026). العامل المميز الرئيسي هو أن TurboQuant لا يتطلب أي بيانات تدريب أو معايرة خاصة بالنموذج، مما يجعله الأسهل نشراً مع الحفاظ على أعلى جودة بين أساليب الضغط العالي.
المصادر والقراءات الإضافية
- TurboQuant: Redefining AI Efficiency with Extreme Compression — Google Research Blog
- TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate — arXiv
- Google AI TurboQuant Memory Chip Stocks Samsung Micron — CNBC
- Google’s TurboQuant Compresses LLM KV Caches to 3 Bits — Tom’s Hardware
- TurboQuant: Reducing LLM Memory Usage With Vector Quantization — Hackaday
- Google TurboQuant AI Memory Compression Pied Piper — TechCrunch
















