TurboQuant: ضغط Google لذاكرة التخزين المؤقت KV بـ 3 بت يقلص ذاكرة LLM بمقدار 6 أضعاف

نُشر في أبريل 12, 2026 · بواسطة ALGERIATECH Editorial

⚡ أبرز النقاط

يضغط خوارزمية TurboQuant من Google Research ذاكرة التخزين المؤقت KV في نماذج اللغة الكبيرة إلى 3 بت لكل قيمة، مقلصاً الذاكرة 6 أضعاف ومسرّعاً حساب الانتباه حتى 8 أضعاف على وحدات GPU H100 مع تغير أقل من 0.5% في الحيرة. التقنية مستقلة عن البيانات ولا تتطلب إعادة تدريب أو معايرة وستُقدَّم في ICLR 2026. انخفضت أسهم شرائح الذاكرة بحدة بما فيها SK Hynix (-6.23%) وSamsung (-4.8%).

خلاصة: يجب على فرق الهندسة التي تنشر نماذج لغة كبيرة على نطاق واسع البدء بتقييم تطبيقات TurboQuant المجتمعية الآن، إذ ستصبح طريقة الضغط هذه على الأرجح معياراً في أطر خدمة الاستدلال خلال 12 شهراً وستغير اقتصاديات ذاكرة GPU جذرياً.

اقرأ التحليل الكامل ↓

🧭 رادار القرار (عدسة الجزائر)

الأهمية بالنسبة للجزائر
متوسط
▾

يعني تبني الجزائر المتنامي للذكاء الاصطناعي أن تقليل تكاليف الاستدلال مهم، لكن معظم المؤسسات الجزائرية لا تزال في مراحل النشر المبكرة ولم تواجه بعد اختناقاً بسبب ذاكرة التخزين المؤقت KV على نطاق واسع.

البنية التحتية جاهزة؟
لا
▾

تفتقر الجزائر إلى مجموعات GPU H100 المحلية وبنية خدمة LLM التحتية واسعة النطاق. تعمل معظم أحمال عمل الذكاء الاصطناعي لدى مزودي السحابة حيث ستنعكس فوائد TurboQuant كتغييرات في الأسعار.

المهارات متوفرة؟
جزئي
▾

يمكن لمهندسي التعلم الآلي الجزائريين تطبيق TurboQuant باستخدام الكود المفتوح المصدر المجتمعي، لكن الخبرة العميقة في تحسين نوى GPU للنشر الإنتاجي تبقى نادرة.

الجدول الزمني للعمل
12-24 شهراً
▾

يحتاج TurboQuant إلى تطبيقات رسمية وتكامل مع أطر الخدمة قبل الاعتماد الإنتاجي. يجب على الفرق الجزائرية متابعة التطورات وإعداد خطط التقييم.

أصحاب المصلحة الرئيسيون
باحثون في الذكاء

نوع القرار
تعليمي
▾

يقدم هذا المقال معرفة أساسية حول تقنية ستعيد تشكيل اقتصاديات استدلال نماذج اللغة الكبيرة عالمياً، مُرشداً قرارات البنية التحتية والموردين المستقبلية.

خلاصة سريعة: يجب على فرق الذكاء الاصطناعي الجزائرية متابعة تكامل TurboQuant في أطر خدمة vLLM وSGLang خلال الـ 12 شهراً القادمة. عندما يعتمده مزودو السحابة، توقعوا انخفاضات ملموسة في أسعار الاستدلال — ضعوا ذلك في الحسبان في أي عقود بنية تحتية للذكاء الاصطناعي متعددة السنوات تُفاوَض حالياً. يمكن لمختبرات التعلم الآلي الجامعية التجريب فعلاً مع التطبيقات المجتمعية لبناء الخبرة المحلية.

جدار الذاكرة الذي يعيق نشر نماذج اللغة الكبيرة

في كل مرة يعالج فيها نموذج لغوي كبير محادثة أو مستنداً طويلاً، يبني ذاكرة تخزين مؤقت للمفاتيح والقيم (KV) — ذاكرة تشغيلية لجميع الرموز السابقة التي يرجع إليها آلية الانتباه. لنماذج مثل Llama 3.1 8B التي تعالج سياقات بطول 128 ألف رمز، يمكن لهذه الذاكرة المؤقتة وحدها أن تستهلك 40 جيجابايت من ذاكرة وحدة معالجة الرسومات، وغالباً ما تتجاوز المساحة التي تشغلها أوزان النموذج نفسه. هذا الاستهلاك يحد مباشرة من عدد المستخدمين الذين يمكن لوحدة GPU واحدة خدمتهم في وقت واحد ومدى إمكانية تمديد نافذة السياق.

أثبت Google Research الآن طريقة لضغط هذه الذاكرة المؤقتة بمقدار 6 أضعاف مع تدهور جودة شبه معدوم. خوارزميتهم، TurboQuant، نُشرت في 25 مارس 2026 وستُقدَّم رسمياً في ICLR 2026 بريو دي جانيرو في 25 أبريل. الورقة البحثية (arXiv: 2504.19874) أعدها Amir Zandieh وMajid Daliri وMajid Hadian وVahab Mirrokni.

كيف يعمل TurboQuant: التدوير بالإضافة إلى تصحيح المتبقي

TurboQuant أنيق في بساطته الجوهرية. يستخدم الخوارزمية أنبوب معالجة من مرحلتين يضغط كل متجه KV من 16 بت بالفاصلة العائمة إلى حوالي 3 بت لكل إحداثية.

المرحلة 1 — PolarQuant. يُضرب كل متجه KV بمصفوفة متعامدة عشوائية. يوزع هذا التدوير الطاقة بشكل موحد على جميع الإحداثيات، محولاً التوزيع إلى توزيع Beta قابل للتنبؤ. ولأن التوزيع معروف رياضياً، يمكن حساب مجموعة مثلى من حاويات التكميم مسبقاً باستخدام خوارزمية Lloyd-Max — مرة واحدة مقدماً لجميع النماذج.

المرحلة 2 — Johnson-Lindenstrauss المكمَّم (QJL). يُحسَب رسم تخطيطي بـ 1 بت لخطأ التكميم المتبقي ويُخزَّن إلى جانب المتجه المكمَّم. تسترد خطوة تصحيح الخطأ هذه معظم المعلومات المفقودة أثناء التكميم العددي، دافعة الضغط الكلي إلى مستويات شبه خالية من الفقد.

الميزة الحاسمة هي أن TurboQuant مستقل تماماً عن البيانات. يعمل نفس كتاب الرموز المحسوب مسبقاً لكل نموذج وكل طبقة وكل رأس انتباه. لا توجد مجموعة بيانات معايرة ولا مرور تحسين ولا ضبط خاص بالنموذج مطلوب. مما يجعله بديلاً مباشراً حقيقياً لذاكرة التخزين المؤقت KV القياسية بصيغة FP16.

نتائج المعايير: فقد جودة شبه معدوم عند 6 أضعاف ضغط

قيّمت Google TurboQuant على خمسة معايير قياسية للسياق الطويل — LongBench وNeedle-in-a-Haystack (NIAH) وZeroSCROLLS وRULER وL-Eval — باستخدام نماذج Gemma وMistral وLlama 3.1 8B Instruct.

النتائج لافتة. عند 3.5 بت لكل إحداثية (TQ3.5)، يحقق الخوارزمية حيادية جودة مطلقة — تغير الحيرة أقل من 0.5% لنماذج Llama 3 وMistral. على معيار Needle-in-a-Haystack، يحافظ TurboQuant على دقة استرجاع 100% عبر 104,000 رمز، مطابقاً لأداء الدقة الكاملة تماماً. في إعداده الأكثر حدة (TQ3، 3 بت)، يوفر ضغطاً بمقدار 4.9 مرة مقارنة بـ FP16، مخزناً كل متجه من 128 قيمة في 52 بايت فقط.

على وحدات GPU NVIDIA H100، يحقق TurboQuant بـ 4 بت تسريعاً يصل إلى 8 أضعاف في حساب لوجت الانتباه مقارنة بالمفاتيح غير المكمّمة بـ 32 بت. التأثير العملي فوري: ذاكرة تخزين مؤقت KV بحجم 40 جيجابايت تتقلص إلى حوالي 6.7 جيجابايت، محررة ذاكرة كافية لخدمة طلبات متعددة متزامنة أو تمديد نوافذ السياق بشكل كبير على نفس الأجهزة.

كيف يقارن TurboQuant بالأساليب الحالية

يدخل TurboQuant مجالاً يضم عدة مقاربات راسخة لضغط ذاكرة التخزين المؤقت KV، لكنه يحتل موقعاً فريداً.

KIVI، المنشور في ICML 2024، قدّم التكميم غير المتماثل بـ 2 بت وأصبح المرجع القياسي، محققاً تخفيضاً في الذاكرة بمقدار 2.6 مرة. يضاعف TurboQuant نسبة الضغط هذه أكثر من الضعف مع مطابقة أو تجاوز جودة KIVI — عند 3.5 بت، يسجل TurboQuant 0.997 على معيار Needle مقابل 0.981 لـ KIVI عند 2 بت.

يدعم محرك الاستدلال vLLM بالفعل تكميم ذاكرة التخزين المؤقت KV بصيغة FP8 أصلياً، موفراً ضغطاً بنحو 2 مرة مقارنة بـ BF16. إنه جاهز للإنتاج اليوم لكنه يقدم ضغطاً أقل بكثير من TurboQuant.

KVTC من NVIDIA، المقدَّم أيضاً في ICLR 2026، يتبنى نهجاً مختلفاً يستخدم إزالة الارتباط بـ PCA والترميز الإنتروبي لتحقيق ضغط مثير للإعجاب بمقدار 20 مرة — لكن مع عقوبة دقة قابلة للقياس بأقل من نقطة مئوية واحدة. يقايض TurboQuant ضغطاً أقل مقابل فقد جودة صفري حقيقي، وهي مقايضة ستفضلها العديد من أنظمة الإنتاج.

صدمة السوق: أسهم شرائح الذاكرة تتزعزع

تفاعلت الأسواق المالية بسرعة مع تداعيات TurboQuant. في اليوم التالي لنشر Google مدونة البحث، انخفضت أسهم SK Hynix بنسبة 6.23% وتراجعت Samsung Electronics بنسبة 4.8% في بورصة كوريا. انخفضت Kioxia اليابانية بنحو 6%، بينما تراجعت Micron وSandisk في التداول الأمريكي.

المنطق واضح: إذا كانت أحمال العمل الذكية تحتاج 6 أضعاف أقل من الذاكرة لكل طلب، فقد يتباطأ نمو الطلب على شرائح HBM وDRAM. لكن المحللين ردوا على حالة الذعر. الطلب على الذاكرة تحركه عوامل كثيرة تتجاوز حجم ذاكرة التخزين المؤقت KV، وقد تتيح الذاكرة الأقل لكل طلب المزيد من عمليات النشر إجمالاً — موسعة السوق القابل للعنونة بدلاً من تقليصه.

فجوة الإنتاج: من البحث إلى الواقع

حتى أبريل 2026، لم تُصدر Google تطبيقاً رسمياً لـ TurboQuant. سدّ المجتمع الفجوة بتطبيقات مفتوحة المصدر متعددة — إصدارات PyTorch ونوى GPU Triton ونقاش تكامل llama.cpp وحتى منفذ Apple Silicon MLX — لكن لا يحمل أي منها موافقة Google ولم يُختبر في ظروف حقيقية على نطاق واسع.

بالنسبة لفرق الهندسة التي تقيّم TurboQuant، يتضمن المسار نحو الإنتاج دمج هذه النوى المجتمعية في حزم الخدمة الحالية مثل vLLM أو SGLang، ثم التحقق من الجودة على النموذج وحمل العمل المحدد. تبسط طبيعة الخوارزمية المستقلة عن البيانات هذا الأمر مقارنة بمعظم أساليب التكميم — لا توجد خطوة معايرة لكل نموذج — لكن تحسين النوى لبنيات GPU المختلفة لا يزال عملاً جارياً.

تابعوا AlgeriaTech على LinkedIn للتحليلات التقنية المهنية تابعوا على LinkedIn

تابعونا @AlgeriaTechNews على X للحصول على أحدث تحليلات التكنولوجيا تابعنا على X

الأسئلة الشائعة

ما هو TurboQuant وكيف يقلل استخدام ذاكرة نماذج اللغة الكبيرة؟

TurboQuant هو خوارزمية ضغط ذاكرة التخزين المؤقت KV من Google Research تكمّم ذاكرة التخزين المؤقت للمفاتيح والقيم في نماذج transformer من 16 بت بالفاصلة العائمة إلى حوالي 3 بت لكل قيمة. يستخدم عملية من مرحلتين — تدوير متعامد عشوائي يليه تكميم عددي أمثل وتصحيح خطأ بـ 1 بت — لتحقيق تخفيض ذاكرة بمقدار 6 أضعاف مع تغير حيرة أقل من 0.5%. لا تتطلب التقنية إعادة تدريب أو بيانات معايرة.

هل يتطلب TurboQuant إعادة تدريب النموذج أو أجهزة خاصة؟

لا. TurboQuant مستقل تماماً عن البيانات، مما يعني أن نفس كتاب الرموز المحسوب مسبقاً يعمل لأي نموذج transformer دون تحسين دقيق أو معايرة. يعمل على وحدات GPU NVIDIA القياسية وتم تقييمه على H100 حيث يوفر تسريعاً في حساب الانتباه يصل إلى 8 أضعاف. توجد أيضاً تطبيقات مجتمعية لـ Apple Silicon ومنصات أخرى.

كيف يقارن TurboQuant بأساليب ضغط ذاكرة التخزين المؤقت KV الأخرى؟

يحقق TurboQuant ضغطاً بمقدار 6 أضعاف مع فقد دقة شبه معدوم، مما يضعه بين KIVI (ضغط 2.6 مرة، ICML 2024) وKVTC من NVIDIA (ضغط 20 مرة مع عقوبة دقة طفيفة، ICLR 2026). العامل المميز الرئيسي هو أن TurboQuant لا يتطلب أي بيانات تدريب أو معايرة خاصة بالنموذج، مما يجعله الأسهل نشراً مع الحفاظ على أعلى جودة بين أساليب الضغط العالي.