LLM inference
الذكاء الاصطناعي والأتمتة
TurboQuant: ضغط Google لذاكرة التخزين المؤقت KV بـ 3 بت يقلص ذاكرة LLM بمقدار 6 أضعاف
أبريل 12, 2026
⚡ أبرز النقاط يضغط خوارزمية TurboQuant من Google Research ذاكرة التخزين المؤقت KV في نماذج اللغة الكبيرة إلى 3 بت...

