ما يعنيه هذا لبنية تحتية الذكاء الاصطناعي
تأتي الأرقام التي نشرتها Xiaomi في يونيو 2026 لتدحض الافتراض السائد بأن الاستدلال على نطاق الحدود يستلزم رقائق خاصة. وفقاً لتحليل MarkTechPost لإصدار MiMo-V2.5-Pro-UltraSpeed، يحقق النظام سرعات فك ترميز تتجاوز 1000 رمز في الثانية على نموذج بتريليون معامل، باستخدام عقدة قياسية واحدة من 8 وحدات GPU — وهي نفس فئة الأجهزة الموجودة في أسطول GPU لدى أي مزود سحابي رئيسي.
للإشارة إلى السياق، تعمل النماذج الإنتاجية المستخدمة على نطاق واسع بجزء من هذه الإنتاجية عند نطاقات مقارنة. التداعي مباشر: إذا كان نموذج MoE بـ 1.02 تريليون معامل يستطيع الوصول إلى 1200 رمز في الثانية على أجهزة استهلاكية، فإن منحنى التكلفة لكل رمز للأنظمة الأكثر قدرة على وشك الانحدار الحاد نحو الأسفل.
1. أعد معايرة افتراضات ميزانية الاستدلال للفترة 2026–2027
يُلزم نتيجة MiMo UltraSpeed بإعادة تقييم معنى “الاستدلال المكلف”. تُؤكد تغطية Let’s Data Science للإصدار التسعير على API: يكلف UltraSpeed ثلاثة أضعاف سعر MiMo-V2.5-Pro القياسي، لكنه يوفر ما يعادل 10 أضعاف سرعة التوليد. من حيث التكلفة لكل رمز مُسلَّم، يميل الحساب لصالح المستوى الأسرع في التطبيقات الحساسة للزمن.
ينبغي لفرق البنية التحتية التي أقفلت خطط تخصيص GPU متعددة السنوات بناءً على معايير الإنتاجية من عام 2024 أن تعتبر هذه الخطط مؤقتة. التأثير التراكمي لتحسينات التكميم، وفك الترميز التخميني، وتحسين وقت التشغيل يتحرك بوتيرة أسرع من خرائط طريق الأجهزة السنوية. ينبغي اختبار أي ميزانية مبنية على افتراضات “رموز لكل دولار” أكثر من اثني عشر شهراً في مواجهة الأرقام الجديدة.
2. افهم التحسين ثنائي الطبقة الذي يُتيح هذا الأداء
نتيجة UltraSpeed ليست حيلة واحدة — بل هي ثمرة تحسينين تكميليين مطبّقين فوق بنية MoE، يعالج كل منهما عنق زجاجة مختلفاً.
الطبقة الأولى هي التكميم. يشرح التحليل التقني لـ GizChina عن MiMo-V2.5-Pro أن دقة FP4 (تحديداً MXFP4) تُطبَّق بشكل انتقائي على طبقات خبراء MoE فقط، بينما تبقى الوحدات الأخرى — بما في ذلك آليات الانتباه — بدقة FP8. يحافظ هذا النهج الجراحي على جودة النموذج مع خفض ضغط عرض النطاق الترددي للذاكرة بشكل كبير على حسابات الخبراء، حيث تقضي نماذج MoE معظم دوراتها أثناء الاستدلال.
الطبقة الثانية هي فك الترميز التخميني عبر DFlash. على خلاف فك الترميز التخميني الكلاسيكي الذي يُولّد رموزاً مسوّدة بنموذج أصغر ثم يتحقق منها بالنموذج الكامل، يستخدم DFlash نموذج مسودة بآلية Sliding Window Attention يعمل في وضع التنبؤ المتوازي المُقنَّع على مستوى الكتل، مع حجم كتلة يبلغ 8 رموز كحد أقصى. النتيجة هي أطوال قبول تبلغ 6.30 رمزاً لكل جولة تحقق في مهام البرمجة، و5.56 في الرياضيات والاستدلال، و4.29 في مهام الوكلاء. تعني هذه المعدلات أن النموذج الكبير لا يُستدعى فعلياً إلا للتحقق في جزء من الوقت — وهنا تظهر مضاعفة الإنتاجية.
يدعم وقت تشغيل GPU الخاص بـ TileRT كلا التحسينين. تستخدم بنيته ذات النواة الدائمة تقنية Warp Specialization لتداخل نقل البيانات والحساب، مما يُزيل زمن التبديل بين العمليات الذي يُعاني منه نظام الاستدلال القياسي. النتيجة الصافية هي نظام تبقى فيه نسبة استخدام الأجهزة عالية طوال مرحلة فك الترميز، وليس فقط عند طبقات الانتباه.
3. ادمج الإصدار مفتوح المصدر في تخطيط قدراتك
لم تحتفظ Xiaomi وTileRT بالنتيجة حكراً عليهما. تم إصدار نقطة تفتيش النموذج FP4-DFlash على Hugging Face باسم MiMo-V2.5-Pro-FP4-DFlash، كما أتاحت TileRT وحدات وقت تشغيل مختارة بشكل مفتوح المصدر على GitHub. هذا يعني أن حزمة التحسين متاحة للفحص والتكييف والتكامل في خطوط أنابيب استدلال من طرف ثالث.
بالنسبة لفرق الهندسة التي تُقيّم ما إذا كانت ستبني بنية تحتية للاستدلال أو تشتريها، فإن الإصدار مفتوح المصدر يغيّر الحسابات. التقنيات — التكميم الانتقائي FP4 على خبراء MoE، وفك الترميز التخميني على مستوى الكتل، وأوقات التشغيل ذات النواة الدائمة — موثقة الآن وقابلة للاستنساخ. الفرق التي تمتلك قدرات MLOps قوية يمكنها دراسة البنية مباشرة بدلاً من انتظار قيام مورّد بتغليفها.
كانت فترة تجربة API — من 9 إلى 23 يونيو 2026 — مقتصرة على الشركات والمطورين المحترفين، بعشر إدخالات يومية في طابور الانتظار وحدود جلسات لمدة 30 دقيقة. يُشير الإصدار مفتوح المصدر لنقطة التفتيش إلى أن توفراً إنتاجياً أوسع سيلي ذلك، وإن لم يُعلَن عن الجدول الزمني الدقيق.
إعلان
التقنيات الكامنة وراء هذه السرعة
تستحق المكونات الفردية لمجموعة MiMo UltraSpeed فحصاً أعمق، لأن كلاً منها يحل مشكلة قيّدت استدلال النماذج الكبيرة لسنوات.
التكميم الانتقائي مقابل التكميم الشامل. معظم عمليات نشر FP4 في الإنتاج تُطبّق التكميم بشكل موحد على جميع أوزان النموذج. نهج MiMo لا يُكمّم إلا طبقات خبراء MoE، التي تحمل الغالبية العظمى من عدد المعاملات في نموذج MoE بتريليون معامل لكنها تُوصل بشكل متفرق أثناء أي تمرير أمامي. تبقى طبقات الانتباه — التي تعالج كل رمز — بدقة FP8. هذا التفاوت يعني أن النظام لا يُضحّي بالدقة الأكثر أهمية لجودة التوليد، مع الاستيلاء على وفورات عرض النطاق الترددي للذاكرة من FP4 حيث يكون عدد المعاملات أعلى. استُخدم التدريب المدرك للتكميم (QAT — Quantization-Aware Training) للحفاظ على تكافؤ القدرات مع المرجع FP8، بحيث لا يأتي مكسب السرعة على حساب تراجع المعايير القياسية.
فك الترميز التخميني على مستوى الكتل. يُولّد فك الترميز التخميني الكلاسيكي تسلسلاً من الرموز المسوّدة بنموذج صغير، ثم يتحقق من جميعها في تمرير أمامي واحد للنموذج الكبير. تعتمد الكفاءة كلياً على معدل القبول: إذا رُفضت معظم الرموز المسوّدة، فإن الحمل الإضافي لتشغيل نموذج المسودة يُلغي التوفير. يعني التنبؤ المتوازي المُقنَّع على مستوى الكتل لـ DFlash — بحجم كتلة 8 — أن نموذج المسودة يقترح حتى 8 رموز في آنٍ واحد، ويتحقق النموذج الكبير من الكتلة الكاملة في عملية واحدة. مع أطوال قبول تتجاوز متوسطها 6 رموز لكل جولة في مهام البرمجة، يُنفّذ النموذج الكبير تمريرات أمامية إجمالية أقل بكثير لكل رمز مُولَّد مقارنة بالمرجع الانحداري البسيط — ومن هنا يتجلى مضاعف الإنتاجية البالغ 10 أضعاف.
كفاءة وقت التشغيل عبر TileRT. يُبقي وقت التشغيل ذو النواة الدائمة لـ TileRT نوى GPU مشغولة باستمرار عبر تداخل نقل الذاكرة مع الحساب من خلال Warp Specialization. في أوقات التشغيل القياسية للاستدلال، تكتمل كل عملية (الانتباه، توزيع الخبراء، الإسقاط) قبل بدء التالية، مما يترك GPU خاملاً أثناء نقل البيانات. يُزيل خط الأنابيب غير المتجانس لـ TileRT هذه الفترات الخاملة. النتيجة أن الطبقتين التحسينيتين أعلاه — التكميم وفك الترميز التخميني — تعملان على وقت تشغيل يُهدر فيه ما يكاد يكون صفراً من دورات GPU بينهما.
إلى أين يتجه استدلال الحدود
نتيجة MiMo UltraSpeed هي علامة فارقة، لكنها تُفهَم على نحو أفضل باعتبارها معاينة لاتجاه هيكلي لا إنجازاً معزولاً. يُشير الجمع بين بنيات MoE (التي تُبقي أعداد المعاملات النشطة منخفضة لكل رمز رغم ارتفاع أعداد المعاملات الإجمالية)، والتكميم الجريء (FP4 ليس الحد الأدنى — البحث في FP2 نشط)، وفك الترميز التخميني (معدلات القبول لا تزال تتحسن مع نماذج مسودة أفضل) نحو مستقبل تصبح فيه الاستدلال على نطاق التريليون معامل خدمة سلعية لا تخصصاً راقياً.
المقارنة مع موردي الرقائق المخصصة مُثيرة للتأمل. أنظمة مثل Cerebras Wafer-Scale Engine وLPU من Groq تحقق إنتاجية عالية بإعادة تصميم الأجهزة حول أنماط أعباء عمل الذكاء الاصطناعي، إذ بلغ محرك Cerebras 969 رمزاً في الثانية على نموذج Llama 3.1 405B — وهو نموذج أصغر بـ 2.5 مرة من MiMo. يحقق MiMo UltraSpeed إنتاجية مقارنة — على نطاق التريليون معامل — على أجهزة GPU قياسية من خلال التحسين على المستوى البرمجي. لا نهج من الاثنين قديم؛ لكل منهما اقتصاديات مختلفة بمقاييس مختلفة. غير أن الفجوة بين السلعي والمخصص قد ضاقت بشكل ملحوظ.
بالنسبة لممارسي الذكاء الاصطناعي، الخلاصة الفورية هي أن قيود الإنتاجية التي بدت دائمة قبل ستة أشهر باتت قابلة للتفاوض الآن. سطح الهندسة لتحسين الاستدلال — دقة التكميم، وبنية فك الترميز التخميني، وتصميم وقت التشغيل — نشط ويُنتج نتائج بوتيرة أسرع من دورات شراء الأجهزة. الفرق التي تتعامل مع تحسين الاستدلال كمسألة برمجية لا مجرد مسألة شراء أجهزة ستجد أمامها روافع أكثر مما توقعت.
يعني الإصدار مفتوح المصدر لنقطة التفتيش ووحدات وقت التشغيل أن المجتمع سيتعلم من ويمتد ويُحسّن على الأرجح على أساس MiMo UltraSpeed في الأشهر المقبلة. رقم 1200 رمز في الثانية لنموذج بتريليون معامل مثير للإعجاب اليوم؛ وبحلول منتصف 2027، قد يكون توقع الأساس.
الأسئلة الشائعة
Q: ما الذي يُميّز MiMo UltraSpeed عن الاستدلال القياسي للنماذج الكبيرة؟
يُولّد الاستدلال الانحداري التلقائي القياسي رمزاً واحداً في كل مرة، ما يستلزم تمريراً أمامياً كاملاً عبر النموذج لكل رمز. يجمع MiMo UltraSpeed بين التكميم الانتقائي FP4 على طبقات خبراء MoE وفك الترميز التخميني DFlash على مستوى الكتل، مما يُتيح للنظام التحقق من ما يصل إلى 8 رموز مسوّدة في تمرير أمامي واحد للنموذج الكبير. مع أطوال قبول متوسطة تبلغ 6.30 رمزاً لكل جولة في مهام البرمجة، ينخفض العدد الفعلي للتمريرات الأمامية الكاملة لكل رمز مُولَّد بشكل كبير — وهذا هو المصدر الرئيسي لمكسب الإنتاجية البالغ 10 أضعاف مقارنة بالنموذج الأساسي.
Q: هل يُدهور التكميم FP4 جودة النموذج؟
وفقاً للتفاصيل التقنية المنشورة مع MiMo-V2.5-Pro-UltraSpeed، استُخدم التدريب المدرك للتكميم (QAT) تحديداً للحفاظ على تكافؤ القدرات مع المرجع FP8. كما يُطبَّق تكميم FP4 بشكل انتقائي — فقط على طبقات أوزان خبراء MoE، وليس على وحدات الانتباه أو المكونات الأخرى التي تكون خسارة الدقة فيها أكثر تأثيراً على جودة المخرجات. لا تُظهر نتائج المعايير القياسية المنشورة أي تراجع ملحوظ مقارنة بنموذج MiMo-V2.5-Pro القياسي.
Q: كيف تتم المقارنة مع أجهزة الاستدلال المخصصة للذكاء الاصطناعي؟
تحقق أنظمة الأجهزة المخصصة للذكاء الاصطناعي مثل Cerebras Wafer-Scale Engine وLPU من Groq إنتاجية عالية بإعادة تصميم الأجهزة حول أنماط أعباء عمل الذكاء الاصطناعي — نقل البيانات على الشريحة والتخلص من عنق الزجاجة في ذاكرة DRAM. يحقق MiMo UltraSpeed أكثر من 1000 رمز في الثانية على نموذج بتريليون معامل باستخدام عقد GPU قياسية من 8 وحدات من الفئة الاستهلاكية من خلال التحسين على المستوى البرمجي: التكميم الانتقائي، وفك الترميز التخميني، ووقت التشغيل ذو النواة الدائمة. الفجوة بين الأجهزة الاستهلاكية المُحسَّنة برمجياً والرقائق المخصصة قد ضاقت بشكل ملحوظ، إذ يوفر النهج الاستهلاكي ميزة التوفر عبر أي مزود سحابي رئيسي.
المصادر والقراءات الإضافية
- Xiaomi MiMo وTileRT يدفعان نموذجاً بتريليون معامل إلى ما فوق 1000 رمز في الثانية — MarkTechPost
- Xiaomi MiMo يحقق 1000 رمز في الثانية في الاستدلال — Let’s Data Science
- Xiaomi MiMo-V2.5-Pro يصل إلى 1000 رمز في الثانية — GizChina
- نموذج بتريليون معامل، 1000 رمز/ث، 8 وحدات GPU: Xiaomi تُعيد تعريف حدود الاستدلال — China Biz Insider














