يُقدَّر أن GPT-4 يحتوي على نحو 1.8 تريليون معامل (parameter). غير أن معالجة أي رمز (token) واحد — كلمة واحدة أو علامة ترقيم — تُبقي الغالبية العظمى من هذه المعاملات خاملةً تماماً، دون أن تؤدي أي عمل. لا يُفعّل النموذج إلا شريحة صغيرة من طاقته الكاملة عند كل تنبؤ. لسنوات، أدرك باحثو الذكاء الاصطناعي أن هذا الأسلوب يُمثّل هدراً حسابياً هائلاً، وراحوا يبحثون عن طريقة منهجية لتجاوزه. أفضت هذه البحوث إلى إجابة باتت تُعرف بـ Mixture of Experts.
لم تكن MoE فكرة وليدة اللحظة؛ إذ تعود جذورها إلى أبحاث أكاديمية من مطلع تسعينيات القرن الماضي. بيد أنها، في سياق نماذج اللغة الكبيرة، غدت اليوم واحدة من أبرز القرارات المعمارية في جيل الذكاء الاصطناعي الحالي. وهي السبب الجوهري الذي مكّن Mistral AI — وهي شركة ناشئة باريسية لا تمتلك إلا جزءاً ضئيلاً من موارد OpenAI — من إطلاق نموذج عام 2023 يُضاهي نماذج أكبر منه ثلاثة أضعاف أو يتجاوزها. وهي ذاتها التي دفعت xAI إلى بناء Grok بـ 314 مليار معامل، مع تشغيل الاستدلال بتكلفة نموذج كثيف (dense) من فئة 70B. ولهذا السبب بالذات تتغير اقتصاديات الذكاء الاصطناعي المتقدم بوتيرة تفوق ما تستوعبه معظم المؤسسات الشارية في الوقت الراهن.
الثنائية بين النماذج الكثيفة والنماذج المتفرقة
لفهم MoE، لا بد أولاً من فهم آلية عمل النموذج “الكثيف” (dense)، إذ إن جميع نماذج اللغة الكبيرة المعتمدة على المحوّلات (transformers) التي نعرفها — GPT وClaude وLlama — كثيفة بطبيعتها الافتراضية.
في النموذج الكثيف، يُفعّل كل رمز يمر عبر طبقة من طبقات المحوّل كلَّ خلية عصبية في تلك الطبقة. فإن كانت الشبكة ذات التغذية الأمامية (feed-forward) في طبقة بعينها تحتوي على 10,000 خلية عصبية، فإن جميعها تعمل على كل رمز، سواء أكان ذلك كلمة “في” أم معادلة رياضية معقدة متعددة الخطوات. هذا النهج متجانس حسابياً، مما يُيسّر تطبيقه والتعامل معه. لكنه في الوقت ذاته يقوم على استخدام غير رشيد لطاقاته: يتعلم النموذج تمثيلات متخصصة في خلاياه العصبية المختلفة، ثم يُجبرها جميعها على المشاركة في كل عملية حسابية بصرف النظر عن مدى صلتها بالرمز المعالَج.
يعكس النموذج المتفرق (sparse) هذا المنطق رأساً على عقب. بدلاً من كتلة feed-forward ضخمة واحدة دائمة التفعيل، يستبدل النموذج المتفرق هذه الكتلة بمجموعة من شبكات feed-forward الأصغر حجماً — وهي “الخبراء” (experts) — يُرافقها آلية توجيه (routing) تقرر لكل رمز أيَّ الخبراء يتولى معالجته. يبقى معظم الخبراء خاملين أمام أي رمز بعينه، ولا يحسب إلا الخبراء المختارون. يظل إجمالي عدد المعاملات (الطاقة الكلية) كبيراً، في حين يبقى عدد المعاملات المستخدمة فعلياً لكل رمز (الحوسبة النشطة) محدوداً. هذه هي الفكرة الجوهرية.
أما الموجِّه — المعروف أحياناً بشبكة الفلترة (gating network) — فهو شبكة خفيفة الوزن مُتعلَّمة تتمركز أمام مجموعة الخبراء. تأخذ هذه الشبكة التمثيلَ الخفيَّ للرمز مدخلاً وتُخرج توزيعاً احتمالياً على جميع الخبراء المتاحين. يتلقى الخبراء الأعلى K درجةً الرمزَ، أما البقية فلا تُستدعى. وفي معظم التطبيقات يساوي K قيمة 2: يُعالج كل رمز بواسطة خبيرين تحديداً في كل طبقة، بصرف النظر عن إجمالي عدد الخبراء في المجموعة.
آلية عمل MoE من الداخل
لنضرب مثالاً عملياً. تخيّل طبقة MoE تضم 8 خبراء ونظام توجيه top-2.
يصل رمز ما. تُنتج شبكة الفلترة 8 درجات — درجة لكل خبير. يتلقى الخبيران الحاصلان على أعلى درجتين الرمزَ. يعالج كل خبير الرمز باستقلالية تامة عبر شبكة feed-forward الخاصة به. تُرجَّح مخرجاتهما بدرجات الفلترة وتُجمع لإنتاج مخرج الطبقة لذلك الرمز. يصل الرمز التالي، فقد تختار شبكة الفلترة زوجاً مختلفاً تماماً من الخبراء. وعلى مدار ملايين الرموز، يتخصص كل خبير تدريجياً: بعضهم في البرمجة، وآخرون في الاستدعاء الواقعي، وغيرهم في بنية الجملة.
يبدو هذا نظيفاً من الناحية النظرية. لكن يظهر عملياً مشكلتان فورياً.
الأولى هي اختلال توازن الحِمل. في غياب أي قيد، تتقارب شبكة الفلترة نحو اختيار الخبير أو الخبيرين أنفسهم دوماً — أولئك الذين تعلّمت تفضيلهم مبكراً في مرحلة التدريب. يُعرف هذا بـ”انهيار الخبراء” أو “انهيار توجيه الخبراء”. إن وقع ذلك، أصبح النموذج الذي يحوي 8 خبراء يعمل فعلياً بخبير واحد، مما يُفرغ الفكرة من مضمونها. الحل المعتمد هو إضافة حد خسارة مساعد لموازنة الحمل ضمن هدف التدريب. يُعاقب هذا الحد النموذجَ حين يميل توزيع الرموز بين الخبراء بصورة مفرطة، مُرغِماً الموجّه على توزيع الحمل بعدالة أكبر.
الثانية هي المقايضة بين الذاكرة والحوسبة. يمتلك نموذج MoE بـ 8 خبراء ما يعادل تقريباً 8 أضعاف معاملات نموذج أحادي الخبير في طبقاته ذات التغذية الأمامية. يجب أن تقطن هذه المعاملات كلها في ذاكرة GPU (أو يُفرَّغ بعضها وهو إجراء بطيء). غير أن الحوسبة الفعلية — ضرب المصفوفات المُنجزة لكل رمز — تقتصر على الخبيرين النشطين فحسب. تدفع تكلفة الذاكرة الكاملة للنموذج، لكنك لا تتحمل إلا تكلفة حوسبة جزء منه. في الاستدلال على نطاق واسع، يُعدّ هذا مقايضةً مُجدية: الحوسبة GPU هي نقطة الاختناق التي تحكم التكلفة لكل رمز، وMoE تُخفّضها تخفيضاً جوهرياً.
النماذج التي أثبتت الفكرة
تغيّر المشهد التجاري والمفتوح المصدر بوضوح لحظة توقفت MoE عن كونها فضولاً بحثياً وتحولت إلى بنية إنتاجية قابلة للشحن.
Mixtral 8x7B، الذي أطلقته Mistral AI في ديسمبر 2023، كان أول نموذج MoE كبير ذي أوزان مفتوحة يستقطب اهتماماً جاداً من الصناعة. بنيته: 8 خبراء في كل طبقة، توجيه top-2، 46.7 مليار معامل إجمالي لكن ~12.9 مليار معامل نشط فحسب لكل رمز. أظهرت اختبارات الأداء أنه يعادل Llama 2 70B أو يتفوق عليه في معظم المهام، مع استخدام ما يعادل خُمس الحوسبة النشطة. كان هذا حدثاً للمعايرة من جديد لكل الفرق التي اعتبرت النماذج الكثيفة 70B سقف العالم مفتوح المصدر. والأهم أن Mistral نشرته تحت رخصة Apache 2.0، ما يعني أن أي منظمة يمكنها تنزيله وضبطه الدقيق (fine-tuning) ونشره تجارياً دون قيود.
Grok-1، الذي أصدرته xAI في مارس 2024 تحت رخصة Apache 2.0، حمل البنية إلى مستوى مختلف كلياً. المعاملات الكلية: 314 مليار. المعاملات النشطة لكل تمرير أمامي: نحو 25%، أي نحو 78 مليار. يستخدم Grok خليطاً من 8 خبراء مع توجيه top-2، متسقاً مع نهج Mixtral لكن بمقياس كان سيكون باهظ التكلفة لتشغيله كنموذج كثيف. الإصدار مفتوح المصدر كان ذا أهمية بالغة: نموذج من 314B معامل يعمل بتكلفة حوسبة نموذج كثيف من ~78B يختلف اختلافاً جذرياً في التشغيل عن نموذج كثيف بنفس الحجم.
Gemini 1.5 من Google DeepMind، الصادر في منتصف 2024، يُفيد على نطاق واسع باستخدامه بنية MoE، وإن لم تُفصح Google عن تفاصيل معمارية بنفس مستوى تفصيلية الإصدارات مفتوحة المصدر. الموثَّق علناً هو قدرته على التعامل مع نوافذ سياق من مليون رمز بتكاليف استدلال مقبولة تجارياً — إنجاز كان سيكون غير مجدٍ اقتصادياً مع بنية كثيفة كاملة بقدرات مماثلة.
دفعت متغيرات DeepSeek MoE، الصادرة طوال 2024 و2025، حدود كفاءة MoE أبعد. قدّم نهج DeepSeek دقة أكبر في تصميم الخبراء وتصميم “خبراء مشتركين” — مجموعة صغيرة من الخبراء تعمل دوماً إلى جانب الخبراء الموجَّهين ديناميكياً — مما حسّن موازنة الحمل وقلّص تكاليف التوجيه.
إعلان
لماذا يؤثر ذلك على التكاليف
التخفيض في التكاليف الذي تُحققه MoE ليس هامشياً. إنه بنيوي.
للاستدلال، المقياس العملي هو FLOPS لكل رمز — عدد العمليات ذات الفاصلة العائمة المطلوبة لتوليد رمز مخرج واحد. في النموذج الكثيف، يتناسب هذا الرقم تناسباً مباشراً مع إجمالي عدد المعاملات. في نموذج MoE بتوجيه top-2 عبر 8 خبراء، تُعادل الحوسبة النشطة لكل رمز تقريباً نموذجاً كثيفاً يمتلك ربع إجمالي المعاملات. يعمل Mixtral 8x7B بميزانية FLOPS تعادل نموذجاً كثيفاً بـ 12B معامل تقريباً، بينما يستمد قدرته من سعة 46B معامل.
يهم هذا على كل مستوى من مستويات المنظومة التقنية. لمزودي واجهات برمجة التطبيقات (API)، يعني تكلفة خدمة أقل وإنتاجية أفضل لكل GPU. للمؤسسات التي تُشغّل الاستدلال محلياً، يعني الوصول إلى عتبات قدرة على أجهزة كانت سابقاً غير كافية. يمكن تشغيل Mixtral 8x7B المُكمَّم (quantized) على GPU A100 اثنتين للمستهلكين العاديين. في حين يستلزم نموذج كثيف ذو قدرة مماثلة موارد أكبر بكثير.
التكلفة الفعلية تكمن في متطلبات الذاكرة. يجب الاحتفاظ بجميع أوزان الخبراء في VRAM حتى وإن لم يُفعَّل منها إلا جزء لكل رمز. بالنسبة للمؤسسات ذات الذاكرة المحدودة في GPU، يفرض هذا خيارات: تشغيل عدد أقل من الحالات، أو استخدام الكمّ (quantization) بصورة أكثر حدة، أو قبول أن بعض تطبيقات MoE تعمل بكفاءة أفضل موزّعة على عدة GPU بدلاً من عقدة واحدة.
القيود والتحديات
MoE ليست حلاً نظيفاً لكل مشكلة.
تكاليف التواصل بين GPU المتعددة حقيقية وكبيرة الأثر. في الاستدلال الموزع، قد يتمركز كل خبير على GPU مختلفة. حين يُوجَّه رمز إلى خبير على جهاز مختلف، يجب نقل التفعيل عبر الاتصال الداخلي — NVLink أو InfiniBand. على نطاق واسع، يُنشئ نمط الاتصال الشامل هذا (all-to-all) زمن استجابة قد يُلغي جزئياً الوفورات الحسابية. وهو تحدٍّ هندسي لا تواجهه النماذج الكثيفة أصلاً.
اختلال توازن حِمل الخبراء أثناء الاستدلال مسألة مستقلة عن الاختلال في وقت التدريب. حتى مع وجود الخسارة المساعدة، قد تُفعّل توزيعات الرموز في العالم الحقيقي خبراء بعينهم أكثر بكثير من غيرهم وفق مجال المدخلات. خبير متخصص في معالجة البرمجة سيكون مثقلاً في بيئة مساعد برمجي، مُولِّداً فجوات في زمن الاستجابة يصعب التنبؤ بها.
تعقيد الضبط الدقيق (fine-tuning) أعلى مما هو عليه في النماذج الكثيفة. يُدخل آلية التوجيه حساسية لا تحتاج إليها خطوط أنابيب الضبط الدقيق للنماذج الكثيفة. تقنيات مثل LoRA تعمل على نماذج MoE لكنها تستلزم عناية بشأن ما إذا كانت المحوّلات (adapters) تُطبَّق على جميع الخبراء أم على الطبقات المشتركة فقط.
يظل انهيار الخبراء خطراً في التدريب حتى مع الخسارة المساعدة. إيجاد التوازن الصحيح بين هدف التدريب الرئيسي وهذه الخسارة ليس أمراً يسيراً؛ الإفراط في تثقيلها قد يُدهور أداء المهام، بينما يؤدي التهاون معها إلى العودة للانهيار.
الطفرة المفتوحة المصدر لنماذج MoE
كانت استراتيجية نشر Mistral مصمَّمة عمداً لإحداث ثورة في السوق. بنشر Mixtral تحت رخصة Apache 2.0، أطلقت Mistral منظومة ضبط دقيق مجتمعية في وقت قياسي. في غضون أسابيع من إصدار ديسمبر 2023، ضمّ محور نماذج Hugging Face عشرات من مشتقات Mixtral: متغيرات مُعدَّلة للتعليمات، ونسخ مُحسَّنة للمحادثة، ونماذج مُكمَّمة تعمل على A100 واحدة، وضبط دقيق متخصص للتطبيقات القانونية والطبية وتطبيقات البرمجة.
يمتلك هذا دلالات استراتيجية عميقة لأي مؤسسة تقيّم تطبيقات الذكاء الاصطناعي. الحسابات السابقة — “نحتاج جودة GPT-4، إذاً نستخدم API من OpenAI” — لم تعد صحيحة بصورة شاملة. يمكن لنموذج Mixtral مُضبوط دقيقاً ومُنشأ محلياً أن يُضاهي GPT-3.5-Turbo أو يتفوق عليه في مهام خاصة بمجال محدد، دون أن تُغادر البيانات بنية تحتية المنظمة ودون تكاليف API لكل رمز. للصناعات الخاضعة للتنظيم حيث تُعدّ إقامة البيانات قيداً إلزامياً، هذا تحوّل نوعي وليس تحسيناً هامشياً.
أدى الطفيل الأشمل للنماذج مفتوحة المصدر من نوع MoE — Mixtral وGrok-1 ومتغيرات DeepSeek والنماذج من مختبرات أصغر — إلى توفير مستوى من نماذج الأساس المتاحة للعموم كان يُعدّ قبل ثمانية عشر شهراً حكراً على النماذج المغلقة. الفجوة بين ما يمكنك استضافته ذاتياً وما كانت تستطيع تقديمه فحسب نماذج الحدود المغلقة تضيق بوتيرة ربما أسأت خرائط الطريق المؤسسية المُعدَّة عام 2024 تقدير حجمها بصورة منهجية.
إعلان
رادار القرار (المنظور الجزائري)
| البُعد | التقييم |
|---|---|
| الأهمية للجزائر | عالية — يمكن لنماذج MoE كـ Mixtral العمل على أجهزة أقل كلفة بكثير من النماذج الكثيفة المعادلة، مما يُيسّر الاستضافة المحلية للذكاء الاصطناعي للشركات الناشئة الجزائرية والمؤسسات البحثية ذات الميزانيات المحدودة من GPU |
| البنية التحتية جاهزة؟ | جزئياً — يتطلب تشغيل Mixtral 8x7B نحو 90 غيغابايت من VRAM (2x A100 أو ما يعادلها) — في متناول الشركات الكبرى والجامعات؛ ستحتاج المنظمات الأصغر لا تزال إلى الوصول عبر API السحابية |
| المهارات متوفرة؟ | جزئياً — المهندسون المتخصصون في ضبط النماذج الكثيفة ونشرها قادرون على العمل مع بنى MoE؛ أما تحسين MoE المتعمق فيستلزم خبرة متخصصة لم تنتشر بعد على نطاق واسع في الجزائر |
| الأفق الزمني للعمل | 6-12 شهراً |
| أصحاب المصلحة الرئيسيون | باحثو الذكاء الاصطناعي، ومهندسو التعلم الآلي، والمديرون التنفيذيون للمعلومات الذين يقيّمون الذكاء الاصطناعي المستضاف ذاتياً، وأقسام علوم الحاسوب في الجامعات، والشركات الناشئة الجزائرية في مجال الذكاء الاصطناعي |
| نوع القرار | استراتيجي |
خلاصة سريعة: تُعدّ بنية MoE السبب الرئيسي وراء تضييق الفجوة بين النماذج مفتوحة المصدر والنماذج المغلقة المتقدمة بجزء من التكلفة. ينبغي لفرق الذكاء الاصطناعي الجزائرية أن تُقيّم نماذج Mixtral ومتغيرات DeepSeek MoE قبل اللجوء بصورة افتراضية إلى واجهات برمجة تطبيقات OpenAI — فاقتصاديات الاستضافة الذاتية تغيّرت تغيّراً جذرياً.
المصادر والقراءات الإضافية
- Mixtral of Experts — مدونة Mistral AI
- Grok-1 Open Release — مدونة xAI
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity — Google Research (Fedus et al., 2021)
- Mixture of Experts Explained — مدونة Hugging Face
- DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models — DeepSeek AI (2024)





إعلان