وقت القراءة: ~9 دقائق
Date: 2026-03-09
SEO Title: بنية المحوّلات مشروحة ببساطة
SEO Description: كيف تعمل بنية المحوّل: الانتباه الذاتي والترميز الموضعي والمُرمّز-فك الترميز ولماذا حلت محل الشبكات التكرارية لتشغيل GPT وClaude وGemini.
Focus Keyphrase: بنية المحوّلات
خلاصة : المحوّل (Transformer) هو البنية المعمارية للشبكات العصبية وراء كل نظام ذكاء اصطناعي رئيسي اليوم — GPT-4 وClaude وGemini وStable Diffusion ومئات غيرها. قُدِّم في ورقة 2017 بعنوان “الانتباه هو كل ما تحتاج” (Attention Is All You Need)، وحلّت المحوّلات محل الشبكات العصبية التكرارية (RNNs) من خلال معالجة التسلسلات بأكملها بالتوازي عبر آلية انتباه ذاتي تسمح لكل عنصر بالنظر في علاقته بكل عنصر آخر. هذا الابتكار المعماري الوحيد فتح أبواب التوسع الذي أنتج ثورة الذكاء الاصطناعي التوليدي.
ثماني صفحات أعادت تشكيل صناعة
في يونيو 2017، نشر فريق من ثمانية باحثين في Google ورقة بعنوان بدا كتحدٍّ: “الانتباه هو كل ما تحتاج” (Attention Is All You Need). اقترحت الورقة استبدال البنية المعمارية المهيمنة للشبكات العصبية في مهام اللغة — الشبكات العصبية التكرارية — بشيء جديد تماماً. أسموه المحوّل (Transformer).
الورقة لم تخترع آليات الانتباه. تلك كانت موجودة لسنوات كإضافات للبنى الموجودة. ما اقترحته كان أكثر جذرية: بنية مبنية بالكامل من الانتباه، بدون تكرار وبدون التفاف (Convolution). الحكمة السائدة قالت إن هذا لا ينبغي أن يعمل. النتائج التجريبية قالت عكس ذلك.
خلال عامين، أزاحت المحوّلات الشبكات التكرارية وLSTM في معالجة اللغة الطبيعية. خلال خمس سنوات، انتشرت إلى الرؤية الحاسوبية والتنبؤ ببنية البروتينات وتركيب الكلام والروبوتات. كل نموذج لغوي كبير يُشغّل ثورة الذكاء الاصطناعي الحالية — GPT-4 وClaude وGemini وLLaMA وMistral — هو محوّل. فهم كيف تعمل هو فهم محرك الذكاء الاصطناعي الحديث.
لماذا كان لا بد من التخلي عن الشبكات التكرارية
لفهم لماذا كانت المحوّلات مهمة، تحتاج لفهم ما حلّت محله.
كانت الشبكات العصبية التكرارية (RNNs) ونسختها المحسّنة، شبكات الذاكرة الطويلة قصيرة المدى (LSTMs)، تُعالج التسلسلات عنصراً واحداً في كل مرة. لفهم كلمة “انهار” في جملة “سوق الأسهم، الذي كان يرتفع بثبات لأشهر رغم تحذيرات الاقتصاديين من الحرارة المفرطة، انهار أخيراً”، كان على الشبكة التكرارية معالجة كل كلمة سابقة بالتتابع، مع الحفاظ على حالة مخفية تحمل المعلومات للأمام.
خلقت هذه المعالجة التسلسلية مشكلتين. أولاً، كانت بطيئة — كل خطوة تعتمد على الخطوة السابقة، لذا لم يكن بالإمكان موازاة الحساب عبر النوى المتعددة لوحدة معالجة الرسوميات الحديثة. التدريب على مجموعات بيانات كبيرة استغرق وقتاً غير عملي.
ثانياً، تدهورت المعلومات عبر المسافة. بحلول وصول الشبكة التكرارية إلى “انهار”، كانت معلومات “سوق الأسهم” — على بعد 20 كلمة — قد ضُغطت عبر عنق زجاجة الحالة المخفية، مُخفَّفة بكل كلمة وسيطة. عالجت شبكات LSTM هذا جزئياً بآليات البوابات، لكن المشكلة الأساسية بقيت: التبعيات بعيدة المدى كانت صعبة الالتقاط.
حلّت المحوّلات كلتا المشكلتين في آنٍ واحد.
الانتباه الذاتي: الابتكار الجوهري
الآلية المركزية للمحوّل — الانتباه الذاتي (Self-Attention) — تسمح لكل عنصر في التسلسل بالانتباه مباشرة لكل عنصر آخر، بغض النظر عن المسافة. لا معالجة تسلسلية. لا عنق زجاجة معلوماتي. اتصالات مباشرة بين أي موضعين.
إليك كيف يعمل، خطوة بخطوة.
الاستعلامات والمفاتيح والقيم
لكل رمز في المدخل، يحسب المحوّل ثلاثة متجهات: استعلام (Q)، ومفتاح (K)، وقيمة (V). فكّر فيها كمحرك بحث. الاستعلام يمثل “عمّ أبحث؟” المفتاح يمثل “ماذا أحتوي؟” القيمة تمثل “ما المعلومات التي يجب أن أمررها إذا اختُرت؟”
تُحسب درجة الانتباه بين رمزين بأخذ الجداء النقطي لاستعلام أحد الرمزين مع مفتاح الآخر. جداء نقطي عالٍ يعني أن الرمزين مرتبطان ببعضهما. تُطبَّع هذه الدرجات باستخدام Softmax لإنشاء توزيع احتمالات — أوزان انتباه — مجموعها 1.
المخرج لكل موضع هو مجموع مُرجَّح لجميع القيم، حيث تأتي الأوزان من درجات الانتباه. الرموز المرتبطة ببعضها بشكل كبير تتبادل أكبر قدر من المعلومات. الرموز غير المرتبطة تتبادل القليل جداً.
الانتباه متعدد الرؤوس
حساب انتباه واحد يلتقط نوعاً واحداً من العلاقات بين الرموز. لكن اللغة لها أنواع كثيرة من العلاقات — نحوية ودلالية ومرجعية وزمنية. يتعامل المحوّل مع هذا بتشغيل حسابات انتباه متعددة بالتوازي، كل منها بمصفوفات أوزان Q وK وV متعلَّمة خاصة بها. تسمى هذه رؤوس الانتباه (Attention Heads).
قد تحتوي طبقة محوّل نموذجية على 12 إلى 128 رأس انتباه. قد يتعلم أحد الرؤوس تتبع توافق الفاعل والفعل. وقد يتتبع آخر مراجع الضمائر. وقد يتتبع آخر التشابه الدلالي. تُدمج مخرجات جميع الرؤوس وتُعالج عبر طبقة خطية لإنتاج مخرج الطبقة.
هذا التوازي ليس أنيقاً فحسب — إنه فعال حسابياً. لأن حسابات الانتباه هي ضرب مصفوفات، فإنها تتوافق تماماً مع أجهزة GPU المصممة لهذه العمليات بالضبط. لهذا السبب تتدرب المحوّلات أسرع من الشبكات التكرارية رغم معالجتها لمزيد من المعلومات لكل خطوة.
التكلفة الحسابية
للانتباه الذاتي تكلفة: يتوسع بشكل تربيعي مع طول التسلسل. كل رمز ينتبه لكل رمز آخر، لذا مضاعفة طول التسلسل تُربّع الحساب. لمدخل من 1,000 رمز، هذا مليون حساب انتباه لكل طبقة. لمدخل من 100,000 رمز، هذا 10 مليارات.
هذا التوسع التربيعي هو السبب في أن نوافذ السياق كانت صغيرة في البداية (1,024 رمزاً لـ GPT-2، و4,096 لـ GPT-3). توسيع نوافذ السياق إلى ملايين الرموز تطلب ابتكارات مثل FlashAttention (الذي يُحسّن أنماط الوصول للذاكرة)، والانتباه المتناثر (Sparse Attention) (الذي يتخطى حسابات الانتباه بين الرموز البعيدة)، وانتباه النافذة المنزلقة (الذي يقصر الانتباه على جوار محلي مع مواقع عالمية مختارة).
الترميز الموضعي: تعليم الترتيب لنظام متوازٍ
الانتباه الذاتي بطبيعته بلا ترتيب. الانتباه بين الرموز يعتمد فقط على محتواها، وليس موضعها. جملة “الكلب عضّ الرجل” و”الرجل عضّ الكلب” ستُنتجان درجات انتباه متطابقة بدون طريقة ما لترميز الموضع.
يحل الترميز الموضعي (Positional Encoding) هذا بإضافة معلومات الموضع مباشرة إلى تضمينات الرموز. استخدمت ورقة المحوّل الأصلية دوال جيبية — ترددات مختلفة لمواضع مختلفة — ليتمكن النموذج من تحديد المواضع المطلقة وحساب المسافات النسبية بين الرموز.
تستخدم المحوّلات الحديثة ترميزات موضعية متعلَّمة أو، بشكل متزايد، تضمين الموضع الدوراني (RoPE)، الذي يُرمّز المواضع النسبية عبر مصفوفات دوران مُطبَّقة على متجهات الاستعلام والمفتاح. RoPE فعال بشكل خاص لتوسيع أطوال السياق إلى ما بعد توزيع التدريب، وهذا سبب تبنيه من قبل LLaMA وMistral ونماذج مفتوحة المصدر أخرى.
إعلان
بنية المُرمّز-فك الترميز
وصفت ورقة المحوّل الأصلية بنية مُرمّز-فك ترميز (Encoder-Decoder)، مصممة لمهام تسلسل-إلى-تسلسل مثل الترجمة الآلية.
يُعالج المُرمّز (Encoder) تسلسل المدخل (مثلاً، جملة فرنسية) عبر طبقات متعددة من الانتباه الذاتي والشبكات أمامية التغذية، مُنتجاً تمثيلاً غنياً للمدخل.
يُولّد فك الترميز (Decoder) تسلسل المخرج (مثلاً، الترجمة الإنجليزية) رمزاً واحداً في كل مرة. يستخدم نوعين من الانتباه: انتباه ذاتي على المخرج المُولَّد حتى الآن، وانتباه متقاطع (Cross-Attention) على تمثيل المُرمّز للمدخل. تسمح آلية الانتباه المتقاطع لكل رمز مُولَّد بـ “العودة” للنظر في المدخل بالكامل.
تفصيل حاسم: يستخدم فك الترميز انتباهاً ذاتياً مُقنَّعاً (Masked Self-Attention)، الذي يمنع كل موضع من الانتباه للمواضع المستقبلية. عند توليد الكلمة الرابعة من الترجمة، يمكن لفك الترميز الانتباه فقط للكلمات الثلاث الأولى — وليس الخامسة أو السادسة. هذا يضمن أن التوليد تراجعي تلقائي (كل رمز يعتمد فقط على الرموز السابقة) مع الاستفادة من الحساب المتوازي للانتباه.
المتغيرات: المُرمّز فقط وفك الترميز فقط
أنتجت بنية المُرمّز-فك الترميز الأصلية متغيرين مؤثرين.
نماذج المُرمّز فقط (BERT وRoBERTa) تستخدم فقط كومة المُرمّز. لأنه لا يوجد انتباه مُقنَّع، يمكن لكل رمز الانتباه لكل رمز آخر في كلا الاتجاهين. هذا الانتباه ثنائي الاتجاه يجعل نماذج المُرمّز فقط ممتازة في مهام الفهم — التصنيف والتعرف على الكيانات المسماة وتحليل المشاعر — لكنها غير قادرة على توليد النص.
نماذج فك الترميز فقط (سلسلة GPT وClaude وLLaMA) تستخدم فقط كومة فك الترميز مع انتباه ذاتي مُقنَّع. هذه هي النماذج التي تُشغّل الذكاء الاصطناعي التوليدي — تُولّد النص رمزاً واحداً في كل مرة، كل رمز ينتبه فقط للرموز السابقة. رغم امتلاكها “نصف” البنية الأصلية فقط، أثبتت نماذج فك الترميز فقط مرونة ملحوظة، مُعالجةً مهام الفهم عبر التعلم في السياق بدلاً من الميزات المعمارية.
هيمنة نماذج فك الترميز فقط في 2024-2026 هي أحد أكثر التطورات مفاجأةً في الذكاء الاصطناعي. بنية أبسط، مُوسَّعة بشكل هائل، تفوقت على تصميم المُرمّز-فك الترميز الأكثر تعقيداً الذي كان نظرياً أنسب لكثير من المهام.
الشبكات أمامية التغذية وتطبيع الطبقات
الانتباه هو نجم المحوّل، لكن مكوّنين مساندين ضروريان.
الشبكات أمامية التغذية (FFNs) تتبع كل طبقة انتباه. هذه شبكات عصبية بسيطة من طبقتين تُطبَّق بشكل مستقل على كل موضع رمز. بينما يلتقط الانتباه العلاقات بين الرموز، تُحوّل الشبكات أمامية التغذية تمثيلات الرموز الفردية — مضيفةً اللاخطية والقدرة على تخزين المعرفة الواقعية. تشير الأبحاث إلى أن الشبكات أمامية التغذية تعمل كذواكر مفتاح-قيمة، تخزّن الارتباطات المُتعلَّمة أثناء التدريب.
تطبيع الطبقات (Layer Normalization) يُثبّت التدريب بتطبيع مدخلات كل طبقة فرعية. بدونه، سيكون تدريب محوّلات عميقة (أكثر من 80 طبقة) غير مستقر عددياً، مع قيم تدرجات إما تنفجر إلى ما لا نهاية أو تتلاشى إلى الصفر. موضع تطبيع الطبقات (قبل أو بعد كل طبقة فرعية) هو خيار تصميمي يؤثر على ديناميكيات التدريب — الممارسة الحديثة تُفضّل التطبيع المسبق (التطبيع قبل كل طبقة فرعية)، الذي يُحسّن استقرار التدريب للنماذج العميقة جداً.
قوانين التوسع: لماذا يعمل الأكبر
قد تكون أهم خاصية للمحوّل هي قابليته للتوسع. على عكس البنى السابقة التي وصلت إلى هضبة أو أصبحت غير مستقرة عند الأحجام الكبيرة، تُظهر المحوّلات تحسناً سلساً ومتوقعاً مع زيادة حجم النموذج وحجم مجموعة البيانات والحوسبة.
أظهرت “قوانين التوسع” التي وثّقتها OpenAI (Kaplan وآخرون، 2020) وDeepMind (Hoffmann وآخرون، 2022) أن أداء النموذج يتبع علاقات قانون القوة مع عدد المعاملات وبيانات التدريب. ضاعف المعاملات، تحصل على تحسن متوقع. ضاعف بيانات التدريب، تحصل على تحسن متوقع.
هذه القابلية للتنبؤ حوّلت أبحاث الذكاء الاصطناعي من فنّ إلى شيء أقرب للهندسة. يمكن للمختبرات تقدير مسبقاً كمية الحوسبة والبيانات التي يحتاجها النموذج للوصول إلى مستوى قدرة مستهدف. تطور نماذج الذكاء الاصطناعي من GPT-2 إلى GPT-4 لم يكن سلسلة اختراقات محظوظة بل مسيرة منهجية على طول منحنيات التوسع هذه.
ما وراء اللغة: المحوّلات في كل مكان
هربت المحوّلات من مجال معالجة اللغة الطبيعية. تتعامل محوّلات الرؤية (ViT) مع الصور كتسلسلات من الرقع وتُعالجها بنفس آلية الانتباه المُستخدمة للنص. يُطبّق محوّل القرار (Decision Transformer) البنية على التعلم المعزز. استخدم AlphaFold 2 الانتباه للتنبؤ ببنى البروتينات، وهو أحد أهم الاختراقات العلمية في العقد.
عمومية البنية هي قوتها الخارقة. أي مشكلة يمكن تحويلها إلى تسلسل — وتقريباً أي مشكلة يمكن ذلك — قابلة لمعالجة المحوّل. هذه العمومية، مع ابتكارات الكفاءة مثل مزيج الخبراء، تشير إلى أن المحوّلات ستبقى البنية المهيمنة لسنوات قادمة.
ما إذا كانت بنية جديدة جذرياً ستحل محل المحوّل في النهاية، كما حل المحوّل محل الشبكات التكرارية، سؤال مفتوح. نماذج فضاء الحالة (State-Space Models) مثل Mamba تقدم توسعاً خطياً مع طول التسلسل، معالجةً عنق الزجاجة التربيعي للمحوّل. لكن حتى الآن، لم يُضاهِ أي بديل مزيج المحوّل من الأداء وقابلية التوسع والعمومية.
الأسئلة الشائعة
ما المقصود بـ Transformers Explained؟
يتناول هذا المقال الجوانب الأساسية لهذا الموضوع، ويستعرض الاتجاهات الحالية والجهات الفاعلة الرئيسية والتداعيات العملية على المهنيين والمؤسسات في عام 2026.
لماذا يُعد هذا الموضوع مهمًا؟
يكتسب هذا الموضوع أهمية كبيرة لأنه يؤثر بشكل مباشر على كيفية تخطيط المؤسسات لاستراتيجيتها التقنية وتخصيص مواردها وتموضعها في مشهد سريع التطور.
ما أبرز النقاط المستخلصة من هذا المقال؟
يحلل المقال الآليات الرئيسية والأطر المرجعية والأمثلة الواقعية التي تشرح كيفية عمل هذا المجال، مستندًا إلى بيانات حديثة ودراسات حالة عملية.
المصادر والقراءات الإضافية
- Attention Is All You Need — Vaswani et al., NeurIPS (2017)
- The Illustrated Transformer — Jay Alammar
- Scaling Laws for Neural Language Models — Kaplan et al., OpenAI (2020)
- An Image Is Worth 16×16 Words: Transformers for Image Recognition (ViT) — Dosovitskiy et al., Google (2020)
- FlashAttention: Fast and Memory-Efficient Exact Attention — Dao et al., Stanford (2022)

















