وقت القراءة: ~9 دقائق
Date: 2026-03-09
SEO Title: كيف يعمل الذكاء الاصطناعي التوليدي: من الرموز إلى الإبداع
SEO Description: كيف يُنشئ الذكاء الاصطناعي التوليدي النصوص والصور والشفرات والفيديو. الترميز والانتباه واستراتيجيات أخذ العينات والتوليد متعدد الوسائط مشروحة بوضوح.
Focus Keyphrase: كيف يعمل الذكاء الاصطناعي التوليدي
خلاصة : يُنشئ الذكاء الاصطناعي التوليدي محتوى جديداً — نصوص وصور وشفرات برمجية وفيديو وموسيقى — من خلال تعلم الأنماط من مجموعات بيانات تدريب ضخمة واستخدام تلك الأنماط لإنتاج مخرجات جديدة. تتضمن العملية تقسيم المدخلات إلى رموز (Tokens)، وتطبيق آليات الانتباه لفهم السياق، واستخدام أخذ العينات الاحتمالي لتوليد المخرجات قطعة واحدة في كل مرة. تستخدم الوسائط المختلفة (نص، صورة، فيديو) بنى مختلفة، لكنها جميعاً تشترك في نفس المبدأ الأساسي: تعلم البنية الإحصائية للبيانات جيداً بما يكفي لإنتاج أمثلة جديدة تتوافق مع النمط.
التكنولوجيا الأكثر سوء فهم في العقد
اسأل شخصاً كيف يعمل الذكاء الاصطناعي التوليدي وستحصل على إحدى إجابتين: “إنه مجرد إحصاءات” أو “لا أحد يعرف فعلاً.” كلتاهما خاطئة، والحقيقة أكثر إثارة بكثير.
الذكاء الاصطناعي التوليدي لا ينسخ. لا يسترجع إجابات مخزنة من قاعدة بيانات. لا يبحث في الإنترنت ويعيد صياغة ما يجده. بدلاً من ذلك، تعلّم الأنماط الإحصائية العميقة التي تربط الأفكار والكلمات والبيكسلات والأصوات — أنماط معقدة لدرجة أن المخرجات تبدو إبداعية وثاقبة وأحياناً بشرية بشكل مخيف.
فهم كيف يعمل هذا — الآليات الفعلية تحت السحر — ليس مجرد فضول أكاديمي. إنه يحدد ما إذا كنت تستخدم هذه الأدوات بفعالية أو تهدرها في مهام غير مناسبة لها أساساً. يفسر لماذا يستطيع الذكاء الاصطناعي كتابة مذكرة قانونية مقنعة لكنه قد يهلوس في الاستشهادات. يفسر لماذا يستطيع مُولّد صور إنشاء صور واقعية لأشخاص غير موجودين لكنه لا يستطيع رسم أيدٍ بخمسة أصابع بشكل موثوق.
الخطوة الأولى: الترميز — تقسيم اللغة إلى قطع
يبدأ كل نظام ذكاء اصطناعي توليدي بتحويل المدخلات إلى صيغة يمكن للنموذج معالجتها. بالنسبة للنماذج اللغوية الكبيرة، تلك الصيغة هي الرموز (Tokens).
الرموز ليست كلمات — إنها أجزاء كلمات. تقسم أدوات الترميز الحديثة (مثل ترميز أزواج البايت، أو BPE) النص إلى وحدات فرعية شائعة. قد تصبح كلمة “understanding” رمزين: “understand” و”ing.” كلمة “AI” هي رمز واحد. كلمة غير شائعة مثل “tokenization” قد تنقسم إلى “token” و”iz” و”ation.”
لماذا أجزاء بدلاً من كلمات كاملة؟ الكفاءة والتغطية. يمكن لمُرمّز بمفردات من 50,000 إلى 100,000 رمز تمثيل أي نص ممكن، بما في ذلك الكلمات التي لم يرها من قبل، عن طريق دمج أجزاء معروفة. هكذا تتعامل النماذج اللغوية الكبيرة مع الأخطاء الإملائية والكلمات المستحدثة والشفرات البرمجية والنصوص بمئات اللغات دون الحاجة لمفردات منفصلة لكل لغة.
خطوة الترميز غير مرئية للمستخدمين لكن لها تداعيات عملية. تُسعَّر النماذج حسب عدد الرموز. تُقاس نوافذ السياق بالرموز. ولأن اللغات المختلفة تُرمَّز بشكل مختلف — الإنجليزية أكثر كفاءة من حيث الرموز من العربية أو الصينية — تتغير نافذة السياق الفعلية حسب اللغة.
الخطوة الثانية: الانتباه — فهم السياق
بمجرد ترميز المدخلات، يحتاج النموذج لفهم كيف ترتبط الرموز ببعضها البعض. هذه مهمة آلية الانتباه، الابتكار الجوهري في بنية المحوّل (Transformer).
يعمل الانتباه الذاتي بجعل كل رمز “ينظر إلى” كل رمز آخر في المدخل ويحسب درجة ملاءمة. عند معالجة جملة “المبرمج أصلح الخلل في الشفرة الذي كان يسبب الأعطال منذ أسابيع”، تربط آلية الانتباه “الأعطال” بـ “الخلل” و”الشفرة” و”المبرمج” — رغم بعدها في الجملة.
يحدث هذا بالتوازي عبر “رؤوس انتباه” متعددة، كل منها يتعلم التركيز على أنواع مختلفة من العلاقات. قد يتتبع أحد الرؤوس التبعيات النحوية (توافق الفاعل والفعل). وقد يتتبع آخر العلاقات الدلالية (ما المفاهيم المرتبطة). وقد يتتبع آخر الأنماط الموضعية (ما يتبع ماذا عادةً).
تُكدَّس آلية الانتباه متعددة الرؤوس في طبقات — النماذج اللغوية الكبيرة الحديثة تحتوي على 80 إلى 120 طبقة. كل طبقة تُحسّن فهم النموذج للمدخل، مبنيةً تمثيلات متزايدة التجريد. الطبقات المبكرة تلتقط التركيب اللغوي وعلاقات الكلمات. الطبقات الوسطى تلتقط المعنى والارتباطات الواقعية. الطبقات العميقة تلتقط أنماط التفكير والاستدلالات المعقدة.
الخطوة الثالثة: التوليد — رمز واحد في كل مرة
هنا الفكرة الجوهرية التي تُفاجئ معظم الناس: الذكاء الاصطناعي التوليدي يُنشئ النص رمزاً واحداً في كل مرة، متنبئاً في كل مرة بالرمز التالي الأنسب بناءً على كل ما سبق.
عندما تسأل نموذجاً لغوياً كبيراً أن يشرح الحوسبة الكمية، لا يؤلف الإجابة بأكملها مسبقاً. يتنبأ بالرمز الأول (ربما “الحوسبة”)، ثم يستخدم ذلك الرمز مع الموجّه الأصلي للتنبؤ بالرمز الثاني (“الكمية”)، ثم يستخدم كل ما سبق للتنبؤ بالثالث، وهكذا. كل رمز يُولَّد بتشغيل النموذج بأكمله للأمام عبر جميع طبقاته.
هذه العملية التراجعية التلقائية (Auto-regressive) — التنبؤ دائماً بالعنصر التالي بناءً على العناصر السابقة — هي ما يجعل توليد النماذج اللغوية الكبيرة يبدو سلساً ومتماسكاً. وهي أيضاً ما يخلق قابلية الهلوسة: بمجرد أن يلتزم النموذج بادعاء خاطئ في الرمز 50، سيُولّد الرموز من 51 إلى 100 بشكل متسق مع ذلك الادعاء الخاطئ، مبنياً اختلاقاً متزايد الثقة.
درجة الحرارة وأخذ العينات
لا يتنبأ النموذج برمز “صحيح” واحد. إنه يحسب توزيع احتمالات عبر مفرداته بالكامل — ربما يُعطي 30% احتمالاً لـ “الحوسبة”، و15% لـ “الميكانيكا”، و10% لـ “الفيزياء”، وكسوراً من المئة لآلاف الرموز الأخرى.
معامل درجة الحرارة (Temperature) يتحكم في كيفية أخذ النموذج للعينات من هذا التوزيع. عند درجة حرارة 0 (فك الترميز الجشع)، يختار النموذج دائماً الرمز الأعلى احتمالاً — مُنتجاً مخرجات متسقة ومتوقعة لكن قد تكون متكررة. عند درجة حرارة 1.0، يأخذ النموذج عينات بشكل متناسب مع الاحتمالات — مُدخلاً التنوع والإبداع لكن مزيداً من خطر المخرجات غير المتماسكة أو غير ذات الصلة. تستخدم معظم أنظمة الإنتاج درجات حرارة بين 0.3 و0.8.
تضيف استراتيجيات أخذ عينات أخرى تحكماً إضافياً. أخذ العينات Top-k يقصر الخيارات على الرموز الأكثر احتمالاً بعدد k. أخذ العينات Top-p (النواة) يقصر الخيارات على أصغر مجموعة من الرموز التي يتجاوز احتمالها التراكمي عتبة p. تمنع هذه التقنيات النموذج من اختيار رموز غير محتملة بشكل كبير مع الحفاظ على التنوع.
فهم درجة الحرارة يفسر تجربة مستخدم شائعة: طرح نفس السؤال مرتين والحصول على إجابات مختلفة. النموذج ليس غير متسق — إنه يأخذ عينات من توزيع احتمالات، وعينات مختلفة تُنتج مسارات مختلفة عبر فضاء التوليد.
إعلان
ما وراء النص: كيف يعمل توليد الصور
توليد النص تراجعي تلقائي — رمز بعد آخر. توليد الصور يتبع نهجاً مختلفاً جذرياً.
نماذج الانتشار (Diffusion Models) (المُستخدمة في DALL-E 3 وMidjourney وStable Diffusion) تعمل بتعلم عكس التشويش. أثناء التدريب، يُعرَض على النموذج صور نظيفة تُفسَد تدريجياً بتشويش عشوائي حتى تصبح ضوضاء بيضاء محضة. يتعلم النموذج عكس هذه العملية — أخذ صورة مُشوَّشة والتنبؤ بما تبدو عليه النسخة الأقل تشويشاً.
في وقت التوليد، يبدأ النموذج بتشويش عشوائي محض ويُزيل التشويش بشكل تكراري، موجَّهاً بالموجّه النصي. كل خطوة إزالة تشويش تُقرّب الصورة من شيء يتطابق مع الوصف. بعد 20-50 خطوة، تبرز صورة متماسكة من التشويش.
تفسر هذه العملية عدة خصائص لتوليد الصور. الطبيعة التكرارية تعني إمكانية التحكم في المقايضة بين الجودة والسرعة (مزيد من الخطوات = جودة أعلى). الأساس القائم على التشويش يعني أن المخرجات عشوائية بطبيعتها — نفس الموجّه ينتج دائماً صوراً مختلفة. والتدريب على صور كاملة (بدلاً من بيكسلات متتالية) يعني أن النموذج يفكر في التكوين العام، وليس فقط التفاصيل المحلية.
شبكات الخصومة التوليدية (GANs)، البنية المهيمنة السابقة، استخدمت نهجاً مختلفاً: شبكتان عصبيتان متنافستان، واحدة تُولّد الصور وأخرى تحاول التمييز بين الحقيقي والمُولَّد. أنتجت GANs صوراً واقعية بشكل ملحوظ لكنها كانت صعبة التدريب بشكل سيء السمعة ومعرضة لـ “انهيار النمط” (توليد أنواع قليلة فقط من الصور). حلت نماذج الانتشار محل GANs إلى حد كبير بحلول عام 2023 بسبب استقرارها وقابليتها للتحكم.
الفيديو والصوت والتوليد متعدد الوسائط
تمتد نفس المبادئ إلى وسائط أخرى مع تكييفات معمارية.
توليد الفيديو (Sora وVeo وRunway) يوسع نماذج الانتشار إلى البُعد الزمني. يُزيل النموذج التشويش في المكان والزمان معاً، مضمناً أن كل إطار متسق مع الإطارات قبله وبعده. التحدي التقني هائل — فيديو مدته 10 ثوانٍ بمعدل 24 إطاراً في الثانية يحتوي على 240 صورة يجب أن تكون متماسكة ومتسقة زمنياً ومعقولة فيزيائياً.
توليد الصوت يستخدم عادةً بنى محوّلات مشابهة لنماذج النص، لكنه يعمل على رموز صوتية — تمثيلات منفصلة للصوت تعلّمتها مُرمّزات صوتية مثل EnCodec. يتنبأ النموذج بالرمز الصوتي التالي بناءً على السابقين، مُنتجاً كلاماً أو موسيقى أو مؤثرات صوتية.
النماذج متعددة الوسائط مثل GPT-4V وGemini وClaude يمكنها المعالجة والتوليد عبر وسائط متعددة — فهم الصور أثناء توليد النص، أو أخذ تعليمات نصية لإنتاج شفرات برمجية. تستخدم هذه النماذج بنى الرؤية-اللغة التي تُوائم التمثيلات البصرية والنصية في فضاء تضمين مشترك.
الاتجاه هو التقارب. أنظمة الذكاء الاصطناعي التوليدي المبكرة كانت متخصصة — نموذج للنص، نموذج للصور، نموذج للشفرات. الأنظمة الحديثة موحدة بشكل متزايد، تُعالج أي مزيج من النص والصورة والصوت والفيديو ضمن بنية واحدة. هذا يعكس تطور نماذج الذكاء الاصطناعي من متخصصين ضيقين إلى أنظمة عامة الغرض.
توليد الشفرات البرمجية: حالة خاصة
يستحق توليد الشفرات البرمجية اهتماماً منفصلاً لأنه يكشف شيئاً مهماً عن كيفية عمل الذكاء الاصطناعي التوليدي.
الشفرات البرمجية أكثر تقييداً من اللغة الطبيعية — يجب أن تكون صحيحة نحوياً ومتسقة منطقياً وقابلة للتنفيذ. حقيقة أن النماذج اللغوية الكبيرة تستطيع توليد شفرات عاملة تُشير إلى أنها تتعلم أكثر من الأنماط السطحية؛ إنها تلتقط بعض التمثيل للمنطق وهياكل البيانات والتفكير الخوارزمي.
لكن توليد الشفرات يكشف أيضاً القيود بوضوح. قد يُولّد النموذج دالة تبدو صحيحة وتجتاز المراجعة السطحية، لكنها تحتوي على خطأ منطقي دقيق لا يظهر إلا في الحالات الحدّية. هذه هي طبيعة مطابقة الأنماط الإحصائية للنماذج اللغوية الكبيرة — الشفرة تطابق نمط الشفرة الصحيحة دون أن تُتحقق من خلال التنفيذ.
لهذا السبب تمثل وكلاء الذكاء الاصطناعي الذين يمكنهم فعلاً تشغيل واختبار الشفرات تقدماً كبيراً. إنها تغلق الحلقة بين التوليد والتحقق، مستخدمةً نتائج التنفيذ لتحسين مخرجاتها — قدرة تفتقر إليها نماذج اللغة المحضة.
سؤال الذكاء الناشئ
ربما الجانب الأكثر إثارة في كيفية عمل الذكاء الاصطناعي التوليدي هو ما يحدث عند التوسع. قدرات غير موجودة في النماذج الأصغر تظهر تلقائياً عندما تصل النماذج إلى عتبات حجم معينة. نموذج بنحو 10 مليارات معامل لا يستطيع إجراء حسابات. نموذج بنحو 100 مليار معامل يستطيع. نموذج بنحو 10 مليارات معامل لا يستطيع التفكير بالتشبيهات. نموذج بنحو 500 مليار معامل يستطيع.
هذه “القدرات الناشئة” لم تُبرمَج صراحةً. إنها تنشأ من أن الأنماط الإحصائية في بيانات التدريب تصبح غنية بما يكفي، عند حجم كافٍ، لدعم سلوك معقد. ما إذا كان هذا يشكل فهماً حقيقياً أم مجرد مطابقة أنماط معقدة جداً هو أحد أكثر الأسئلة المتنازع عليها في أبحاث الذكاء الاصطناعي.
ما لا خلاف عليه هو الأثر العملي. الذكاء الاصطناعي التوليدي يعمل بشكل جيد بما يكفي لتحويل كيفية كتابة البرمجيات وإجراء البحوث وإنشاء المحتوى واتخاذ القرارات. فهم الآلية — الرموز والانتباه وأخذ العينات والانتشار — يساعد المستخدمين على العمل مع التكنولوجيا بدلاً من العمل ضدها.
الأسئلة الشائعة
ما المقصود بـ How Generative AI Works؟
يتناول هذا المقال الجوانب الأساسية لهذا الموضوع، ويستعرض الاتجاهات الحالية والجهات الفاعلة الرئيسية والتداعيات العملية على المهنيين والمؤسسات في عام 2026.
لماذا يُعد هذا الموضوع مهمًا؟
يكتسب هذا الموضوع أهمية كبيرة لأنه يؤثر بشكل مباشر على كيفية تخطيط المؤسسات لاستراتيجيتها التقنية وتخصيص مواردها وتموضعها في مشهد سريع التطور.
ما أبرز النقاط المستخلصة من هذا المقال؟
يحلل المقال الآليات الرئيسية والأطر المرجعية والأمثلة الواقعية التي تشرح كيفية عمل هذا المجال، مستندًا إلى بيانات حديثة ودراسات حالة عملية.
















