المقدمة
تعاني نماذج اللغة الكبيرة من قيد جوهري: فهي مجمدة في الزمن. تعرف كل شيء حتى تاريخ انتهاء تدريبها ولا تعرف شيئاً عما حدث قبل خمس دقائق. لا تعرف شيئاً عن بياناتك الخاصة أو وثائقك الداخلية أو قاعدة الكود الخاصة بك.
يخلق هذا تحدياً هندسياً جوهرياً — حقن السياق. كيف توصل البيانات الصحيحة إلى النموذج في الوقت المناسب؟
ظهر نهجان مختلفان جذرياً. RAG (التوليد المعزز بالاسترجاع – Retrieval Augmented Generation) هو خط أنابيب هندسي مكثف يسترجع أجزاء ذات صلة من مخازن بيانات خارجية ويحقنها في التعليمة. أما السياق الطويل فهو نهج القوة الغاشمة الذي يضع مستندات كاملة مباشرة في نافذة سياق النموذج ويتركه يستنتج من كل شيء دفعة واحدة.
أصبح النقاش بين هذين الأسلوبين أحد أهم القرارات المعمارية في الذكاء الاصطناعي المؤسسي. وجدت دراسة صادرة في يناير 2025 تقيّم النهجين عبر معايير قياسية متعددة أن السياق الطويل تفوق عموماً على RAG في الأسئلة والأجوبة المبنية على Wikipedia، بينما حافظ RAG على مزايا في الاستعلامات الحوارية والعامة. وقد اختبر معيار قياسي لاحق قُدّم في ICML 2025 يسمى LaRA عدد 2,326 حالة في أربع فئات مهام وخلص إلى عدم وجود فائز شامل — فالخيار الأمثل يعتمد على حجم النموذج ونوع المهمة وخصائص الاسترجاع.
الجواب ليس أحدهما أو الآخر. بل فهم أي نهج يناسب أي مشكلة.
كيف يعمل RAG: النهج الهندسي
RAG هو خط أنابيب. يأخذ المستندات — ملفات PDF وملفات الكود وصفحات الويكي وكتب كاملة — ويعالجها عبر سلسلة من الخطوات قبل أن تصل إلى النموذج اللغوي الكبير.
خط أنابيب RAG
- التقسيم — تُقسم المستندات إلى أجزاء أصغر. لاستراتيجية التقسيم أهمية بالغة: التقسيم بحجم ثابت أو النوافذ المنزلقة أو التقسيم التكراري أو التقسيم الدلالي — كل منها ينتج جودة استرجاع مختلفة. تفضل أفضل الممارسات الحالية التقسيم الدلالي مع عناوين سياقية على التقسيم الساذج بحجم ثابت.
- التضمين (Embedding) — يمر كل جزء عبر نموذج تضمين يحوّل النص إلى متجه عالي الأبعاد — تمثيل رقمي للمعنى. تنتج نماذج مثل BGE-M3 متجهات بـ 1024 بُعداً تلتقط العلاقات الدلالية عبر أكثر من 100 لغة.
- التخزين المتجهي — تُخزن هذه المتجهات في قاعدة بيانات متجهية. نضج النظام البيئي بسرعة: يقدم Pinecone خدمة مُدارة بدون خوادم مع زمن استجابة أقل من 50 ميلي ثانية لعمليات النشر على نطاق المليار، ويوفر Weaviate قدرات بحث هجين قوية مع أكثر من مليون تنزيل عبر Docker شهرياً، ويخدم ChromaDB كمرجع للنماذج الأولية السريعة، ويناسب pgvector الفرق التي تستخدم PostgreSQL بالفعل.
- الاسترجاع — عندما يطرح المستخدم سؤالاً، تُحوّل استعلاماته أيضاً إلى متجه، ويجري النظام بحث تشابه دلالي للعثور على الأجزاء الأكثر صلة.
- إعادة الترتيب — يقوم نموذج إعادة ترتيب بمشفّر متقاطع (Cross-encoder) بفرز الأجزاء المسترجعة حسب الصلة. تُظهر الأبحاث أن إعادة الترتيب بالمشفّر المتقاطع يمكن أن تحسّن الدقة بنسبة 20 إلى 40% للاستعلامات الدقيقة حيث يكون السياق حاسماً.
- التوليد — تُحقن الأجزاء المسترجعة في تعليمة النموذج اللغوي الكبير إلى جانب سؤال المستخدم، ويولّد النموذج استجابة مؤسسة على البيانات المسترجعة.
هذه بنية ناضجة ومفهومة جيداً. بلغ سوق RAG ما يقارب 2 مليار دولار في 2025 ومن المتوقع أن ينمو إلى 9.86 مليار دولار بحلول 2030، وفقاً لـ MarketsandMarkets. لكنها بنية ثقيلة أيضاً. كل مكون يُدخل قرارات وتأخيراً ونقاط فشل محتملة وعبء صيانة.
تطورات في جودة RAG
تحسنت جودة استرجاع RAG بشكل ملحوظ. في سبتمبر 2024، قدمت Anthropic تقنية Contextual Retrieval، وهي تقنية تضيف سياقاً توضيحياً خاصاً بكل جزء قبل التضمين. كانت النتائج جوهرية: خفضت Contextual Embeddings وحدها معدل فشل الاسترجاع في أفضل 20 جزء بنسبة 35%. وأدى الجمع بين Contextual Embeddings وContextual BM25 إلى خفض الإخفاقات بنسبة 49%. وأضافت خطوة إعادة الترتيب تحسيناً وصل إلى 67%، مخفضة معدل الفشل من 5.7% إلى 1.9% فقط.
هذه التحسينات مهمة لأن الانتقاد الرئيسي لـ RAG — أن الاسترجاع غير دقيق — أصبح أقل صحة مع نضوج الهندسة.
كيف يعمل السياق الطويل: نهج القوة الغاشمة
يتبنى السياق الطويل النهج المعاكس. بدلاً من هندسة خط أنابيب للاسترجاع، تضع كل شيء في نافذة السياق وتدع النموذج يتعامل معه.
توسعت نوافذ السياق بشكل كبير. بلغ Gemini 1.5 Pro من Google التوفر العام في ديسمبر 2025 مع نافذة سياق تبلغ 2 مليون رمز — ما يعادل تقريباً عدة روايات كاملة أو آلاف الصفحات من الوثائق. وأظهر معدل استرجاع بنسبة 99.7% حتى عند علامة المليون رمز. وتوسع GPT-4.1 من OpenAI، الذي أُطلق في أبريل 2025، إلى مليون رمز، مقارنة بـ 128,000 لسلفه GPT-4o. ويقدم Claude من Anthropic عدد 200,000 رمز كمعيار قياسي، مع نسخة تجريبية بمليون رمز للمؤسسات ذات المستوى الأعلى.
يكمن الجاذبية في البساطة الجذرية: لا استراتيجية تقسيم، ولا نموذج تضمين، ولا قاعدة بيانات متجهية، ولا مُعيد ترتيب، ولا مزامنة بين البيانات المصدرية والفهرس. فقط بيانات تدخل وإجابة تخرج.
ثلاثة أسباب تجعل السياق الطويل يتفوق
1. تبسيط البنية التحتية
يتطلب نظام RAG في الإنتاج استراتيجية تقسيم ونموذج تضمين وقاعدة بيانات متجهية ومُعيد ترتيب ومنطق مزامنة لإبقاء المتجهات محدّثة مع البيانات المصدرية. هذا كثير من المكونات المتحركة وكثير من الأماكن التي يمكن أن تتعطل فيها الأمور.
يلغي السياق الطويل حزمة الاسترجاع بالكامل. ما يتبقى هو نموذج وتعليمة. بالنسبة للفرق التي تحتاج للتحرك بسرعة أو تفتقر إلى الموارد الهندسية لصيانة خط أنابيب RAG، هذا التبسيط تحويلي.
أشارت Anthropic صراحة إلى أنه بالنسبة لقواعد المعرفة التي تقل عن 200,000 رمز تقريباً — أي نحو 500 صفحة من المحتوى — فإن التعليمات بالسياق الكامل مع التخزين المؤقت يمكن أن تكون أسرع وأرخص من بناء بنية تحتية للاسترجاع. هذا ليس ادعاء هامشياً. كثير من حالات الاستخدام المؤسسية تتضمن مجموعات مستندات أقل بكثير من هذا الحد.
2. الحفاظ على المعنى عبر المستندات
التقسيم يدمر السياق بطبيعته. عندما تقسم مستنداً إلى أجزاء من 500 رمز، تفقد العلاقات بين الأقسام. فقرة تشير إلى تعريف من ثلاث صفحات سابقة تصبح منفصلة. وخاتمة تعتمد على حجج بُنيت عبر فصل كامل تُقطع عن تلك الحجج.
يحافظ السياق الطويل على بنية المستند الكاملة. يمكن للنموذج الاستنتاج عبر النص بأكمله — ربط المقدمة بالخاتمة وفهم كيف تُبنى الحجج واستيعاب القوس السردي الكامل. بالنسبة للمهام التي تتطلب فهماً شاملاً — التلخيص وتحليل المستندات القانونية ومقارنة العقود — هذا مهم للغاية.
3. الاستنتاج عبر المستندات
تتطلب بعض المهام مقارنة عدة مستندات كاملة. مقارنة نسخة قديمة من عقد بنسخة جديدة. تحليل مستند متطلبات المنتج مقابل ملاحظات الإصدار. تقييم ورقتي بحث متنافستين جنباً إلى جنب.
يواجه RAG صعوبة في الاستنتاج عبر المستندات لأن الاسترجاع مُحسّن لإيجاد أجزاء ذات صلة، وليس للحفاظ على البنية اللازمة لمقارنة مستندات كاملة. يتعامل السياق الطويل مع هذا بشكل طبيعي بتحميل المستندين بالكامل وترك النموذج يجري المقارنة من البداية إلى النهاية.
إعلان
ثلاثة أسباب تجعل RAG لا يزال يتفوق
1. مشكلة إعادة القراءة
يخلق السياق الطويل عدم كفاءة حسابية لا تتوسع بشكل جيد. تأمل دليلاً تقنياً من 500 صفحة — نحو 250,000 رمز. في كل مرة يطرح مستخدم سؤالاً، يعالج النموذج ذلك الدليل بأكمله. عشرة أسئلة تعني معالجته عشر مرات. مئة مستخدم يطرحون أسئلة على مدار اليوم تعني معالجته مئات المرات.
يدفع RAG تكلفة المعالجة مرة واحدة، عند الفهرسة. بعد التضمين الأولي، تسترجع الاستعلامات الأجزاء ذات الصلة فقط — بضعة آلاف من الرموز — ولا يعالج النموذج إلا تلك. التكلفة لكل استعلام أقل بشكل كبير.
يخفف التخزين المؤقت للتعليمات هذه المشكلة جزئياً. يمكن للتخزين المؤقت من Anthropic تقليل التكاليف بنسبة تصل إلى 90% والتأخير بنسبة تصل إلى 85% عند إعادة استخدام نفس السياق عبر الاستعلامات. تقدم OpenAI خفضاً بنسبة 50% عبر التخزين المؤقت التلقائي للتعليمات التي تزيد عن 1,024 رمزاً. وتوفر Google خصومات بنسبة 75 إلى 90% عبر التخزين المؤقت للسياق. لكن حتى مع التخزين المؤقت، تظل معالجة مئات الآلاف من الرموز لكل استعلام أكثر تكلفة من استرجاع حفنة من الأجزاء المستهدفة.
بالنسبة للتطبيقات ذات حجم الاستعلامات العالي على مجموعات مستندات مستقرة، تظل ميزة كفاءة RAG حاسمة.
2. تخفيف الانتباه ومشكلة «الضائع في الوسط»
نمت نوافذ السياق بشكل هائل، لكن قدرة النموذج على الانتباه بالتساوي لجميع أجزاء السياق لم تواكب هذا النمو. أثبتت الورقة البحثية المرجعية «Lost in the Middle» لـ Liu وآخرين، المنشورة في Transactions of the Association for Computational Linguistics عام 2024، أن نماذج اللغة تؤدي بشكل أفضل عندما تظهر المعلومات ذات الصلة في بداية أو نهاية سياق الإدخال. ويتدهور الأداء بشكل ملحوظ عندما يتعين على النموذج تحديد واستخدام معلومات مدفونة في وسط سياقات طويلة — حتى بالنسبة للنماذج المصممة صراحة لمعالجة السياقات الطويلة.
اقترحت ورقة لاحقة في NeurIPS 2024 بعنوان «Found in the Middle» تقنية Multi-scale Positional Encoding (Ms-PoE) كنهج جاهز للاستخدام لمعالجة هذا القيد. البحث يتقدم، لكن التحدي الأساسي يبقى: عندما يصل السياق إلى مئات الآلاف من الرموز، فإن دقة الاسترجاع لحقائق محددة ليست موحدة عبر المواضع.
يتجاوز RAG هذه المشكلة بالكامل. من خلال استرجاع الأجزاء الأكثر صلة فقط، يزيل RAG الضوضاء ويقدم للنموذج سياقاً مركّزاً وعالي الإشارة. ينتبه النموذج لبضعة آلاف من الرموز ذات الصلة المباشرة بدلاً من البحث في مئات الآلاف من الرموز عن إبرة في كومة قش.
3. مشكلة مجموعة البيانات اللانهائية
تبدو نافذة سياق من 2 مليون رمز مثيرة للإعجاب، لكن بيانات المؤسسات تعمل على نطاق مختلف تماماً. تُقاس بحيرات بيانات المؤسسات بالتيرابايت أو البيتابايت. تمتد الويكي الداخلية على آلاف الصفحات. تحتوي قواعد الكود على ملايين الملفات عبر عقود من التاريخ. تحتفظ أنظمة دعم العملاء بملايين التذاكر والمحادثات.
لا يمكن لأي نافذة سياق — مهما كانت كبيرة — أن تحتوي قاعدة معرفة مؤسسة بأكملها. عندما تتجاوز مجموعة البيانات ما يتسع له النافذة، تصبح طبقة الاسترجاع النهج الوحيد القابل للتطبيق. تظل قواعد البيانات المتجهية بنية تحتية أساسية للبيانات بهذا الحجم، والسوق يعكس ذلك: أكثر من 73% من تطبيقات RAG موجودة الآن في مؤسسات كبيرة تدير بالضبط هذا النوع من قواعد المعرفة الضخمة.
إطار اتخاذ القرار
الاختيار بين RAG والسياق الطويل ليس أيديولوجياً — بل معماري. النهج الصحيح يعتمد على الخصائص المحددة لحالة استخدامك.
اختر السياق الطويل عندما:
- مجموعة بيانات محدودة — البيانات التي تحتاجها تتسع بسهولة في نافذة السياق (أقل من 200 ألف رمز هو النقطة المثالية)
- استنتاج شامل مطلوب — المهمة تتطلب فهم العلاقات عبر المستند بأكمله (تلخيص، تحليل، مقارنة)
- حجم استعلامات منخفض — لا تعالج آلاف الاستعلامات يومياً على نفس البيانات
- البساطة أولوية — تفتقر إلى الموارد الهندسية أو الوقت لبناء وصيانة خط أنابيب RAG
- الحداثة مهمة — البيانات تتغير بشكل متكرر ولا تريد إعادة الفهرسة باستمرار
اختر RAG عندما:
- مجموعة بيانات غير محدودة — البيانات ذات الصلة تتجاوز ما يمكن لأي نافذة سياق احتواؤه
- حجم استعلامات عالٍ — تخدم العديد من المستخدمين الذين يستعلمون عن نفس البيانات بشكل متكرر
- الدقة مهمة — تحتاج إلى استرجاع موثوق لحقائق محددة من مجموعات نصية كبيرة
- حساسية للتكاليف — لا يمكنك تحمل معالجة مئات الآلاف من الرموز لكل استعلام، حتى مع التخزين المؤقت
- استرجاع متعدد المصادر — تحتاج إلى السحب ديناميكياً من قواعد بيانات وواجهات برمجة التطبيقات ومخازن المستندات
النهج الهجين: أفضل ما في العالمين
تستخدم أكثر أنظمة الإنتاج تطوراً في 2026 كلا النهجين معاً. يسترجع RAG المستندات أو الأقسام الأكثر صلة، وتُحمّل تلك النتائج في نافذة سياق طويل للاستنتاج الشامل. هذا يجمع بين دقة RAG وجودة استنتاج السياق الطويل مع التحكم في التكاليف.
هذا النمط الهجين — الذي يُسمى أحياناً «Long RAG» — يسترجع وحدات أطول كأقسام كاملة أو مستندات بأكملها بدلاً من أجزاء صغيرة، مع الحفاظ على سياق أكبر مع تضييق مساحة البحث. وقد برز كالبنية المعمارية السائدة لعمليات النشر المؤسسية التي تحتاج إلى النطاق والعمق معاً.
الخلاصة
RAG لم يمت. والسياق الطويل لا يجعل قواعد البيانات المتجهية عديمة الفائدة. هذه تقنيات تكاملية تحل جوانب مختلفة من نفس المشكلة — إيصال البيانات الصحيحة إلى النموذج في الوقت المناسب.
بالنسبة للمشكلات المحدودة التي تتطلب استنتاجاً عميقاً عبر مستندات كاملة، يبسّط السياق الطويل البنية ويحسّن جودة المخرجات. أما بالنسبة لقواعد المعرفة على مستوى المؤسسة التي تتطلب استرجاعاً فعالاً ودقيقاً عبر تيرابايتات من البيانات، يظل RAG وقواعد البيانات المتجهية بنية تحتية أساسية.
الخطأ الأكثر شيوعاً هو التعامل مع هذا كخيار ثنائي. أفضل بنى الذكاء الاصطناعي في 2026 تستخدم كليهما — RAG للنطاق والدقة، والسياق الطويل للعمق والاستنتاج. فهم متى تنشر كل نهج وكيف تجمع بينهما هو المهارة الهندسية الحقيقية.
الأسئلة الشائعة
هل أصبح RAG عديم الجدوى مع نوافذ السياق ذات المليون رمز؟
لا. بينما ألغت نوافذ السياق الطويل الحاجة إلى RAG في بعض حالات الاستخدام — خاصة تلك التي تتضمن مجموعات مستندات أصغر تقل عن 200,000 رمز — يظل RAG أساسياً للتطبيقات على مستوى المؤسسة. من المتوقع أن ينمو سوق RAG من 2 مليار دولار في 2025 إلى ما يقارب 10 مليارات دولار بحلول 2030. السبب واضح: بيانات المؤسسات تتجاوز ما يمكن لأي نافذة سياق احتواؤه، وتكلفة معالجة ملايين الرموز لكل استعلام تجعل نهج الاسترجاع المستهدف لـ RAG أكثر اقتصادية بكثير على نطاق واسع.
ما هي مشكلة «الضائع في الوسط» وهل تؤثر على موثوقية السياق الطويل؟
مشكلة «الضائع في الوسط»، التي وثقها Liu وآخرون في 2024، تشير إلى ميل نماذج اللغة إلى الأداء الجيد عندما تكون المعلومات ذات الصلة في بداية أو نهاية السياق، لكنها تؤدي بشكل سيئ عندما تكون مدفونة في الوسط. هذا يعني أنه مع وصول السياق إلى مئات الآلاف من الرموز، قد يفوت النموذج أو يُسيء إسناد حقائق محددة موجودة في مواضع داخلية. بينما تحسّن النماذج الأحدث وتقنيات مثل Multi-scale Positional Encoding هذا الوضع، يبقى مصدر قلق عملي للتطبيقات التي تتطلب دقة عالية من سياقات كبيرة جداً.
هل يجب أن أستخدم بنية هجينة RAG + سياق طويل؟
بالنسبة لمعظم تطبيقات المؤسسات في الإنتاج، نعم. النهج الهجين — استخدام RAG لاسترجاع المستندات أو الأقسام ذات الصلة، ثم تحميلها في نافذة سياق طويل للاستنتاج — أصبح النمط السائد في 2026. يجمع بين دقة وكفاءة تكلفة الاسترجاع مع قدرة الاستنتاج العميق للسياق الطويل. ابدأ بالنهج الأبسط لحالة استخدامك، ثم تطور نحو بنية هجينة مع نمو متطلباتك.
الأسئلة الشائعة
ماذا كشف معيار LaRA في ICML 2025 عن أداء RAG مقابل السياق الطويل؟
اختبر معيار LaRA 2,326 حالة عبر أربع فئات مهام وخلص إلى عدم وجود فائز شامل. تفوق السياق الطويل بشكل عام على RAG في الأسئلة والأجوبة المبنية على Wikipedia، بينما حافظ RAG على مزاياه في الاستعلامات الحوارية والعامة. يعتمد الخيار الأمثل على حجم النموذج ونوع المهمة وخصائص الاسترجاع — مما يجعل القرارات المعمارية مرتبطة بالسياق وليست موحدة.
بكم حسّنت تقنية Contextual Retrieval من Anthropic دقة استرجاع RAG؟
تقنية Contextual Retrieval من Anthropic، المقدمة في سبتمبر 2024، تضيف سياقاً توضيحياً خاصاً لكل جزء قبل التضمين. خفضت Contextual Embeddings وحدها معدل فشل استرجاع أفضل 20 جزءاً بنسبة 35%. وأدى الجمع بين Contextual Embeddings وContextual BM25 إلى خفض حالات الفشل بنسبة 49%. وأدت إضافة خطوة إعادة الترتيب إلى تحسين بنسبة 67%، مما خفض معدل الفشل من 5.7% إلى 1.9% فقط.
ما معدل الاستدعاء الذي أظهره Gemini 1.5 Pro في اختبارات needle-in-a-haystack على مستوى المليون رمز؟
أظهر Gemini 1.5 Pro من Google معدل استدعاء 99.7% في اختبارات needle-in-a-haystack عند مليون رمز، وحافظ على معدل استدعاء أعلى من 99% حتى 10 ملايين رمز للنصوص. تبرز هذه النتائج قوة السياق الطويل في تحديد معلومات محددة ضمن مستندات ضخمة، رغم أن RAG يحتفظ بمزايا للاستعلامات الحوارية وعندما تتجاوز أحجام البيانات أي نافذة سياق.
المصادر والقراءات الإضافية
- Long Context vs. RAG for LLMs: An Evaluation and Revisits — arXiv (Jan 2025)
- LaRA: Benchmarking RAG and Long-Context LLMs — arXiv / ICML 2025
- Lost in the Middle: How Language Models Use Long Contexts — Liu et al., TACL 2024
- Introducing Contextual Retrieval — Anthropic (Sep 2024)
- RAG Market Projected to Reach $9.86 Billion by 2030 — MarketsandMarkets
- Introducing GPT-4.1 with 1M Token Context — OpenAI (Apr 2025)
- Long Context Documentation — Google Cloud Vertex AI
- RAG vs Long-Context Models: Do We Still Need RAG? — Unstructured
















