⚡ أبرز النقاط

“مكدس بلا مكدس” يلغي خط انابيب RAG التقليدي بالكامل — بدون تقطيع، بدون تضمينات، بدون قواعد بيانات متجهة — عبر تحميل المستندات مباشرة في نوافذ سياق بمليون رمز. للبيانات الاقل من 200,000 رمز مع استعلامات غير متكررة، يتفوق هذا النهج على RAG في الدقة مع تقليل تعقيد الهندسة بشكل جذري. تتبع البنية مسار تحسين تدريجي: ابدا بدون مكدس، اضف التخزين المؤقت، ثم ادخل الاسترجاع بشكل انتقائي فقط عندما يتطلب الحجم ذلك.

خلاصة: ابدا بابسط بنية تعمل. حمّل مستنداتك مباشرة في نافذة السياق ولا تضف بنية استرجاع تحتية الا عندما يكون لديك دليل ملموس على ان الحجم او التكلفة يتطلب ذلك.

اقرأ التحليل الكامل ↓

إعلان

🧭 رادار القرار (عدسة جزائرية)

الأهمية بالنسبة للجزائر
عالية

يمكن للشركات الناشئة وفرق التطوير الصغيرة الجزائرية شحن منتجات الذكاء الاصطناعي بسرعة أكبر باعتماد نهج السياق الطويل بدلاً من مكدسات RAG المُبالغ في هندستها لحالات الاستخدام المحدودة
البنية التحتية جاهزة؟
نعم

يتطلب فقط الوصول إلى API النماذج اللغوية الكبيرة (عبر السحابة)، لا حاجة لبنية تحتية محلية لوحدات GPU أو قواعد بيانات متجهية
المهارات متوفرة؟
نعم

يتطلب الـ no-stack stack معرفة متخصصة أقل بالبنية التحتية مقارنة بخطوط أنابيب RAG، مما يجعله متاحاً للمطورين الجزائريين ذوي مهارات التكامل الأساسية مع API
أفق العمل
فوري

يمكن للفرق تبني هذا النهج اليوم للمشاريع الجديدة
أصحاب المصلحة الرئيسيون
مطورو الذكاء الاصطناعي، مؤسسو الشركات الناشئة، مهندسو المنتجات، المطورون المستقلون، أقسام علوم الحاسب الجامعية
نوع القرارتعليمي
يوفر هذا المقال معرفة أساسية لفهم الموضوع بدلاً من الحاجة إلى اتخاذ إجراء استراتيجي فوري.

خلاصة سريعة: الـ no-stack stack مناسب تماماً لمنظومة الذكاء الاصطناعي الجزائرية، حيث معظم الفرق صغيرة ومحدودة الموارد. البدء بالسياق الطويل بدلاً من مكدس RAG كامل يتيح للفرق شحن منتجات الذكاء الاصطناعي بسرعة أكبر مع حد أدنى من البنية التحتية. مع نمو أحجام البيانات وأعباء الاستعلامات، يمكن للفرق إضافة مكونات الاسترجاع تدريجياً — لكن فقط عندما يصطدم النهج البسيط بجدار ملموس.

المقدمة

على مدى السنوات الثلاث الماضية، كان بناء تطبيق ذكاء اصطناعي قادر على الإجابة عن أسئلة حول بياناتك يتطلب تجميع بنية تحتية متعددة الطبقات: معالجات مستندات، وأنابيب تقطيع، ونماذج تضمين (Embedding)، وقواعد بيانات متجهية (Vector Databases)، وأنظمة استرجاع، وأدوات إعادة ترتيب (Rerankers)، ومنطق تنسيق لربط كل ذلك معاً. كان هذا هو مكدس RAG — التوليد المعزز بالاسترجاع (Retrieval Augmented Generation) — وأصبح البنية الافتراضية لأي تطبيق نموذج لغوي كبير (LLM) يحتاج للعمل مع بيانات خاصة أو محدثة. بحلول عام 2025، نمت عمليات نشر RAG في المؤسسات بنسبة 280% على أساس سنوي، وكان نحو 60% من تطبيقات LLM في الإنتاج تستخدم شكلاً من أشكال التوليد المعزز بالاسترجاع.

ثم توسعت نوافذ السياق. في عام 2023، كانت معظم النماذج تبلغ ذروتها عند 4,000–8,000 رمز (Token). بحلول مطلع 2025، قدم Gemini 1.5 Pro مليوني رمز. وصل GPT-4.1 إلى مليون رمز. امتد Claude إلى 200,000 رمز كمعيار قياسي، مع مليون رمز في النسخة التجريبية. دفع Llama 4 من Meta إلى 10 ملايين رمز. وأظهر النموذج التجريبي LTM-2-Mini من Magic نافذة سياق بحجم 100 مليون رمز — كافية لـ 10 ملايين سطر من الشفرة البرمجية أو نحو 750 رواية.

برز خيار معماري جذري من هذا التوسع: تجاوز مكدس الاسترجاع بالكامل. تحميل مستنداتك مباشرة في الأمر (Prompt). ترك النموذج يستدل على النص الكامل.

هذا هو “الـ no-stack stack” — بنية ذكاء اصطناعي تُعرَّف ليس بما تتضمنه، بل بما تُزيله. ولمجموعة مفاجئة من حالات الاستخدام، ليس هذا النهج أبسط فحسب — بل أفضل أداءً.

كيف يبدو مكدس RAG فعلياً

قبل تقدير ما يُزيله الـ no-stack stack، من المفيد حصر ما يتطلبه نظام RAG في بيئة الإنتاج. كل طبقة تُدخل قرارات، وأوضاع فشل، وزمن انتقال، وعبء صيانة.

طبقة الاستيعاب

  • محللات المستندات — مستخرجات PDF، وكاشطات HTML، وقارئات ملفات الشفرة، لكل منها حالاتها الحدية وأوضاع فشلها
  • منطق التقطيع — تقسيم المستندات إلى وحدات قابلة للاسترجاع، مع قرارات حول حجم القطعة والتداخل واكتشاف الحدود
  • المعالجة المسبقة — تنظيف النص، واستخراج البيانات الوصفية، وإزالة التكرارات، واكتشاف اللغة

طبقة التضمين

  • نموذج التضمين — يُختار ويُستضاف ويُصان (أو يُوصَل إليه عبر API)
  • المعالجة بالدفعات — تضمين آلاف أو ملايين القطع، مع إدارة الإنتاجية وحدود المعدل
  • إصدارات النماذج — عند تحديث نماذج التضمين، تصبح جميع المتجهات الحالية غير متوافقة ويجب إعادة توليدها

طبقة التخزين

  • قاعدة بيانات متجهية — تُنشر وتُكوَّن وتُوسَّع وتُنسخ احتياطياً وتُراقب (Pinecone أو Weaviate أو Chroma أو pgvector أو غيرها)
  • إدارة الفهارس — إنشاء فهارس البحث وصيانتها لاسترجاع فعال
  • تخزين البيانات الوصفية — حفظ معلومات المصدر والطوابع الزمنية وضوابط الوصول إلى جانب المتجهات

طبقة الاسترجاع

  • تضمين الاستعلام — تحويل أسئلة المستخدم إلى متجهات وقت الاستعلام
  • البحث بالتشابه — العثور على القطع ذات الصلة، مع ضبط top-k وعتبة التشابه ومقاييس المسافة
  • إعادة الترتيب — تمريرة ثانية اختيارية لكن غالباً ضرورية لتحسين الملاءمة
  • تجميع النتائج — دمج القطع المسترجعة في سياق متماسك للنموذج اللغوي الكبير

طبقة المزامنة

  • اكتشاف التغييرات — مراقبة المستندات المصدرية بحثاً عن تحديثات
  • إعادة الفهرسة — تقطيع المحتوى المحدث وتضمينه وتخزينه
  • إدارة البيانات القديمة — إزالة المتجهات للمستندات المحذوفة
  • ضمانات الاتساق — التأكد من أن الفهرس يعكس الحالة الراهنة للبيانات المصدرية

طبقة التنسيق

  • إدارة خط الأنابيب — تنسيق جميع المكونات بالتسلسل الصحيح
  • معالجة الأخطاء — إدارة حالات الفشل في أي نقطة من خط الأنابيب
  • المراقبة — تتبع زمن الانتقال والدقة وصحة النظام عبر المكونات
  • التكوين — إدارة المعلمات عبر جميع الطبقات

هذه بنية تحتية ضخمة. فئة قواعد البيانات المتجهية وحدها استقطبت أكثر من 800 مليون دولار من الاستثمار الجريء خلال عام 2025 — أعلنت Pinecone عن نمو إيراداتها بنسبة 340% على أساس سنوي، وأغلقت Weaviate جولة تمويل Series C بقيمة 163 مليون دولار. الأدوات موجودة لأن المشكلة حقيقية. لكن لكثير من حالات الاستخدام، هذه الآلية تحل مشكلة حلّتها نوافذ السياق الأطول بالفعل.

كيف يبدو الـ No-Stack Stack

أزِل كل ما سبق. استبدله بـ:

  1. تحميل المستندات في الأمر
  2. طرح سؤالك على النموذج
  3. الحصول على الإجابة

هذا كل شيء. لا تضمينات. لا متجهات. لا منطق استرجاع. لا مزامنة. لا إعادة ترتيب. لا مشاكل حدود القطع. يتلقى النموذج المستندات الكاملة ويستدل عليها مباشرة.

ينتقل جهد الهندسة من بناء البنية التحتية وصيانتها إلى صياغة أوامر فعالة وإدارة السياق بكفاءة — مهارات أكثر سهولة لنطاق أوسع من المطورين. لا توجد قاعدة بيانات متجهية لتوفيرها، ولا نموذج تضمين لإصداره، ولا استراتيجية تقطيع لتصحيحها عندما تعود الإجابات خاطئة.

الأدلة: متى يتفوق السياق الطويل على الاسترجاع

هذا ليس مجرد تبسيط نظري. وجدت دراسة نُشرت في يناير 2025 على arXiv بعنوان “Long Context vs. RAG for LLMs: An Evaluation and Revisits” أن السياق الطويل يتفوق عموماً على RAG في معايير الأسئلة والأجوبة، خاصة للاستعلامات كثيفة المعرفة. الاسترجاع القائم على القطع — أكثر تطبيقات RAG شيوعاً — تأخر باستمرار عن نهج السياق الكامل.

أظهرت تقييمات Google الخاصة لـ Gemini 1.5 Pro معدل استرجاع يتجاوز 99.7% في اختبارات needle-in-a-haystack حتى مليون رمز، وحافظت على استرجاع يتجاوز 99% امتداداً حتى 10 ملايين رمز للنصوص. هذه ليست معايير اصطناعية — بل تقيس قدرة النموذج على تحديد واستخدام معلومات محددة ضمن سياقات ضخمة.

لكن البحث نفسه وجد أن RAG يحتفظ بمزايا في الاستعلامات القائمة على الحوار والأسئلة والأجوبة العامة، وأن الاسترجاع القائم على التلخيص يؤدي أداءً مقارباً للسياق الطويل. الخيار ليس ثنائياً. يعتمد على النموذج ونوع المهمة وتفاصيل التنفيذ.

خمس حالات استخدام يفوز فيها الـ No-Stack Stack

1. تحليل المستندات وتلخيصها

تحليل عقد قانوني، أو تلخيص ورقة بحثية، أو استخراج النتائج الرئيسية من تقرير — هذه المهام تتطلب أن يفهم النموذج بنية المستند الكاملة. تقطيع عقد من 30 صفحة واسترجاع أجزاء منه يُفقد الهدف. تحميل العقد بالكامل (نحو 30,000 رمز) في نافذة السياق يتيح للنموذج الاستدلال عبر النص الكامل، مُلتقطاً الإحالات المتبادلة والبنود المشروطة والتبعيات الهيكلية التي يدمرها التقطيع.

2. مراجعة الشفرة البرمجية وتحليلها

مراجعة طلب سحب (Pull Request)، أو تحليل قاعدة شفرة بحثاً عن ثغرات أمنية، أو فهم كيفية تنفيذ ميزة عبر ملفات متعددة. هذه المهام تستفيد من رؤية الشفرة الكاملة في سياقها بدلاً من استرجاع دوال معزولة. مراجعة شفرة لـ 15 ملفاً بمجموع 50,000 رمز تتسع بسهولة في أي نافذة سياق حديثة وتُنتج تحليلاً أفضل من استرجاع مقتطفات، لأن النموذج يستطيع تتبع التبعيات عبر الملفات.

3. التحليل المقارن

مقارنة نسختين من مستند، أو تقييم عروض متنافسة، أو تحليل الفروق بين مواصفات المنتجات. هذه المهام تتطلب بشكل جوهري أن يحتفظ النموذج بعدة مستندات كاملة في آنٍ واحد ويستدل عبرها. RAG غير مصمم للمقارنة — بل مصمم للاسترجاع. تحميل كلا المستندين في السياق يتيح للنموذج إجراء تحليل مقارن حقيقي.

4. معالجة الاجتماعات والتواصل

تحليل محضر اجتماع، أو تلخيص سلسلة بريد إلكتروني، أو استخراج الإجراءات المطلوبة من محادثة. هذه مستندات متسلسلة ومحدودة حيث يهم ترتيب وسياق كل عبارة. تقطيع محضر اجتماع يُدمر التدفق الحواري والسياق الزمني. السياق الطويل يحفظه، مُنتجاً ملخصات تلتقط بدقة مسار النقاش وديناميكيات المتحدثين وتطور القرارات.

5. إدارة المعرفة الشخصية

ملاحظات مطور فردي، أو توثيق مشروع فريق صغير، أو مجموعة أوراق بحثية لباحث — مجموعات بيانات مهمة لكنها محدودة. مطور لديه 200 صفحة من الملاحظات الشخصية يملك نحو 100,000 رمز من النص. يتسع ذلك بسهولة في نوافذ السياق الحالية ولا يبرر عبء نشر وصيانة خط أنابيب استرجاع.

إعلان

متى يصل الـ No-Stack Stack إلى حدوده

جدار الحجم

للـ no-stack stack حد صارم: نافذة السياق. عندما تتجاوز بياناتك ما يمكن أن تحتويه النافذة، تُجبر إما على الاقتطاع (وخسارة معلومات) أو إضافة الاسترجاع (وإعادة المكدس). لشركة لديها 10,000 صفحة من التوثيق، حتى نافذة سياق بحجم مليوني رمز غير كافية. تحتاج وسيلة لتصفية الصفحات ذات الصلة قبل تحميلها في السياق.

سقف التكلفة

عند أحجام استعلام مرتفعة، يصبح معالجة سياقات كبيرة لكل استعلام مكلفاً. الحسابات صارخة: تكلفة استعلامات RAG تبلغ في المتوسط نحو 0.00008 دولار لكل استعلام، بينما تبلغ استعلامات السياق الطويل نحو 0.10 دولار — مما يجعل RAG أرخص بنحو 1,250 مرة لكل استعلام. نظام دعم عملاء يعالج آلاف الاستعلامات يومياً مقابل دليل منتج لا يستطيع تحمل تحميل الدليل بالكامل لكل استعلام، حتى مع التخزين المؤقت للأوامر الذي يخفض التكاليف بنسبة 50 إلى 90%.

لوضع الأمور في سياقها بالنسبة للأسعار الخام: يتقاضى Gemini 2.5 Pro مبلغ 1.25 دولار لكل مليون رمز إدخال، ويتقاضى GPT-5.2 مبلغ 1.75 دولار لكل مليون، ويتقاضى Claude Opus 4.5 مبلغ 5.00 دولارات لكل مليون. تتضاعف هذه التكاليف بسرعة عند معالجة مئات الآلاف من الرموز لكل طلب على نطاق واسع.

أرضية زمن الانتقال

معالجة 500,000 رمز تستغرق وقتاً. للتطبيقات التفاعلية حيث أوقات الاستجابة دون الثانية مهمة، فإن زمن انتقال استيعاب نافذة سياق كبيرة يكون مانعاً. تبلغ خطوط أنابيب RAG في المتوسط نحو ثانية واحدة للاستعلامات من طرف إلى طرف، بينما قد تستغرق تكوينات السياق الطويل المكافئة 30 إلى 60 ثانية على نفس عبء العمل.

مشكلة “الضائع في الوسط”

وثّق بحث لـ Liu et al.، نُشر في Transactions of the Association for Computational Linguistics عام 2024، تحدياً مستمراً: تؤدي النماذج اللغوية الكبيرة أداءً أفضل عندما تظهر المعلومات ذات الصلة في بداية أو نهاية السياق، لكن الدقة تنخفض بمقدار 10 إلى 20 نقطة مئوية عندما تقع المعلومات الحرجة في وسط السياقات الطويلة. رغم تحسن النماذج — يحقق Gemini 1.5 Pro استرجاعاً شبه مثالي في اختبارات الإبرة الواحدة — تستمر المشكلة في الاسترجاع متعدد الإبر ومهام الاستدلال المعقدة. السعة الفعلية للسياق في الواقع تتراوح عادة بين 60–70% من الحدود المُعلنة.

للتطبيقات التي يهم فيها العثور على حقيقة محددة واحدة في مجموعة كبيرة — فحص الامتثال، واسترجاع المعلومات الطبية، والبحث القانوني عبر آلاف المستندات — لا يزال الاسترجاع المستهدف لـ RAG ينتج نتائج أكثر موثوقية من الأمل في أن يهتم النموذج بالقسم الصحيح من سياق ضخم.

متطلب الدقة

بعض التطبيقات لا تتطلب الإجابة الصحيحة فحسب، بل المصدر أيضاً — أي مستند، وأي صفحة، وأي فقرة جاءت منها الإجابة. توفر خطوة الاسترجاع في RAG نسب المصادر بشكل طبيعي. مع السياق الطويل، يتطلب استخراج اقتباسات دقيقة من مُدخل بحجم 500,000 رمز أوامر إضافية ويكون أقل موثوقية.

بناء الـ No-Stack Stack بفعالية

للفرق التي تتبنى هذا النهج، عدة ممارسات تُحسّن الموثوقية وجودة المخرجات.

تنظيم السياق

البنية مهمة حتى بدون استرجاع. نظّم المستندات في السياق بعناوين واضحة وعلامات أقسام وبيانات وصفية. يتنقل النموذج في السياق المنظم بفعالية أكبر من تفريغ نص خام.

“`

=== مستند: التقرير المالي للربع الرابع ===

التاريخ: يناير 2026

النوع: تقرير ربع سنوي

[محتوى المستند]

=== نهاية المستند ===

“`

التحميل الانتقائي

ليس كل مستند يحتاج أن يكون في كل استعلام. ابنِ منطقاً بسيطاً لاختيار المستندات ذات الصلة بالسؤال الحالي — ليس خط أنابيب RAG كاملاً، بل تصفية خفيفة بناءً على الكلمات المفتاحية أو نوع المستند أو الحداثة. هذا هو الحد الأدنى من الاسترجاع الذي يُبقيك تحت سقف السياق دون الحاجة إلى بنية تحتية متجهية.

ميزانية السياق

راقب مقدار نافذة السياق التي تستخدمها. اترك مساحة لاستجابة النموذج ولأي استدلال بسلسلة التفكير. نافذة سياق ممتلئة بنسبة 95% لا تترك مجالاً للنموذج للتفكير. بالنظر إلى أن السعة الفعلية تتراوح بين 60–70% من الحدود المُعلنة، خطط وفقاً لذلك.

التخزين المؤقت للأوامر

للاستعلامات المتكررة ضد نفس المستندات، التخزين المؤقت للأوامر أمر ضروري. يخفض تنفيذ Anthropic التكاليف بنسبة تصل إلى 90% وزمن الانتقال بنسبة تصل إلى 85% للأوامر الطويلة. تقدم OpenAI تخزيناً مؤقتاً تلقائياً مع توفير 50%، مُفعَّل افتراضياً للأوامر البالغة 1,024 رمزاً أو أكثر. توفر Google إعداداً يدوياً للتخزين المؤقت بعمر افتراضي يبلغ ساعة واحدة. عبر جميع المزودين، تكلف رموز الإدخال المخزنة مؤقتاً نحو 10 أضعاف أقل من رموز الإدخال العادية. لمجموعات المستندات المستقرة التي تُستعلم بشكل متكرر، يُحوّل التخزين المؤقت اقتصاديات نهج السياق الطويل.

التدهور الرشيق

صمم أنظمة يمكنها الرجوع إلى الاسترجاع عندما تتجاوز البيانات نافذة السياق. البدء بالـ no-stack stack لا يعني أنك لن تتمكن أبداً من إضافة الاسترجاع — لكن البناء بالنهج الأبسط أولاً يعني أنك لا تضيف تعقيداً إلا عندما يتطلبه حالة الاستخدام. هذه البنية التدريجية تتيح للفرق الشحن أسرع وإضافة البنية التحتية فقط عندما تصطدم بجدار ملموس.

المستقبل الهجين

تتقارب الصناعة نحو حل وسط عملي. أكثر بنيات الإنتاج فعالية في 2026 تستخدم الاسترجاع لتحديد السياق ذي الصلة، ثم تُغذي ذلك السياق المسترجع في نوافذ سياق طويلة للاستدلال. هذا النهج الهجين يلتقط دقة RAG مع عمق استدلال السياق الطويل.

فكر فيه كطيف بدلاً من خيار ثنائي:

  • No-stack خالص — المستندات تتسع في السياق، حالة استخدام محدودة، حجم استعلامات معتدل
  • تصفية خفيفة + سياق طويل — تصفية بسيطة بالكلمات المفتاحية أو البيانات الوصفية تُضيّق المستندات قبل التحميل
  • RAG هجين + سياق طويل — الاسترجاع المتجهي يُحدد القطع ذات الصلة، ونافذة السياق الطويل تستدل عبرها
  • مكدس RAG كامل — نطاق مؤسسي، حجم مرتفع، تطبيقات حرجة الدقة

الـ no-stack stack ليس ضد الهندسة. إنه اعتراف بأن البنية التحتية غير الضرورية لها تكاليف — عبء صيانة، وتعقيد تصحيح الأخطاء، وأوضاع فشل، وحمل معرفي. كل مكون يجب أن يستحق مكانه بحل مشكلة لا تستطيع النهج الأبسط معالجتها.

الخاتمة

الـ no-stack stack هو نقطة البداية الصحيحة لمعظم تطبيقات الذكاء الاصطناعي التي تعمل مع مجموعات مستندات محدودة. حمّل المستندات. اطرح السؤال. احصل على الإجابة. لا تضف بنية تحتية إلا عندما تصطدم بجدار — الحجم أو التكلفة أو زمن الانتقال أو الدقة — لا يستطيع النهج البسيط تجاوزه.

قواعد المعرفة على مستوى المؤسسات، وأنظمة الإنتاج عالية الحجم، والتطبيقات حرجة الدقة لا تزال تحتاج إلى بنية تحتية للاسترجاع. الـ 800 مليون دولار المتدفقة إلى شركات قواعد البيانات المتجهية في 2025 تعكس طلباً مؤسسياً حقيقياً. لكن للعدد الهائل من تطبيقات الذكاء الاصطناعي التي تبنيها فرق صغيرة وشركات ناشئة ومطورون أفراد — يجب أن يكون الخيار الافتراضي هو البساطة لا التعقيد. ابدأ بأقل عدد من الأجزاء المتحركة. لا تضف آلية إلا عندما تُجبرك البيانات أو عبء العمل على ذلك.

تابعوا AlgeriaTech على LinkedIn للتحليلات التقنية المهنية تابعوا على LinkedIn
تابعونا @AlgeriaTechNews على X للحصول على أحدث تحليلات التكنولوجيا تابعنا على X

إعلان

الأسئلة الشائعة

هل مات RAG الآن بعد أن وصلت نوافذ السياق إلى ملايين الرموز؟

لا. نمت عمليات نشر RAG بنسبة 280% في 2025 ولا تزال ضرورية للتطبيقات على مستوى المؤسسات. نوافذ السياق الطويل تتعامل جيداً مع مجموعات المستندات المحدودة، لكن عندما تتجاوز بياناتك نافذة السياق، أو عندما تحتاج إلى زمن انتقال دون الثانية، أو عندما تجعل أحجام الاستعلامات تكاليف كل رمز باهظة، تبقى بنية الاسترجاع التحتية ضرورية. النهجان متكاملان وليسا متنافسين.

كم تكلف استخدام نوافذ السياق الطويل مقارنة بـ RAG؟

فرق التكلفة كبير على نطاق واسع. تبلغ تكلفة استعلامات السياق الطويل في المتوسط نحو 0.10 دولار لكل استعلام، بينما تبلغ تكلفة استعلامات RAG نحو 0.00008 دولار — مما يجعل RAG أرخص بنحو 1,250 مرة لكل استعلام. لكن التخزين المؤقت للأوامر يمكن أن يخفض تكاليف السياق الطويل بنسبة 50 إلى 90%، ولحالات الاستخدام منخفضة الحجم فإن التوفير في وقت الهندسة غالباً ما يفوق فرق التكلفة لكل استعلام.

ما هي مشكلة “الضائع في الوسط” وهل تؤثر على الـ no-stack stack؟

وجد بحث نُشر في 2024 بواسطة Liu et al. أن النماذج اللغوية الكبيرة تؤدي أداءً أفضل عندما تظهر المعلومات ذات الصلة في بداية أو نهاية السياقات الطويلة، مع انخفاض الدقة بمقدار 10 إلى 20 نقطة مئوية للمعلومات الموضوعة في الوسط. يؤثر هذا على أي نهج سياق طويل. تتضمن استراتيجيات التخفيف هيكلة المستندات بعلامات أقسام واضحة، ووضع المحتوى الأهم في البداية أو النهاية، واستخدام ميزانية السياق لتجنب ملء النافذة إلى أقصى سعتها.

الأسئلة الشائعة

كم بلغ حجم الاستثمار الجريء في فئة قواعد البيانات المتجهية عام 2025 رغم اتجاه no-stack stack؟

استقطبت فئة قواعد البيانات المتجهية أكثر من 800 مليون دولار من الاستثمار الجريء عبر عام 2025. سجلت Pinecone نمواً في الإيرادات بنسبة 340% على أساس سنوي، وأغلقت Weaviate جولة Series C بقيمة 163 مليون دولار. نمت عمليات نشر RAG في المؤسسات بنسبة 280% سنوياً، مع استخدام حوالي 60% من تطبيقات LLM الإنتاجية شكلاً من أشكال الاسترجاع المعزز. يشير هذا إلى أن no-stack stack مكمّل وليس بديلاً للبنية التحتية للاسترجاع على نطاق واسع.

ما سعات نوافذ السياق التي وصلتها النماذج الرئيسية بحلول 2025 والتي تمكّن بنية no-stack؟

بحلول أوائل 2025، قدم Gemini 1.5 Pro مليوني رمز، ووصل GPT-4.1 إلى مليون رمز، وامتد Claude إلى 200,000 رمز كمعيار مع مليون في النسخة التجريبية، ودفع Llama 4 من Meta إلى 10 ملايين رمز. أظهر نموذج LTM-2-Mini التجريبي من Magic نافذة سياق بـ 100 مليون رمز — كافية لـ 10 ملايين سطر من الكود أو حوالي 750 رواية. تتيح هذه السعات تحميل مجموعات مستندات كاملة مباشرة في المطالبة دون بنية تحتية للاسترجاع.

ما معدل الاستدعاء الذي أظهرته تقييمات Google لـ Gemini 1.5 Pro في استرجاع المعلومات بالسياق الطويل؟

أظهرت تقييمات Google الخاصة لـ Gemini 1.5 Pro معدل استدعاء أعلى من 99.7% في اختبارات needle-in-a-haystack حتى مليون رمز، وحافظت على معدل استدعاء أعلى من 99% حتى 10 ملايين رمز للنصوص. لكن البحث نفسه وجد أن RAG يحتفظ بمزايا للاستعلامات الحوارية والأسئلة العامة، وأن الاسترجاع بالتلخيص يؤدي بشكل مقارب للسياق الطويل — مما يشير إلى أن نهج no-stack يعمل بشكل أفضل للبحث المكثف بالمعرفة وليس لجميع أنواع الاستعلامات.

المصادر والقراءات الإضافية