هلوسات الذكاء الاصطناعي: لماذا لا تزال نماذج اللغة تكذب وماذا يُفعل حيال ذلك

ثقة المخطئ الواثق من نفسه

في ربيع 2023، قدّم محامٍ في New York مذكرة قانونية تحتوي على ست استشهادات بقضايا ولّدها ChatGPT. لم تكن أي من هذه القضايا موجودة. كانت الاستشهادات مثالية نحويًا — أسماء محاكم صحيحة، أرقام ملفات معقولة، استدلالات قانونية واقعية — لكنها مُختلقة بالكامل. المحامي، Steven Schwartz من مكتب Levidow, Levidow & Oberman، عوقب من قبل القاضي P. Kevin Castel في قضية Mata v. Avianca, Inc. — غُرّم كل محامٍ 5,000 دولار وأُلزم بإخطار كل قاضٍ اُستشهد به زورًا. أصبحت الحادثة رمزًا لأخطر نمط فشل في الذكاء الاصطناعي: الهلوسة.

تحدث الهلوسة عندما يولّد نموذج لغوي كبير معلومة سلسة وواثقة وخاطئة — ليست خطأ مطبعيًا أو عدم يقين، بل حقيقة مُصنّعة تُقدَّم بنفس قناعة الحقيقة الموثقة. النموذج لا “يعرف” أنه يهلوس. ليس لديه آلية داخلية للتمييز بين ما حفظه من بيانات التدريب، وما استنتجه بشكل معقول، وما اخترعه من العدم.

في 2026، رغم الاستثمار الضخم في تقنيات التخفيف، تظل الهلوسة أكبر عائق أمام النشر الموثوق للذكاء الاصطناعي في المجالات عالية المخاطر: الرعاية الصحية، والقانون، والمالية، والحكومة، والصحافة. فهم لماذا تحدث الهلوسات — وما هو أحدث ما توصل إليه العلم في التخفيف منها — أمر أساسي لأي مؤسسة تنشر نماذج اللغة الكبيرة.

لماذا تهلوس نماذج اللغة الكبيرة؟ مشكلة البنية الأساسية

الهلوسة ليست خللاً يمكن ترقيعه. إنها خاصية ناشئة عن كيفية عمل نماذج اللغة.

نموذج اللغة الكبير هو محرك توقع الرمز التالي. بناءً على تسلسل من الرموز (كلمات، أجزاء كلمات)، يتوقع الرمز التالي الأكثر احتمالاً إحصائيًا استنادًا إلى الأنماط المُتعلمة من بيانات التدريب. لا “يبحث” عن حقائق في قاعدة بيانات. ولا “يتحقق” من الادعاءات مقابل مصدر حقيقة. يولّد نصًا معقولاً إحصائيًا بالنظر إلى السياق، والمعقولية الإحصائية ليست مرادفة للدقة الوقائعية.

ثلاث آليات محددة تقود الهلوسة:

فجوات بيانات التدريب. عندما يُسأل نموذج عن موضوع كان ضعيف التمثيل في بيانات تدريبه — سابقة قانونية نادرة، اكتشاف علمي متخصص، حدث حديث — يملأ الفجوة بتلفيق معقول بدلاً من الاعتراف بالجهل. هدف تدريب النموذج (تقليل خسارة التوقع) يعاقب الصمت أكثر من التلفيق الواثق.

تشوهات الضغط. نموذج بـ 70 مليار أو حتى تريليون معامل لا يمكنه حفظ الإنترنت. يتعلم تمثيلات إحصائية مضغوطة لبيانات تدريبه. عندما يُطلب منه استرجاع حقائق محددة — تواريخ دقيقة، أرقام محددة، استشهادات صحيحة — يُدخل الضغط أخطاءً، مثل صورة JPEG مضغوطة بشدة تفقد التفاصيل.

المجاملة وضغط اتباع التعليمات. النماذج المُحسّنة بالتعلم المعزز من التغذية الراجعة البشرية (RLHF) مُحسّنة لإنتاج إجابات يفضلها المقيّمون البشريون. يفضل المقيّمون عمومًا الإجابات الواثقة والمفصلة والمفيدة على الإجابات المترددة أو غير المؤكدة أو الناقصة. هذا يخلق حافزًا للنماذج لتوليد إجابة ذات صوت حاسم حتى عندما تكون الإجابة الصحيحة “لست متأكدًا”.

حجم المشكلة في 2026

تحسنت معدلات الهلوسة بشكل ملحوظ منذ 2023، لكنها لا تزال مؤثرة في النشر المؤسسي:

الاستعلامات الوقائعية العامة: النماذج الرائدة (GPT-5، Claude Opus 4.6، Gemini 3.1 Pro) تهلوس في حوالي 3-8% من الأسئلة الوقائعية العامة في التقييمات المضبوطة. على المعايير المُوحدة مع التأسيس، تحقق أفضل النماذج مثل Gemini 2.0 Flash معدلات منخفضة تصل إلى 0.7-1.5%. لكن المعدلات تتفاوت بشكل هائل حسب نوع المهمة: الأسئلة القانونية لا تزال تشهد معدلات هلوسة 6%+ حتى من أفضل النماذج، ومهام الاستدلال المعقدة يمكن أن تنتج معدلات خطأ بنسبة 30-50%. التحسن منذ 2023 — عندما أظهر GPT-3.5 معدلات هلوسة قرب 40% وGPT-4 حوالي 29% — كبير لكنه غير متساوٍ.

التوليد الطويل: ترتفع معدلات الهلوسة بشكل كبير في المستندات الطويلة. تقرير مولّد بالذكاء الاصطناعي من 2,000 كلمة قد يحتوي على 2-5 أخطاء وقائعية غير مرئية دون مراجعة خبير.

توليد الاستشهادات والمراجع: رغم التحسينات، تظل النماذج غير موثوقة في توليد مراجع ببليوغرافية دقيقة. تحليل GPTZero لعروض ICLR 2026 وجد أكثر من 50 استشهادًا مُهلوسًا في حوالي 300 ورقة ممسوحة، بينما وجد مسح لأوراق NeurIPS 2025 المقبولة أكثر من 100 مرجع مُختلق من 4,841 ورقة. بشكل منفصل، حللت دراسة HalluCitation (يناير 2026) 300 ورقة مُهلوسة وُجدت في وقائع مؤتمرات ACL من 2024-2025. انخفضت معدلات اختلاق الاستشهادات بشكل كبير من أكثر من 40% في 2023، لكنها لا تزال مصدر قلق جدي.

الهلوسة الخاصة بالمجال: تهلوس النماذج بمعدلات أعلى في المجالات المتخصصة حيث بيانات التدريب شحيحة. هذا يؤثر بشكل غير متناسب على المستخدمين في المناطق واللغات الممثلة تمثيلاً ناقصًا في بيانات التدريب — بما في ذلك العربية، التي لا تزال ممثلة تمثيلاً ناقصًا بشكل كبير مقارنة بالإنجليزية.

تقنيات التخفيف: أحدث ما توصل إليه العلم

التوليد المعزز بالاسترجاع (RAG)

RAG هو تقنية تخفيف الهلوسات الأكثر انتشارًا في الذكاء الاصطناعي المؤسسي. بدلاً من الاعتماد فقط على الذاكرة المعاملية للنموذج، تسترجع أنظمة RAG مستندات ذات صلة من قاعدة معرفية موثقة وتقدمها كسياق لاستجابة النموذج. وُصفت البنية الأساسية من قبل Lewis et al. (2020) في NeurIPS 2020.

يقلل RAG الهلوسات بشكل كبير للأسئلة القابلة للإجابة من المجموعة الوثائقية. أظهرت التطبيقات تخفيضات بنسبة 40-70%، مع بعض عمليات النشر الإنتاجية التي تبلغ عن تحسينات أكبر — بما في ذلك نظام مؤسسي خفّض هلوسات المصادر من 10% إلى صفر فعليًا باستخدام واجهة برمجة التطبيقات (API) Citations من Anthropic. لكن RAG يقدم أنماط فشل خاصة به.

التأسيس والإسناد

تتطلب أنظمة التأسيس من النموذج الاستشهاد بمصادره صراحة. واجهة Gemini API من Google تدعم التأسيس بـ Google Search، بينما توفر واجهة Citations API من Claude (أُطلقت يناير 2025) إسناد المصادر على مستوى المستند.

الإسناد يُمكّن من التحقق: يمكن للمستخدم التحقق مما إذا كان المصدر المُستشهد به يدعم فعلاً الادعاء. هذا لا يمنع الهلوسة، لكنه يجعلها قابلة للكشف.

الذكاء الاصطناعي الدستوري وتحسين RLHF

نهج الذكاء الاصطناعي الدستوري (CAI) من Anthropic يدرّب النماذج على نقد ذاتي ومراجعة مخرجاتها بناءً على مجموعة من المبادئ، بما في ذلك الدقة الوقائعية.

سلسلة التفكير والتحقق الذاتي

حثّ النماذج على الاستدلال خطوة بخطوة ثم التحقق من استدلالها يقلل الهلوسة في المهام كثيفة الاستدلال. أنابيب التحقق الذاتي تذهب أبعد: بعد أن يولّد النموذج إجابة، تتحقق مرور ثانية من الاتساق الوقائعي والتناقضات الداخلية والادعاءات غير المدعومة.

المخرجات المهيكلة والتوليد المقيد

للمهام ذات تنسيق المخرجات المحدد جيدًا (JSON، SQL، التقارير المهيكلة)، تُجبر تقنيات التوليد المقيد النموذج على إنتاج مخرجات مطابقة لمخطط. هذا يُزيل فئة من الهلوسات حيث تخترع النماذج قيم حقول أو تولّد مخرجات غير صالحة نحويًا.

استجابة الصناعة: بنية الثقة التحتية

بعيدًا عن التخفيف التقني، تبني صناعة الذكاء الاصطناعي ما يمكن تسميته “بنية الثقة التحتية”:

المراجعة البشرية في الحلقة تظل المعيار الذهبي للتطبيقات الحساسة.

أنابيب التحقق الآلي من الحقائق تستخدم قواعد معرفية خارجية للتحقق تلقائيًا من الادعاءات. أدوات مثل FActScore تقدم تقييمًا ذريًا دقيقًا للدقة الوقائعية.

تسجيل الثقة يعيّن درجة موثوقية لكل ادعاء في استجابة الذكاء الاصطناعي.

مسارات التدقيق تسجل السياق الكامل لكل توليد — المدخل، المستندات المسترجعة، إصدار النموذج، والمخرج.

التقييم الصادق: الهلوسة لن “تُحل”

من المهم التصريح بوضوح: الهلوسة لن تُزال بالكامل من نماذج اللغة بهندستها الحالية. توقع الرمز التالي مع تمثيلات مضغوطة سينتج دائمًا بعض الأخطاء الوقائعية. الهدف ليس صفر هلوسات بل معدل هلوسة منخفض بما يكفي — ومعدل كشف مرتفع بما يكفي — لكي يمكن الوثوق بأنظمة الذكاء الاصطناعي ضمن حدود محددة.

نماذج 2026 أكثر موثوقية بشكل كبير من نماذج 2023. أنابيب RAG + الإسناد + التحقق الذاتي يمكنها دفع معدلات الهلوسة إلى أقل من 1% لحالات الاستخدام المحددة جيدًا. لكن الذيل الطويل من الحالات الحدية والاستعلامات النادرة والمدخلات العدائية سيستمر في إنتاج إخفاقات.

المؤسسات التي تنجح مع الذكاء الاصطناعي في 2026 هي تلك التي تصمم مع وجود الهلوسات في الاعتبار — بطبقات تحقق ونقاط مراجعة بشرية ومسارات تصعيد واضحة — بدلاً من تلك التي تفترض أن مخرجات الذكاء الاصطناعي جديرة بالثقة بطبيعتها.

🧭 رادار القرار (عدسة الجزائر)

البُعد	التقييم
الصلة بالجزائر	عالية جدًا — أي مؤسسة أو هيئة حكومية أو شركة ناشئة جزائرية تنشر نماذج لغة كبيرة ستواجه مخاطر الهلوسة؛ معدلات هلوسة العربية أعلى من الإنجليزية بسبب نقص التمثيل في بيانات التدريب
البنية التحتية جاهزة؟	جزئيًا — أنظمة RAG تتطلب قواعد بيانات متجهية وبنية معالجة وثائق لم تنشرها معظم المؤسسات الجزائرية بعد
المهارات متوفرة؟	محدودة — بناء أنابيب RAG وأطر التقييم وعمليات المراجعة البشرية يتطلب مواهب متخصصة في هندسة تعلم الآلة لا تزال نادرة في الجزائر
جدول العمل	فوري — المؤسسات التي تنشر الذكاء الاصطناعي اليوم يجب أن تطبق تخفيف الهلوسات الآن
أصحاب المصلحة الرئيسيون	مدراء التكنولوجيا، فرق التحول الرقمي الحكومية، معلوماتيو الصحة، الفرق القانونية التقنية، مؤسسو شركات الذكاء الاصطناعي الناشئة
نوع القرار	تشغيلي + إدارة مخاطر — تخفيف الهلوسات قرار هندسي وعملياتي ملموس

خلاصة سريعة: الهلوسة ليست خطرًا نظريًا للجزائر — إنها مصدر قلق تشغيلي فوري لأي مؤسسة تستخدم نماذج اللغة الكبيرة. المحتوى بالعربية والفرنسية ممثل تمثيلاً ناقصًا في بيانات التدريب، مما يعني أن معدلات الهلوسة لحالات الاستخدام الجزائرية أعلى على الأرجح من المعدلات المُعلنة من قبل مزودي النماذج. أي نشر للذكاء الاصطناعي في الجزائر يجب أن يتضمن تأسيس RAG بقواعد معرفية محلية، ومراجعة بشرية للمخرجات الحساسة، وتسجيل ثقة صريح. أسوأ نهج هو الثقة بمخرجات الذكاء الاصطناعي على حالها — أفضل نهج هو تصميم أنظمة تفترض أن الذكاء الاصطناعي سيخطئ أحيانًا ودمج التحقق في سير العمل.

ثقة المخطئ الواثق من نفسه

لماذا تهلوس نماذج اللغة الكبيرة؟ مشكلة البنية الأساسية

حجم المشكلة في 2026

تقنيات التخفيف: أحدث ما توصل إليه العلم

التوليد المعزز بالاسترجاع (RAG)

التأسيس والإسناد

الذكاء الاصطناعي الدستوري وتحسين RLHF

سلسلة التفكير والتحقق الذاتي

المخرجات المهيكلة والتوليد المقيد

استجابة الصناعة: بنية الثقة التحتية

التقييم الصادق: الهلوسة لن “تُحل”

🧭 رادار القرار (عدسة الجزائر)

المصادر والقراءات الإضافية

Leave a Comment إلغاء الرد

الأحدث

الاقتصاد الرقمي

بعد رحيل Jumia: من سيفوز بسوق التجارة الإلكترونية في الجزائر؟

السياسة والتنظيم

التحقق من العمر عبر الإنترنت: الدفع العالمي لإثبات أنك كبير بما يكفي لاستخدام الإنترنت

السياسة والتنظيم

قوانين الوصول الرقمي: كيف تعيد معايير WCAG وقانون الوصول الأوروبي تشكيل الويب

الذكاء الاصطناعي والأتمتة

الذكاء الاصطناعي على الحدود: كيف تتحول أنظمة الجمارك والموانئ الجزائرية إلى الرقمية

المهارات والمسارات المهنية

حزمة المطور الجزائري: ما اللغات والأطر والأدوات التي يستخدمها المطورون الجزائريون فعلاً في 2026