ما وراء النص: ثورة الذكاء الاصطناعي متعدد الوسائط في 2026

المقدمة

كان النموذج الذهني السائد للذكاء الاصطناعي في 2023 هو: نص يدخل، نص يخرج. بحلول 2026، أصبح هذا النموذج متجاوَزاً. أنظمة الذكاء الاصطناعي الرائدة اليوم تقرأ الصور وتشاهد مقاطع الفيديو وتستمع إلى الصوت وتحلل المستندات وجداول البيانات وتفسّر الفحوصات الطبية، بل وتولّد محتوى عبر كل هذه الوسائط في آنٍ واحد. الذكاء الاصطناعي متعدد الوسائط (Multimodal AI) — أي الأنظمة التي تعمل عبر النص والرؤية والصوت والفيديو — انتقل من عرض تقني مبهر إلى بنية تحتية صناعية في أقل من ثلاث سنوات.

تمتد التداعيات عبر كل القطاعات تقريباً. مهندس إنشائي يرفع لقطات من طائرة مسيّرة لجسر فيحصل على تحليل هيكلي. مدير لوجستي يصوّر بوليصة شحن فتُدخَل تلقائياً في نظام تخطيط الموارد (ERP). طالب يصوّر مسألة رياضيات مكتوبة بخط اليد فيحصل على حل مفصّل خطوة بخطوة. الفجوة بين ما يستطيع البشر إدراكه وما يستطيع الذكاء الاصطناعي معالجته تقلّصت بشكل كبير، ويُقدَّر حجم سوق الذكاء الاصطناعي متعدد الوسائط بنحو 3.4 إلى 3.9 مليار دولار في 2026، بمعدل نمو سنوي يتراوح بين 28% و35%.

كيف تعمل النماذج متعددة الوسائط

تجمع أنظمة الذكاء الاصطناعي متعدد الوسائط الحديثة بين عدة مكونات تقنية.

مشفّرات الرؤية (Vision Encoders) تعالج الصور وإطارات الفيديو، وتحوّل مصفوفات البكسل إلى تمثيلات عالية الأبعاد تلتقط الأجسام والعلاقات المكانية والنصوص داخل الصور وسياق المشهد. كان الابتكار التأسيسي هو نموذج CLIP (التدريب التبايني بين اللغة والصورة) من OpenAI عام 2021، الذي تعلّم ربط الصور بأوصافها النصية من خلال التدريب على 400 مليون زوج صورة-نص. مشفّرات الرؤية اليوم أكثر قدرة بمراحل.

مشفّرات الصوت (Audio Encoders) تعالج الكلام والموسيقى والأصوات البيئية. نموذج Whisper من OpenAI أثبت أن نظاماً واحداً يمكنه نسخ الصوت في 99 لغة بدقة تقارب الأداء البشري في اللغات الغنية بالموارد، بعد تدريبه على 680,000 ساعة من البيانات متعددة اللغات.

دمج الوسائط (Modality Fusion) هو التحدي التقني الأصعب: الجمع بين تمثيلات من أنواع بيانات مختلفة جوهرياً — مصفوفات بكسل، وموجات صوتية، وتسلسلات رموز — في تمثيل موحّد يستطيع نموذج لغوي التفكير عبره. تشمل المقاربات الحالية آليات الانتباه المتقاطع (Cross-Attention) وفضاءات التضمين المشتركة (Shared Embedding Spaces).

التوليد الموحّد (Unified Generation) يتيح للنماذج إنتاج مخرجات بأي وسيط — توليد نص أو صور أو صوت أو فيديو استجابةً لمدخلات من أي تركيبة من المصادر. في 2025-2026، برز التوليد الصوتي الأصلي كتطور محوري، حيث أصبحت نماذج متعددة تولّد الكلام مباشرة بدلاً من الاعتماد على أنظمة تحويل النص إلى كلام منفصلة.

النماذج الرائدة في 2026

GPT-5 وGPT-4o: أُطلق GPT-5 من OpenAI في أغسطس 2025، وهو متعدد الوسائط أصلاً منذ مرحلة التدريب، ويحقق 84.2% على معيار MMMU. سلفه GPT-4o وضع المعيار للتفاعل متعدد الوسائط في الزمن الحقيقي، إذ يستجيب للمدخلات الصوتية بزمن وسطي يبلغ 320 ميلي ثانية — أسرع بنحو 16 مرة من خط أنابيب الصوت السابق في GPT-4 Turbo. يستطيع GPT-4o تفسير نبرة الصوت وتعبيرات الوجه من الفيديو، رغم أن التعرف على المشاعر بالذكاء الاصطناعي من البيانات المرئية لا يزال محل خلاف بين الباحثين.

Gemini 3 / 3.1 Pro: صُمّمت سلسلة Gemini من Google لتكون متعددة الوسائط أصلاً من مستوى البنية المعمارية. أُصدر Gemini 3 Pro في نوفمبر 2025، ويحقق 81% على MMMU-Pro و87.6% على Video-MMMU، مع قدرات فهم الفيديو في الزمن الحقيقي. قدّم Gemini 2.5 Pro نافذة سياق بمليون رمز ومخرجات صوتية أصلية، ودفع Gemini 3.1 Pro الأداء إلى مستويات أعلى.

Claude 4 / Opus 4.6: تقدّم نماذج Claude من Anthropic قدرات قوية في الرؤية وتحليل المستندات واستخدام الحاسوب — مما يتيح سير عمل وكيلي (Agentic) حيث يدرك الذكاء الاصطناعي الشاشات ويتخذ إجراءات بشكل مستقل.

النماذج مفتوحة المصدر متعددة الوسائط: أنتج النظام البيئي مفتوح المصدر بدائل قوية. Qwen3-VL من Alibaba، ونماذج الرؤية LLaMA 3.2 من Meta (بحجم 11 و90 مليار معلَمة) والأحدث LLaMA 4 (بمتغيري Scout وMaverick)، وPhi-4 من Microsoft للأجهزة الطرفية — جميعها يمكن نشرها محلياً دون الاعتماد على واجهات برمجة تطبيقات تجارية.

الرعاية الصحية: حيث يُحدث الذكاء الاصطناعي متعدد الوسائط أعمق أثر

تأتي أوضح الأدلة على التأثير الواقعي للذكاء الاصطناعي متعدد الوسائط من مجال التصوير الطبي.

شهد علم الأشعة تحولاً جذرياً. أنظمة الذكاء الاصطناعي تقرأ صور الأشعة السينية للصدر والتصوير المقطعي والتصوير بالرنين المغناطيسي وشرائح الأنسجة بدقة تعادل أو تتفوق على أطباء الأشعة المتخصصين في مهام فحص محددة. حقق نموذج Med-PaLM 2 من Google نسبة 86.5% على أسئلة بأسلوب USMLE، وهو ما وُصف بأداء على مستوى الخبراء في الاستدلال الطبي النصي. أما في المهام الطبية متعددة الوسائط، فقد حسّنت نماذج Med-Gemini من Google الأداء بنسبة 44.5% مقارنة بـ GPT-4V عبر سبعة معايير طبية متعددة الوسائط، محققةً 91.1% على MedQA. في المقابل، وجدت دراسة نُشرت عام 2025 في مجلة Radiology أن الفحص بالذكاء الاصطناعي لتصوير الثدي لا يزال يفوّت 14% من حالات السرطان، مما يؤكد أن الذكاء الاصطناعي يعزّز حكم أطباء الأشعة ولا يحل محله.

يُعدّ طب العيون مجالاً آخر يشهد تقدماً سريعاً. أثبتت دراسة من Google Research نُشرت عام 2018 في Nature Biomedical Engineering أن الذكاء الاصطناعي الذي يحلل صور شبكية العين يمكنه التنبؤ بمؤشرات صحية جهازية — ضغط الدم والعمر والجنس وحالة التدخين ومخاطر أمراض القلب — من بيانات 284,335 مريضاً. كانت هذه معلومات لم يكن معروفاً سابقاً أنه يمكن استخلاصها من فحوصات العين وحدها.

يوسّع الذكاء الاصطناعي في طب الجلدية إمكانية الوصول في البيئات محدودة الموارد. تُظهر المراجعات المنهجية للذكاء الاصطناعي في طب الجلدية في البلدان منخفضة ومتوسطة الدخل دقة تشخيصية واعدة، لكن الأداء يبقى غير متسق عبر درجات ألوان البشرة المختلفة — وهو قيد حاسم للنشر العالمي.

تطبيقات التصنيع والصناعة

في قطاع التصنيع، يمكّن الذكاء الاصطناعي متعدد الوسائط من أنظمة مراقبة الجودة التي كانت تتطلب سابقاً فحصاً بشرياً ماهراً.

كانت أنظمة الرؤية الآلية التقليدية هشّة — تستطيع اكتشاف أنواع محددة من العيوب التي دُرّبت عليها لكنها تفشل أمام عيوب جديدة أو تغيرات بيئية. أنظمة الذكاء الاصطناعي متعدد الوسائط الحديثة يمكن إعادة تدريبها بعرض أمثلة ووصف العيوب بلغة طبيعية، بدلاً من أسابيع من بناء مجموعات بيانات موسومة.

يجمع نموذج GR00T N1 من NVIDIA، وهو أول نموذج أساسي مفتوح للروبوتات البشرية في العالم، بين الإدراك متعدد الوسائط والتحكم الروبوتي باستخدام بنية ثنائية النظام — تفكير تفاعلي سريع مقترن باستدلال بصري-لغوي مدروس. الروبوتات المدعومة بمنصة Project GR00T تفهم التعليمات بالغة الطبيعية وتفحص عملها بصرياً وتتكيف مع المواقف الجديدة.

تنشر شركات التصنيع الكبرى هذه القدرات. أصبح مصنع BMW في Regensburg أول مصنع سيارات يستخدم الفحص البصري الآلي المدعوم بالذكاء الاصطناعي في 2023، مسجلاً انخفاضاً في العيوب يصل إلى 60% باستخدام نماذج مدرّبة على نحو 100 صورة حقيقية لكل خاصية. وتستخدم TSMC التعلم العميق لاكتشاف عيوب الرقائق بدقة 95% في مصنع التغليف الذكي.

الصناعات الإبداعية وساحة معركة حقوق النشر

لعل المجال الأكثر إثارة للجدل في الذكاء الاصطناعي متعدد الوسائط هو العمل الإبداعي. أدوات توليد الصور (DALL-E وMidjourney وStable Diffusion) وتوليد الموسيقى (Udio وSuno) وتوليد الفيديو وضعت أدوات الذكاء الاصطناعي الإبداعية في متناول أي شخص يملك متصفحاً — وتسارعت القدرات بشكل حاد في 2025.

قدّم Sora 2 من OpenAI (سبتمبر 2025) توليد صوت متزامن. يولّد Veo 3 من Google (مايو 2025) فيديو بحوار متزامن ومؤثرات صوتية وأصوات محيطية بدقة 4K. دفع Gen-4.5 من Runway تقييم الشركة إلى ما يتجاوز 3 مليارات دولار.

الجدل حول حقوق النشر حاد بالقدر نفسه. رفعت RIAA دعاوى قضائية تاريخية ضد Suno وUdio في يونيو 2024 نيابة عن Sony وUMG وWarner. توصلت Udio منذ ذلك الحين إلى تسوية مع UMG وWarner بشروط سرية، بينما لا تزال قضية Suno قائمة. يبقى المشهد القانوني لحقوق النشر في المحتوى المولّد بالذكاء الاصطناعي غير محسوم عبر مختلف الولايات القضائية.

مشكلة التزييف العميق

أخطر تطبيقات الذكاء الاصطناعي متعدد الوسائط حالياً هو إنتاج وسائط اصطناعية مقنعة على نطاق واسع وبتكلفة منخفضة.

في مطلع 2024، خُدع موظف في مكتب Arup في هونغ كونغ لتحويل ما يقارب 25.6 مليون دولار (200 مليون دولار هونغ كونغي) بعد مكالمة فيديو كان فيها كل مشارك — وليس المدير المالي المزعوم فقط — تزييفاً عميقاً مولّداً من فيديوهات متاحة للعموم. نُشرت تزييفات عميقة سياسية في انتخابات عبر دول متعددة. وتُستخدم تزييفات المشاهير كسلاح في صور حميمية غير توافقية وعمليات احتيال استثمارية.

تتقدم جهود الكشف وإثبات المصدر. تضم مبادرة أصالة المحتوى (Content Authenticity Initiative)، التي أسستها Adobe عام 2019، الآن Nikon وCanon وSony وMicrosoft وBBC وReuters، وتعمل على تضمين توقيعات تشفيرية لإثبات مصدر الوسائط عبر معيار C2PA تحت مظلة Linux Foundation. لكن النشر لا يزال بطيئاً.

التنظيم يلحق بالركب. تُلزم المادة 50 من قانون الذكاء الاصطناعي الأوروبي مزوّدي الخدمات بتمييز المحتوى المولّد بالذكاء الاصطناعي بتنسيق قابل للقراءة آلياً، ومنشريه بوسم التزييفات العميقة — رغم أن أحكام الشفافية هذه لن تدخل حيز التنفيذ إلا في أغسطس 2026. سنّت عدة ولايات أمريكية قوانين بشأن التزييف العميق. وتشترط الصين وسم التزييف العميق. يبقى التطبيق عبر الإنترنت العالمي هو المشكلة الصعبة.

الخلاصة

انتقل الذكاء الاصطناعي متعدد الوسائط من قدرة مبهرة إلى بنية تحتية عملية. التطبيقات التي تحوّل الرعاية الصحية والتصنيع والصناعات الإبداعية هي عمليات نشر حالية بنتائج قابلة للقياس. والتحديات — التزييف العميق وحقوق النشر والمسؤولية القانونية والأطر التنظيمية — حالية وملحّة بالقدر نفسه.

المؤسسات التي تطوّر استراتيجيات لدمج الذكاء الاصطناعي متعدد الوسائط في عملياتها — وأطر الحوكمة للقيام بذلك بمسؤولية — ستحظى بمزايا هيكلية في التكلفة والسرعة والجودة تتراكم مع الوقت. السؤال لم يعد ما إذا كان ينبغي التعامل مع الذكاء الاصطناعي متعدد الوسائط، بل كيف، وبأي قدر من الحكمة.

رادار القرار (منظور جزائري)

البُعد	التقييم
الأهمية بالنسبة للجزائر	عالية — السكان متعددو اللغات (العربية والفرنسية والأمازيغية والدارجة) يجعلون الذكاء الاصطناعي الصوتي والبصري ذا تأثير خاص في سد فجوات حواجز اللغة ومحو الأمية الرقمية
جاهزية البنية التحتية؟	جزئية — انتشار الإنترنت عبر الهاتف المحمول واسع ومتنامٍ، لكن قدرات الحوسبة المحلية بوحدات GPU ضئيلة واعتماد الحوسبة السحابية لا يزال منخفضاً؛ معظم أحمال العمل متعددة الوسائط ستعتمد على مزوّدي واجهات برمجة تطبيقات أجانب
المهارات المتوفرة؟	جزئية — يوجد باحثون في الرؤية الحاسوبية ومعالجة اللغة الطبيعية في USTHB وESI وCERIST، لكن مجمع المواهب صغير؛ نشر النماذج متعددة الوسائط وضبطها على نطاق واسع يتطلب خبرة لا تزال الجزائر تبنيها
الإطار الزمني للتحرك	6-12 شهراً — التشخيص الطبي (الأشعة، طب العيون، طب الجلدية) والواجهات الصوتية للخدمات العامة فرص قريبة المدى؛ الروبوتات الصناعية وتوليد الفيديو أفق أبعد
أصحاب المصلحة الرئيسيون	وزارة الصحة وشبكات المستشفيات، شركات الاتصالات (Djezzy وMobilis وOoredoo)، مختبرات الذكاء الاصطناعي الجامعية، الشركات الناشئة العاملة في معالجة اللغة العربية والدارجة، هيئات الأمن والدفاع الوطني
نوع القرار	استراتيجي — الذكاء الاصطناعي متعدد الوسائط ليس منتجاً واحداً للاعتماد بل تحوّل منصّاتي يتطلب قرارات استثمارية في البنية التحتية والمواهب والأطر التنظيمية

الخلاصة السريعة: الذكاء الاصطناعي متعدد الوسائط ملائم بشكل استثنائي للسياق الجزائري. يمكن لتحويل الكلام إلى نص والواجهات الصوتية الوصول إلى شرائح سكانية أكثر راحة مع الدارجة المحكية من الفرنسية المكتوبة أو العربية الرسمية، بينما يمكن لذكاء التصوير الطبي المساعدة في معالجة نقص الأطباء في الولايات الريفية. الأولوية هي بناء استراتيجيات الوصول إلى واجهات برمجة التطبيقات وقدرات الضبط الدقيق المحلي بدلاً من انتظار بنية تحتية محلية كاملة.

المقدمة

كيف تعمل النماذج متعددة الوسائط

النماذج الرائدة في 2026

الرعاية الصحية: حيث يُحدث الذكاء الاصطناعي متعدد الوسائط أعمق أثر

تطبيقات التصنيع والصناعة

الصناعات الإبداعية وساحة معركة حقوق النشر

مشكلة التزييف العميق

الخلاصة

رادار القرار (منظور جزائري)

رادار القرار (منظور جزائري)

المصادر

Leave a Comment إلغاء الرد

الأحدث

الاقتصاد الرقمي

الجزائر الرقمية 2030: 500 مشروع و500 ألف وظيفة — تقييم واقعي

الشركات الناشئة

من الصحراء إلى الرفوف: الشركات الناشئة التي تبني منظومة تقنية تصدير المنتجات الزراعية في الجزائر

الشركات الناشئة

ما وراء FarmAI: مشهد الشركات الناشئة في تقنيات الزراعة بوهران وقسنطينة وتلمسان

الاقتصاد الرقمي

اقتصاد متاجر Facebook: كيف يبيع الجزائريون مليارات الدينارات بشكل غير رسمي عبر الإنترنت

الاقتصاد الرقمي

Netflix وSpotify ومشكلة الدينار الجزائري