NVIDIA Cosmos 3: النموذج المفتوح للذكاء الاصطناعي الفيزيائي

نُشر في يونيو 30, 2026 · بواسطة ALGERIATECH Editorial

⚡ أبرز النقاط

أطلقت NVIDIA نموذج Cosmos 3 في الأول من يونيو 2026 خلال معرض COMPUTEX في تايبيه — أول نموذج شامل (omnimodel) مفتوح بالكامل للذكاء الاصطناعي الفيزيائي. مُدرَّب على 20 تريليون رمز متعدد الوسائط، يدمج الاستدلال البصري وتوليد العوالم والتنبؤ بالإجراءات في بنية معمارية واحدة. يُقلّص النموذج دورات تدريب الذكاء الاصطناعي الفيزيائي من أشهر إلى أيام، ومتاح بثلاث متغيرات (Super وNano وEdge) تحت رخصة OpenMDW 1.1 المفتوحة. أطلقت NVIDIA في الوقت ذاته Cosmos Coalition مع ستة شركاء مؤسسين لبناء نظام بيئي مفتوح حول النموذج.

الخلاصة: ينبغي لفرق الذكاء الاصطناعي والروبوتات تقييم Cosmos 3 Nano لمهام الرؤية خلال هذا الربع وتجربة Cosmos 3 Super لتوليد بيانات التدريب الاصطناعية قبل الالتزام بمنصات المحاكاة التقليدية.

اقرأ التحليل الكامل ↓

🧭 رادار القرار

الأهمية بالنسبة للجزائر
متوسطة
▾

تخطيط الجزائر لأتمتة صناعية (قطاع الهيدروكربونات والتصنيع والمدن الذكية) يُنشئ طلباً مباشراً على أدوات الذكاء الاصطناعي الفيزيائي؛ يتطابق نموذج استخدام Linker Vision لكاميرات المدن مباشرةً مع أولويات تحديث البنية التحتية الحضرية في الجزائر

البنية التحتية جاهزة؟
جزئياً
▾

حوسبة GPU عبر NVIDIA NIM متاحة في السحابة اليوم؛ مجموعات GPU المحلية لأحمال عمل Cosmos 3 Super محدودة؛ قد يُخفّض Cosmos 3 Edge (الاستدلال المدمج) الحاجز المادي حين يُطلق

المهارات متاحة؟
جزئياً
▾

مجتمعات التعلم الآلي والرؤية الحاسوبية الجزائرية موجودة، لكن التخصص في الذكاء الاصطناعي الفيزيائي (الروبوتات ومحاكاة المركبات ذاتية القيادة) في طور النشأة؛ شراكة مع مؤسسات كـ USTHB وESI يمكن أن تُسرّع تطوير المهارات

الجدول الزمني للعمل
12-24 شهراً
▾

Assessment: 12-24 شهراً. Review the full article for detailed context and recommendations.

أصحاب المصلحة الرئيسيون
وزارة الصناعة، CERIST، وحدة التحوّل الرقمي في Sonatrach، مبادرات المدينة الذكية التابعة لوزارة الداخلية، مختبرات الروبوتات الجامعية

نوع القرار
استراتيجي
▾

Assessment: استراتيجي. Review the full article for detailed context and recommendations.

خلاصة سريعة: تتيح الأوزان المفتوحة لـ Cosmos 3 ونشره عبر السحابة من خلال NIM لفرق الذكاء الاصطناعي الجزائرية تجربة قدرات النموذج العالمي اليوم دون استثمار مادي ضخم. تكمن القيمة الأكثر إلحاحاً للجزائر في تحليل فيديو المدن الذكية (تطابق مباشر مع نموذج استخدام Linker Vision) وفحص الصناعة في قطاع الهيدروكربونات. ينبغي لصانعي القرار والقيادة التقنية الجزائريين أن يعدّوا هذا الإطلاق إشارة لتسريع رفع المهارات في الذكاء الاصطناعي الفيزيائي — النموذج التأسيسي متاح الآن بصورة مفتوحة؛ القيد هو المواهب والبشر وتحديد حالات الاستخدام.

في الأول من يونيو 2026، خلال معرض COMPUTEX في تايبيه، قدّم الرئيس التنفيذي لشركة NVIDIA جنسن هوانج نموذج Cosmos 3 — وهو نموذج شامل (omnimodel) مفتوح بالكامل تصفه الشركة بأنه “النموذج التأسيسي المفتوح للذكاء الاصطناعي الفيزيائي”. لا تكتسب هذه الإعلان أهميته لكون NVIDIA تطرح نموذجاً كبيراً جديداً، بل لأن Cosmos 3 يحقق شيئاً مبتكراً على مستوى البنية المعمارية: إذ يجمع الاستدلال البصري وتوليد العوالم والتنبؤ بالإجراءات في نظام واحد مُدرَّب على 20 تريليون رمز (token) من البيانات متعددة الوسائط، تشمل ما يقارب مليار صورة و400 مليون مقطع فيديو حقيقي واصطناعي. أمضى الباحثون في مجال الذكاء الاصطناعي الفيزيائي المعنيون بالروبوتات والمركبات ذاتية القيادة سنوات في تجميع خطوط معالجة (pipelines) من مكونات منفصلة للإدراك والمحاكاة والتخطيط. يُضغط Cosmos 3 هذا الخط بأكمله في نموذج واحد.

العائد العملي لافت. وفقاً لـ NVIDIA، يُقلّص Cosmos 3 دورات تدريب وتقييم الذكاء الاصطناعي الفيزيائي من أشهر إلى أيام. بالنسبة للفرق التي تبني الروبوتات ذاتية الحركة أو أنظمة القيادة الذاتية، هذا ليس تحسيناً تدريجياً — بل تحوّل جذري في اقتصاديات وسرعة التطوير. يتحقق النموذج من ذلك عبر توليد بيانات اصطناعية ذات مصداقية فيزيائية على نطاق واسع: زوايا المفاصل، وأوضاع القابض، ونقاط المسار، وتسلسلات الفيديو الكاملة التي يمكن للروبوتات والمركبات استخدامها في مرحلة ما بعد التدريب، دون تكاليف ومخاطر جمع البيانات الحقيقية المماثلة.

يُوزَّع Cosmos 3 تحت رخصة OpenMDW 1.1 من مؤسسة Linux ومتاح فوراً عبر build.nvidia.com وHugging Face وGitHub، قابلاً للنشر بوصفه microservices ضمن منظومة NVIDIA NIM. أطلقت NVIDIA في الوقت ذاته Cosmos Coalition — اتحاد يضم Agile Robots وBlack Forest Labs وGeneralist وLTX وRunway وSkild AI — لبناء نظام بيئي من النماذج العالمية المفتوحة على هذا الأساس.

ما الذي يفعله Cosmos 3 فعلياً

يُفهم Cosmos 3 على أفضل وجه باعتباره ثلاث قدرات مُدمجة في بنية معمارية واحدة من نوع mixture-of-transformers. تجمع هذه البنية بين كتلة استدلال وكتلة توليد: تُفسّر كتلة الاستدلال المشاهد وتستوعب السياق متعدد الوسائط، في حين تُنتج كتلة التوليد مخرجات مرسّخة فيزيائياً.

الاستدلال البصري هو قدرة النموذج على فهم الفيديو والصور والنص والصوت المحيطي في آنٍ واحد. يستطيع Cosmos 3 تحليل بثوث الكاميرا الحية، وتوليد تعليقات وصفية كثيفة تصف هندسة المشهد، واستنتاج النية من تسلسلات الأفعال، والإجابة عن أسئلة تتعلق بالبيئات الفيزيائية. في تقييمات المعيار (benchmark)، احتل المرتبة الأولى بين النماذج المفتوحة على VANTAGE-Bench (فهم مشاهد البنية التحتية الذكية) ويتصدّر تحدي TAR لاستدلال شذوذات حركة المرور. تستخدم Linker Vision، الشريك في Cosmos Coalition، هذه القدرة بالفعل لمراقبة آلاف بثوث كاميرات المدن في آنٍ واحد لتحليل البنية التحتية.

توليد العوالم هو القدرة على إنشاء تسلسلات فيديو واقعية الصورة ومعقولة فيزيائياً — لا بوصفها محتوى إبداعياً، بل بوصفها بيانات تدريب. يستطيع Cosmos 3 تركيب الحالات الحدّية وسيناريوهات التصادم والأحوال البيئية النادرة التي يصعب أو يستحيل التقاطها في العالم الحقيقي. يحتل المرتبة الأولى على Physics-IQ وR-Bench وPAI-Bench — وهي المعايير الرئيسية للواقعية الفيزيائية في الفيديو الاصطناعي. بالنسبة لفرق المركبات ذاتية القيادة، يعني هذا توليد “الحالات الذيلية” النادرة — هندسات التقاطعات غير المألوفة، وسلوك المشاة غير المتوقع، وأحوال الطقس القصوى — التي تعجز أدوات المحاكاة التقليدية عن تمثيلها بصورة واقعية.

التنبؤ بالإجراءات هو القدرة الأحدث والأكثر أهمية على الأرجح. يولّد Cosmos 3 بيانات إجراءات رقمية أصلية: ليس مجرد فيديو أو أوصاف لما ينبغي للروبوت فعله، بل زوايا المفاصل الفعلية وأوضاع القابض ونقاط مسار الحركة التي يحتاجها ذراع الروبوت أو المنصة المتنقلة لتنفيذ مهمة. تستخدم Agile Robots، الشريك في Cosmos Coalition، هذه القدرة مع روبوتاتها الإنسانية الشكل Thor 3 وFR3 لإنشاء مسارات متنوعة لمهام الأتمتة الصناعية على نطاق واسع — مما يُمكّن من التعامل الدقيق دون الحاجة إلى إثبات بشري مُستفيض.

Cosmos 3 في المشهد التنافسي

اجتذب الذكاء الاصطناعي الفيزيائي استثمارات جادة في مختلف أنحاء الصناعة، لكن معظم النهج أبقت المحاكاة والرؤية وتعلّم السياسات أنظمة منفصلة. ما يجعل Cosmos 3 ذا أهمية معمارية هو الجمع بين الانفتاح والشمولية متعددة الوسائط على هذا النطاق.

التدريب على 20 تريليون رمز من بيانات متعددة الوسائط — بما يشمل الصوت المحيطي جنباً إلى جنب مع الفيديو وبيانات الإجراءات — يمنح Cosmos 3 تأسيساً فيزيائياً لا تستطيع النماذج التأسيسية القائمة على النص أو الصورة وحدهما مجاراته في البيئات الفيزيائية. الصوت إشارة فيزيائية حقيقية: صرير المفصل المُحاذاة بصورة خاطئة، والتحوّل في التردد المحيطي لبيئة متغيرة، وإشارات الصوت التي تنبّه النظام المستقل بوقوع تغيير خارج نطاق الكاميرا. إدراج الصوت في توزيع التدريب خيار تصميمي هادئ لكنه ذو مغزى بالغ.

تعكس استراتيجية الإصدار بثلاثة أشكال متغيرة واقعيات نشر فعلية. Cosmos 3 Super مُحسَّن لأعلى دقة فيزيائية في سير عمل ما بعد تدريب الروبوتات والمركبات ذاتية القيادة — الإصدار الذي تستخدمه الفرق لتوليد مجموعات بيانات تدريب اصطناعية. Cosmos 3 Nano مُضبَّط للاستدلال عالي الجودة على الفيديو والإجراءات في أجزاء من الثانية — الإصدار الذي يمكنه تشغيل الاستدلال بسرعة كافية للمساعدة في التشغيل الحي للروبوت. أما Cosmos 3 Edge، المُعلَن عن قدومه قريباً، فيستهدف الاستدلال الفوري على الأجهزة المدمجة.

Cosmos Coalition هو ردّ NVIDIA على تحدي النظام البيئي. النماذج التأسيسية لا تكون مفيدة إلا بقدر ما هي مفيدة أدوات الضبط الدقيق والنشر والتكامل المبنية حولها. بإطلاق المنظومة مع ستة شركاء — من بينهم متخصصون في توليد الفيديو (Black Forest Labs وLTX وRunway)، ومتخصصون في تدريب الروبوتات (Agile Robots وSkild AI وGeneralist) — تُرسّخ NVIDIA ما يعادل متجر تطبيقات في عالم النماذج المفتوحة قبل أن يتمكن المنافسون من ذلك.

رخصة OpenMDW 1.1 مهمة من الناحية التجارية. توفّر مساراً وسطاً: أوزان مفتوحة بشروط تجارية واضحة. بالنسبة لفرق المؤسسات التي تبني منتجات ذكاء اصطناعي فيزيائي، يُقلّص هذا الوضوح القانوني من المخاطر التشريعية للبناء على Cosmos 3 مقارنةً بالنماذج ذات الشروط الأقل وضوحاً.

ما ينبغي لمهندسي الذكاء الاصطناعي وفرق المنتجات فعله

1. تقييم Cosmos 3 Nano لمهام الرؤية واللغة في بنيتك الحالية

نقطة الدخول الأقل تعقيداً هي Cosmos 3 Nano عبر microservices NVIDIA NIM على build.nvidia.com. ينبغي للفرق التي تُشغّل مهام رؤية بالفعل — فحص الجودة وتحليل الفيديو وفهم المشاهد — أن تُقارن Cosmos 3 Nano بنماذجها الحالية خلال هذا الربع. تشير التصنيفات الأولى على VANTAGE-Bench وTAR إلى أنه سيتفوق على معظم نماذج اللغة-الرؤية (VLMs) المفتوحة الحالية في فهم البيئات الفيزيائية. هذا تبادل عملي يستحق القياس، لا استثماراً نظرياً مستقبلياً.

2. إطلاق تجربة توليد البيانات الاصطناعية لأصعب حالاتك الحدّية

إذا كانت فرقتك تُدرّب نماذج إدراك أو سياسة ولديها تراكم من سيناريوهات “ليس لدينا بيانات كافية للحالة X”، فإن قدرة توليد العوالم في Cosmos 3 Super تستحق تجربة منهجية. حدّد ثلاثة إلى خمسة سيناريوهات محددة مُمثَّلة تمثيلاً ناقصاً في توزيع تدريبك، وولّد فيديو اصطناعياً باستخدام Cosmos 3 Super، وقِس الأثر المتتالي على أداء النموذج. هذه العملية — تحديد الثغرة، وتوليد البيانات الاصطناعية، وقياس النقل — هي بالضبط سير العمل الذي صمّمت NVIDIA Cosmos 3 من أجله.

3. تتبّع خارطة طريق Cosmos Coalition قبل الالتزام بمنصات محاكاة منافسة

إذا كانت مؤسستك تُقيّم أو تجدّد عقوداً لمنصات محاكاة (محاكيات روبوتية، بيئات اختبار للمركبات ذاتية القيادة)، فأخّر القرارات النهائية حتى الربع الثالث من 2026 حين يُطلق Cosmos 3 Edge ويُصدر شركاء Cosmos Coalition تكاملاتهم الأولية. يشير الجمع بين الأوزان المفتوحة والنشر عبر NIM وشركاء النظام البيئي الملتزمين إلى أن التكلفة الإجمالية لتوليد البيانات الاصطناعية عبر Cosmos 3 ستكون أقل من رسوم ترخيص المحاكاة التقليدية في معظم الفئات. الانتظار 60 إلى 90 يوماً لرؤية التكاملات الأولى أقل خطورة من الالتزام الآن بمنظومة منافسة.

مكانة الذكاء الاصطناعي الفيزيائي في 2026

يأتي Cosmos 3 في لحظة بعينها على منحنى الذكاء الاصطناعي الفيزيائي. نماذج البرمجيات للغة وتوليد الصور ناضجة إلى حد بعيد — مكاسب الأداء المتبقية تدريجية. ستأتي العقود القادمة من خلق القيمة عبر الذكاء الاصطناعي من الأنظمة التي تعمل في البيئات الفيزيائية: أرضيات التصنيع وشبكات الطرق والمستودعات والمستشفيات ومواقع البناء. تستلزم هذه البيئات بيانات تدريب مكلفة جمعها في العالم الحقيقي، وتستلزم نماذج تفهم ليس فقط كيف تبدو الأشياء بل كيف تتحرك وتتفاعل وتتغير بمرور الوقت.

تُرسّخ NVIDIA مكانة Cosmos 3 بوصفه طبقة البنية التحتية لهذا التحوّل — الدور المكافئ الذي أدّاه التدريب المسبق بالمحوّلات (transformer pre-training) للغة الطبيعية عام 2018. يعتمد هذا التشبيه على ما إذا كانت الدقة الفيزيائية في توليد العوالم بـ Cosmos 3 تنتقل بصورة موثوقة إلى أداء الروبوت والمركبة في العالم الحقيقي. تشير النتائج الأولى من Agile Robots إلى أن ذلك ممكن، على الأقل في مهام التلاعب الصناعي المنظّم. ستستغرق المصادقة الأوسع عبر بيئات فيزيائية متنوعة مزيداً من الوقت.

ما هو واضح بالفعل أن الجمع بين الأوزان المفتوحة والتدريب متعدد الوسائط على 20 تريليون رمز ومجموعة معايير متخصصة (PAI-Bench وRoboArena وRoboLab) يمنح مجتمع الأبحاث الأدوات اللازمة لقياس الذكاء الاصطناعي الفيزيائي وتحسينه بصرامة للمرة الأولى. هذه البنية التحتية — النموذج إضافة إلى أطر التقييم — قد تتضح أهميتها بمستوى النموذج ذاته.

تابعوا AlgeriaTech على LinkedIn للتحليلات التقنية المهنية تابعوا على LinkedIn

تابعونا @AlgeriaTechNews على X للحصول على أحدث تحليلات التكنولوجيا تابعنا على X

الأسئلة الشائعة

ما هو النموذج الشامل (omnimodel) بالضبط، ولماذا يهم في الذكاء الاصطناعي الفيزيائي؟

النموذج الشامل هو شبكة عصبية واحدة تعالج وتُولّد أصناف بيانات متعددة بصورة أصلية — في حالة Cosmos 3: النص والصور والفيديو والصوت المحيطي وبيانات الإجراءات — بدلاً من توجيه المدخلات عبر نماذج متخصصة منفصلة. في الذكاء الاصطناعي الفيزيائي، يهم هذا لأن البيئات الحقيقية متعددة الوسائط بطبيعتها: روبوت يتنقل في مصنع يسمع الآلات ويرى أحزمة النقل ويقرأ الملصقات ويجب أن يُترجم كل ذلك إلى إجراء جسدي منسّق. نموذج واحد مُدرَّب على جميع هذه الوسائط معاً يتعلم الارتباطات بين الوسائط التي تفوتها أنظمة خطوط المعالجة، ويُزيل التأخير وتراكم الأخطاء الناجم عن انتقالات المدخلات بين النماذج المنفصلة.

كيف يختلف Cosmos 3 عن نماذج توليد الفيديو للأغراض العامة كـ Sora أو Runway؟

تُحسّن نماذج الفيديو للأغراض العامة من أجل الواقعية البصرية والمعقولية الإبداعية. أما Cosmos 3 فيُحسّن من أجل الدقة الفيزيائية: يجب أن تكون المخرجات المولَّدة دقيقة بما يكفي لتدريب الروبوتات والمركبات ذاتية القيادة التي ستعمل في العالم الحقيقي. يعني هذا أن Cosmos 3 يُقيَّم على Physics-IQ (المعقولية الفيزيائية للتسلسلات المولَّدة) وPAI-Bench (أداء الذكاء الاصطناعي الفيزيائي) بدلاً من مقاييس الجودة الجمالية. كما يولّد بيانات إجراءات رقمية أصلية — زوايا المفاصل ونقاط المسار — وهو ما لا تُنتجه نماذج الفيديو الإبداعية.

هل Cosmos 3 متاح للفرق التي لا تملك بنية تحتية GPU من NVIDIA؟

نعم، على مستوى الاستدلال. Cosmos 3 متاح عبر microservices NVIDIA NIM على build.nvidia.com، مما يعني أن الفرق يمكنها الوصول إلى النموذج عبر واجهة برمجية (API) دون امتلاك أجهزة GPU. تستضيف Hugging Face وGitHub الأوزان المفتوحة للفرق الراغبة في تشغيل استدلالها الخاص. Cosmos 3 Nano مُصمَّم تحديداً للاستدلال السريع بأجزاء من الثانية، مما يجعله عملياً للتكامل السحابي. يتطلب Cosmos 3 Super، الذي يُشغّل أحمال عمل توليد العوالم الكاملة لتوليد بيانات التدريب، حوسبة أكثر، لكن يمكن الوصول إليه عبر مزودي GPU السحابيين. أما Cosmos 3 Edge القادم قريباً، فسيستهدف الاستدلال المدمج على الأجهزة المحلية.