Le 1er juin 2026, lors du salon COMPUTEX à Taipei, le PDG de NVIDIA Jensen Huang a présenté Cosmos 3 — un omnimodèle entièrement ouvert que la société désigne comme le « modèle de fondation ouvert pour l’IA physique ». Cette annonce est remarquable non parce que NVIDIA lance un nouveau grand modèle, mais parce que Cosmos 3 réalise quelque chose d’architecturalement inédit : il fusionne le raisonnement visuel, la génération de mondes et la prédiction d’actions en un seul système, entraîné sur 20 000 milliards de tokens de données multimodales, dont près d’un milliard d’images et 400 millions de vidéos réelles et synthétiques. Les chercheurs en IA physique travaillant sur la robotique et les véhicules autonomes ont passé des années à assembler des pipelines à partir de composants distincts de perception, simulation et planification. Cosmos 3 compresse ce pipeline en un seul modèle.
L’impact pratique est saisissant. Selon NVIDIA, Cosmos 3 réduit les cycles d’entraînement et d’évaluation de l’IA physique de plusieurs mois à quelques jours. Pour les équipes qui développent des robots autonomes ou des systèmes de conduite autonome, il ne s’agit pas d’une amélioration incrémentale — c’est un changement fondamental dans l’économie et la vitesse du développement. Le modèle y parvient en générant des données synthétiques physiquement plausibles à grande échelle : angles articulaires, positions de préhension, points de trajectoire et séquences vidéo complètes, que les robots et les véhicules peuvent utiliser pour le post-entraînement, sans les coûts et les dangers d’une collecte équivalente de données réelles.
Cosmos 3 est distribué sous la licence OpenMDW 1.1 de la Fondation Linux et est immédiatement disponible via build.nvidia.com, Hugging Face et GitHub, déployable sous forme de microservices NVIDIA NIM. NVIDIA a simultanément lancé la Cosmos Coalition — un consortium comprenant Agile Robots, Black Forest Labs, Generalist, LTX, Runway et Skild AI — pour construire un écosystème de modèles mondiaux ouverts sur cette fondation.
Ce que Cosmos 3 Fait Réellement
Cosmos 3 se comprend mieux comme trois capacités réunies dans une seule architecture mixture-of-transformers. Cette architecture associe un bloc de raisonnement à un bloc de génération : le premier interprète les scènes et comprend le contexte multimodal, tandis que le second produit des sorties physiquement ancrées.
Le raisonnement visuel est la capacité du modèle à comprendre simultanément la vidéo, les images, le texte et le son ambiant. Cosmos 3 peut analyser des flux de caméras en direct, générer des légendes denses décrivant la géométrie de la scène, inférer l’intention à partir de séquences d’actions et répondre à des questions sur les environnements physiques. Dans les évaluations comparatives, il se classe premier parmi les modèles ouverts sur VANTAGE-Bench (compréhension de scènes d’infrastructure intelligente) et mène le défi TAR pour le raisonnement sur les anomalies de circulation. Linker Vision, partenaire de la Cosmos Coalition, utilise déjà cette capacité pour surveiller simultanément des milliers de flux de caméras urbaines à des fins d’analyse d’infrastructure.
La génération de monde est la capacité à créer des séquences vidéo photoréalistes et physiquement plausibles — non pas comme contenu créatif, mais comme données d’entraînement. Cosmos 3 peut synthétiser des cas limites, des scénarios de collision et des conditions environnementales rares, trop coûteux ou impossibles à capturer dans le monde réel. Il se classe premier sur Physics-IQ, R-Bench et PAI-Bench — les principaux benchmarks pour le réalisme physique dans la vidéo synthétique. Pour les équipes de véhicules autonomes, cela signifie générer les situations rares — géométries d’intersection inhabituelles, comportements piétons inattendus, conditions météorologiques extrêmes — que les outils de simulation traditionnels peinent à rendre réalistes.
La prédiction d’action est la capacité la plus nouvelle et peut-être la plus significative. Cosmos 3 génère des données d’action numériques natives : non pas des vidéos ou des descriptions de ce qu’un robot devrait faire, mais les angles articulaires, positions de préhension et waypoints de trajectoire réels dont un bras robotique ou une plateforme mobile a besoin pour exécuter une tâche. Agile Robots, partenaire de la Cosmos Coalition, utilise cette capacité avec ses robots humanoïdes Thor 3 et FR3 pour créer à grande échelle des trajectoires de tâches d’automatisation industrielle diversifiées — générant ainsi de l’agilité manuelle sans démonstration humaine exhaustive.
Cosmos 3 dans le Paysage Concurrentiel
L’IA physique a attiré des investissements sérieux dans toute l’industrie, mais la plupart des approches ont maintenu la simulation, la vision et l’apprentissage de politiques comme systèmes distincts. Ce qui rend Cosmos 3 architecturalement significatif, c’est la combinaison d’ouverture et d’omnimodalité à cette échelle.
L’entraînement sur 20 000 milliards de tokens de données multimodales — incluant l’audio ambiant aux côtés de la vidéo et des données d’action — confère à Cosmos 3 un ancrage physique que les modèles de fondation text-only ou image-only ne peuvent pas atteindre. Le son est un signal physique authentique : le grincement d’une articulation mal alignée, le changement de fréquence ambiante d’un environnement en mutation, les indices sonores qui informent un système autonome qu’un changement s’est produit hors caméra. Intégrer l’audio dans la distribution d’entraînement est un choix de conception discret mais significatif.
La stratégie de sortie en trois variantes reflète également les réalités concrètes du déploiement. Cosmos 3 Super est optimisé pour la plus haute précision physique dans les workflows post-entraînement de robotique et de véhicules autonomes. Cosmos 3 Nano est ajusté pour le raisonnement vidéo et action de haute qualité en fractions de seconde. Cosmos 3 Edge, annoncé comme prochainement disponible, cible l’inférence en temps réel sur du matériel embarqué.
La Cosmos Coalition est la réponse de NVIDIA au défi de l’écosystème. Les modèles de fondation ne sont utiles que dans la mesure où les outils d’affinage, de déploiement et d’intégration construits autour d’eux le sont. En lançant avec six partenaires — dont des spécialistes de la génération vidéo (Black Forest Labs, LTX, Runway), des spécialistes de l’entraînement robotique (Agile Robots, Skild AI, Generalist) — NVIDIA établit l’équivalent open-model d’un écosystème applicatif avant que les concurrents ne puissent le faire.
La licence OpenMDW 1.1 est importante sur le plan commercial. Elle offre une voie médiane : des poids ouverts avec des conditions commerciales claires. Pour les équipes d’entreprise qui construisent des produits d’IA physique, cette clarté juridique réduit le risque légal de bâtir sur Cosmos 3 par rapport à des modèles sous des termes moins bien définis.
Publicité
Ce que les Ingénieurs IA et les Équipes Produit Devraient Faire
1. Évaluer Cosmos 3 Nano pour les Tâches Vision-Langage dans Votre Stack Actuelle
Le point d’entrée le moins contraignant est Cosmos 3 Nano via les microservices NVIDIA NIM sur build.nvidia.com. Les équipes qui gèrent déjà des tâches de vision — inspection qualité, analyse vidéo, compréhension de scènes — devraient comparer Cosmos 3 Nano à leurs modèles actuels ce trimestre. Les classements de premier rang sur VANTAGE-Bench et TAR suggèrent qu’il surpassera la plupart des VLM ouverts actuels pour la compréhension des environnements physiques. C’est un remplacement pratique qui mérite d’être mesuré, non un investissement futur théorique.
2. Piloter la Génération de Données Synthétiques pour Vos Cas Limites les Plus Difficiles
Si votre équipe entraîne des modèles de perception ou de politique et dispose d’un arriéré de scénarios sous-représentés dans votre distribution d’entraînement, la capacité de génération de monde de Cosmos 3 Super vaut un pilote structuré. Identifiez trois à cinq scénarios spécifiques sous-représentés, générez des vidéos synthétiques avec Cosmos 3 Super, et mesurez l’impact en aval sur les performances du modèle. Ce processus — identifier le manque, générer des données synthétiques, mesurer le transfert — est exactement le workflow pour lequel NVIDIA a conçu Cosmos 3.
3. Suivre la Feuille de Route de la Cosmos Coalition Avant de S’Engager sur des Plateformes de Simulation Concurrentes
Si votre organisation évalue ou renouvelle des contrats pour des plateformes de simulation (simulateurs robotiques, environnements de test AV), différez les décisions finales jusqu’au troisième trimestre 2026, quand Cosmos 3 Edge sera disponible et que les partenaires de la Coalition publieront leurs premières intégrations. La combinaison de poids ouverts, de déploiement NIM et de partenaires d’écosystème engagés suggère que le coût total de génération de données synthétiques via Cosmos 3 sera inférieur à celui des licences de simulation traditionnelles dans la plupart des catégories. Attendre 60 à 90 jours pour voir les premières intégrations est moins risqué que de s’engager maintenant dans une stack concurrente.
La Place de l’IA Physique en 2026
Cosmos 3 arrive à un moment précis dans la trajectoire de l’IA physique. Les modèles logiciels pour la génération de langage et d’images sont largement matures — les gains de performance restants sont incrémentaux. La prochaine décennie de création de valeur par l’IA viendra des systèmes qui opèrent dans des environnements physiques : ateliers de fabrication, réseaux routiers, entrepôts, hôpitaux, chantiers de construction. Ces environnements nécessitent des données d’entraînement coûteuses à collecter dans le monde réel, et ils nécessitent des modèles qui comprennent non seulement l’apparence des choses, mais aussi comment elles bougent, interagissent et changent dans le temps.
NVIDIA positionne Cosmos 3 comme la couche d’infrastructure pour cette transition — l’équivalent du rôle que le pré-entraînement par transformers a joué pour le NLP en 2018. Que cette comparaison se vérifie dépend de la transférabilité de la précision physique de la génération de monde de Cosmos 3 aux performances réelles des robots et véhicules. Les premiers résultats des partenaires d’Agile Robots le suggèrent, du moins pour les tâches de manipulation industrielle structurées. La validation plus large dans divers environnements physiques prendra du temps.
Ce qui est déjà clair, c’est que la combinaison de poids ouverts, d’un entraînement multimodal sur 20 000 milliards de tokens et d’une suite de benchmarks dédiés (PAI-Bench, RoboArena, RoboLab) donne à la communauté de recherche les outils pour mesurer et améliorer l’IA physique de manière rigoureuse pour la première fois. Cette infrastructure — le modèle plus les cadres d’évaluation — pourrait s’avérer aussi importante que le modèle lui-même.
Questions Fréquemment Posées
Qu’est-ce qu’un omnimodèle et pourquoi est-ce important pour l’IA physique ?
Un omnimodèle est un réseau neuronal unique qui traite et génère nativement plusieurs types de données — dans le cas de Cosmos 3 : texte, images, vidéo, son ambiant et données d’action — plutôt que de router les entrées à travers des modèles spécialisés distincts. Pour l’IA physique, cela est important parce que les environnements réels sont intrinsèquement multimodaux : un robot naviguant dans une usine entend les machines, voit les convoyeurs, lit les étiquettes et doit traduire tout cela en action physique coordonnée. Un modèle unique entraîné sur toutes ces modalités ensemble apprend des corrélations cross-modales que les systèmes en pipeline manquent, et il élimine la latence et l’accumulation d’erreurs des transferts entre modèles distincts.
En quoi Cosmos 3 diffère-t-il des modèles de génération vidéo généralistes comme Sora ou Runway ?
Les modèles vidéo généralistes optimisent pour le réalisme visuel et la plausibilité créative. Cosmos 3 optimise pour la précision physique : les sorties générées doivent être suffisamment précises pour entraîner des robots et des véhicules autonomes qui opèrent dans le monde réel. Cela signifie que Cosmos 3 est évalué sur Physics-IQ (plausibilité physique des séquences générées) et PAI-Bench (performance de l’IA physique) plutôt que sur des métriques de qualité esthétique. Il génère également des données d’action numériques natives — angles articulaires et points de trajectoire — que les modèles vidéo créatifs ne produisent pas.
Cosmos 3 est-il accessible aux équipes sans infrastructure GPU NVIDIA ?
Oui, au niveau de l’inférence. Cosmos 3 est disponible via les microservices NVIDIA NIM sur build.nvidia.com, ce qui signifie que les équipes peuvent accéder au modèle via une API sans posséder de matériel GPU. Hugging Face et GitHub hébergent les poids ouverts pour les équipes souhaitant exécuter leur propre inférence. Cosmos 3 Nano est spécifiquement conçu pour une inférence rapide, fonctionnant en fractions de seconde, ce qui le rend pratique pour l’intégration cloud. Cosmos 3 Super, qui gère les charges de travail complètes de génération de monde pour la synthèse de données d’entraînement, nécessite un calcul plus substantiel, mais peut être accessible via des fournisseurs de GPU cloud. Cosmos 3 Edge, prochainement disponible, ciblera l’inférence embarquée sur des appareils locaux.
Sources et lectures complémentaires
- NVIDIA lance Cosmos 3, le modèle de fondation ouvert pour l’IA physique — Salle de presse NVIDIA
- Comment Cosmos 3 aide l’IA physique à réfléchir avant d’agir — Blog NVIDIA
- NVIDIA Cosmos : Modèles de fondation mondiaux pour l’IA physique — NVIDIA
- Cosmos 3 : Modèles mondiaux omnimodaux pour l’IA physique — Rapport technique NVIDIA Research
- NVIDIA lance Cosmos 3, le modèle de fondation ouvert pour l’IA physique — GlobeNewswire














