Le monde réel est toujours en mouvement. Pour fonctionner de manière autonome, les systèmes d’IA physique, notamment les robots, les véhicules autonomes et les espaces intelligents, doivent comprendre non seulement ce qu’ils voient et ce qui l’a provoqué, mais aussi ce qui est susceptible de se produire ensuite.
Dans un entrepôt, un robot peut rencontrer des configurations d’objets qu’il n’a jamais vues auparavant. Sur la route, un véhicule autonome peut devoir réagir lorsqu’un piéton surgit entre des voitures stationnées. Et dans une usine, un système de sécurité doit prédire la direction que prend un chariot élévateur, et pas seulement détecter sa présence.
Capturer et recréer ces scénarios dans le monde réel est lent, coûteux et souvent impossible à répéter à grande échelle.
NVIDIA Cosmos 3 est conçu pour cette boucle. Ce nouveau modèle fondamental de monde, annoncé aujourd’hui lors de NVIDIA GTC Taipei à COMPUTEX, combine le raisonnement visuel et la génération multimodale à partir de texte, de vidéo, d’images, de sons ambiants et d’actions au sein d’un modèle unique, afin d’aider les développeurs à créer des données de monde dotées d’un contexte physique.

Cosmos 3 alimente la perception, la prédiction et l’action
Découvrez comment l’architecture de type mixture de transformeurs de Cosmos 3 permet à un bloc de raisonnement d’interpréter d’abord ce qui se passe dans une scène, puis s’appuie sur un bloc de génération pour utiliser ce contexte et créer des résultats ancrés dans la physique, de la vidéo synthétique aux données de tâches robotiques.
Générer des données d’action pour des tâches robotiques réelles
Cosmos 3 est un modèle fondamental généraliste entraîné sur des données variées, ce qui lui donne une compréhension étendue des liens entre les scènes, le mouvement et les actions robotiques. Il s’agit d’un omnimodèle à génération d’actions native, capable de produire des données d’action numériques, comme des angles d’articulation, des positions de pince et des points de trajectoire, qui décrivent comment un robot doit se déplacer pour accomplir une tâche.
Pour apprendre, les robots ont besoin de plus que des images ou des vidéos d’une scène. Pour les tâches de prélèvement et de placement, par exemple, ils ont besoin de signaux d’action qui indiquent comment atteindre, saisir, déplacer et déposer des objets dans leur environnement. Les développeurs peuvent affiner Cosmos 3 afin de spécialiser leurs robots en fonction d’une morphologie, d’une configuration de caméras, d’un espace de travail ou d’une tâche particulière.
L’équipe NVIDIA GEAR utilise Cosmos 3 pour développer des modèles vidéo-action qui aident les agents embarquéss à apprendre à raisonner, à se déplacer et à agir dans des jeux, des simulations et des environnements robotiques réels.

Prompt audio : place toutes les bananes sur l’assiette
Agile Robots développe des humanoïdes et d’autres formes de robots, comme Thor 3 ou FR3, capables d’exécuter des tâches industrielles de manière autonome, précise et efficace. L’entreprise utilise Cosmos 3 pour générer des données robotiques conditionnées par l’action, destinées au développement de ses politiques, afin de créer à grande échelle des trajectoires de tâches variées.
Prompt : prends le câble électrique principal et dépose-le dans le bac avec les deux bras

La politique post-entraînée Cosmos 3 Nano arrive en tête sur RoboLab, qui teste les politiques en simulation sur des tâches guidées par le langage, ainsi que sur RoboArena, qui compare les politiques sur des robots DROID dans des environnements réels.
Raisonner sur les villes intelligentes et les espaces en mouvement
Cosmos 3 peut raisonner à l’échelle d’une scène et identifier quels objets sont en mouvement, où des trajectoires peuvent se croiser et quel scénario futur est susceptible de suivre. Il peut ensuite générer des légendes détaillées, des changements de scène prédits ou des variations de scénarios, aidant ainsi les développeurs à relier compréhension, prédiction et alertes dans des agents d’IA visuelle destinés aux environnements industriels et d’infrastructure.
Trace de planification d’actions robotiques utilisant Cosmos 3 pour le raisonnement
Pour les systèmes de trafic, les usines, les entrepôts et les espaces publics, cela signifie que les systèmes vidéo peuvent aider à interpréter l’activité dans le temps, à faire ressortir les anomalies et à fournir aux opérateurs un contexte plus riche sur ce qui se passe dans des environnements complexes.
Linker Vision utilise les technologies d’IA physique et de jumeaux numériques de NVIDIA pour créer des solutions intelligentes destinées aux villes connectées et à l’industrie. Dans le cadre de ce workflow, l’entreprise exploite les capacités de raisonnement vision-langage de Cosmos pour analyser des flux de caméras en direct, comprendre les contextes spatiaux, extraire des informations précieuses et effectuer des analyses des causes racines sur des milliers de flux.
Linker Vision utilise l’IA visuelle pour optimiser les opérations urbaines, avec Cosmos

Cosmos 3 est le modèle vision-langage ouvert le mieux classé sur VANTAGE-Bench, qui teste la compréhension de scènes d’infrastructures intelligentes, ainsi que sur le défi TAR, qui évalue le raisonnement sur les anomalies de trafic.
Générer dans le temps des scénarios rares de longue traîne
Les collisions et les cas limites de longue traîne comptent parmi les exemples les plus importants pour préparer les humanoïdes, les bras robotiques et même les robots chirurgicaux au monde réel, mais ils sont difficiles à capturer de manière sûre, répétée et à grande échelle.
En tant que modèle fondamental vidéo, Cosmos 3 peut aider à générer des séquences vidéo physiquement plausibles pour apprendre comment le monde réel évolue au fil du temps.
Pour les développeurs d’IA physique, ces exemples générés peuvent soutenir les workflows de données synthétiques et la prédiction d’états futurs aux côtés de données de conduite réelles, même lorsque les conditions évoluent image par image.
Prompt image vers vidéo : une course à grande vitesse où une voiture négocie plusieurs virages sinueux.

Les variantes de Cosmos 3 occupent la première place des classements de modèles à poids ouverts sur Artificial Analysis. Cosmos 3 arrive également en tête des classements Physics-IQ, R-Bench et PAI-Bench, parmi d’autres benchmarks de génération de mondes.
Premiers pas avec Cosmos 3
Les développeurs peuvent essayer Cosmos 3 sur build.nvidia.com, télécharger les modèles ouverts depuis Hugging Face, personnaliser les modèles et générer des données synthétiques grâce aux ressources disponibles sur GitHub, et les déployer avec les microservices NVIDIA NIM.
Avec la licence OpenMDW 1.1 de la Linux Foundation, les développeurs peuvent utiliser les ressources des modèles Cosmos dans l’ensemble des workflows d’IA physique sous une licence unique centrée sur le modèle. Cette licence facilite l’entraînement, la modification, la contribution, la redistribution et le déploiement de ressources telles que les poids, l’architecture, la documentation, les jeux de données, les benchmarks et le code.

Regardez le discours d’ouverture GTC Taipei du fondateur et CEO de NVIDIA, Jensen Huang, et explorez ces sessions sur l’IA physique.
Consultez l’avis concernant les informations sur les produits logiciels.
