Nvidia发布Cosmos 3
速览
Nvidia发布Cosmos 3
AI 深度解读
Nvidia Cosmos 3:物理AI的开源统一基座
背景
物理AI系统(Physical AI systems)——包括机器人、自动驾驶汽车和智能空间基础设施——若要真正在现实世界中行动,首先必须深刻理解现实世界。这不仅要求系统能够感知当前环境,还需要具备预测未来趋势的能力,并针对特定的环境、本体形态(embodiments)和任务生成相应的动作。
此前,NVIDIA Cosmos 系列在发布中通常将“世界生成”、“物理理解”和“受控场景生成”分离为不同的模型和工作流。这种分离增加了开发复杂度,需要复杂的编排逻辑来协调多个模型。为了解决这一痛点,NVIDIA 发布了 Cosmos 3,旨在通过单一开放模型统一物理推理、世界生成和动作生成能力,并开源了模型权重、训练脚本、部署工具及数据集,以降低物理AI的开发门槛并提高研究的可复现性。
核心内容
架构革新:双塔混合Transformer(MoT)
Cosmos 3 的核心创新在于其采用的 Mixture-of-Transformers (MoT) 架构。该架构围绕两个核心塔(Tower)构建,实现了推理与生成的统一:
-
推理塔(Reasoner Tower):
- 这是一个视觉-语言模型(VLM),负责解释图像、视频和文本等多模态观测数据。
- 采用自回归架构,用于理解运动、物体交互及其他物理上下文。
- 作为系统的“大脑”,它在任何生成发生之前对世界进行推理。该塔可独立调用。
-
生成塔(Generator Tower):
- 负责生成未来的观测结果和动作序列。
- 基于扩散过程(diffusion-based process),生成符合物理规律的视频和动作输出。
- 其生成过程以推理塔的理解结果为条件。当激活生成塔时,它会同时激活两个塔以实现引导式生成。
这种架构使得单一模型能够同时处理推理和生成任务,消除了多模型编排和推理管道之间的复杂性。
模型规格与部署场景
NVIDIA 提供了两种不同规模的 Cosmos 3 模型,以适应不同的算力需求:
- Cosmos 3 Nano:
- 参数量:16B。
- 定位:紧凑版,专为高效推理优化。
- 硬件支持:适用于工作站级计算资源,如 NVIDIA RTX PRO 6000 GPU。
- 应用场景:实时机器人推理和物理AI应用。
- Cosmos 3 Super:
- 参数量:64B。
- 定位:追求最高质量和能力。
- 硬件支持:针对数据中心部署,适用于 NVIDIA Hopper 和 NVIDIA Blackwell GPU。
- 应用场景:大规模合成数据生成和高级物理推理工作负载。
支持的模态与数据集
Cosmos 3 通过统一架构支持多种输入和输出模态。同时,NVIDIA 在 Hugging Face 上开源了六个合成数据生成(SDG)数据集,涵盖以下领域:
- 具身机器人场景
- 物理交互场景
- 空间推理
- 数字人场景
- 自动驾驶场景
- 仓库作业场景
这些数据集可用于 Cosmos 3 的微调以及训练其他物理AI模型。
评估体系:NVIDIA Cosmos Human Evaluation (HUE)
随着SOTA视频生成模型在现有自动化排行榜上趋于饱和,细微的分数差异已难以进行有意义的比较。HUE 框架将评估从主观评分转向客观的事实验证:
- 原子二元验证:将生成的视频分解为单个事实的是/否问题。
- 四大维度:语义对齐、物理定律、几何推理、视觉完整性。
- 七大领域:涵盖机器人、自动驾驶、物理等物理AI领域。
- 流程:由VLM管道生成问题,经人类专家优化,并在 Hugging Face 开源。
基准测试表现
Cosmos 3 在多个基准测试中取得了领先地位:
- 推理基准:
- VANTAGE-Bench:首个针对现实世界固定摄像头 footage(仓库、交通、智能空间)评估视觉-语言模型的公开基准。Cosmos 3 Super 在 32B 层级领先,Nano 在 8B 层级领先。
- Traffic Anomaly Reasoning (TAR):用于检测和推理交通视频中异常事件的新排行榜,也是 AI City Challenge 2026 Track 3 的官方排行榜。
- 生成基准:
- Artificial Analysis:在文本到图像(Text to Image)和图像到视频(Image to Video, 无音频)排行榜上,Cosmos 3 是领先的开源模型。
- R-Bench:评估基于视频的世界模型在机器人视频生成中的任务完成度和视觉质量。
- PAI-Bench:统一评估物理AI的视频理解和视频生成能力。
- Physics-IQ:测试生成式视频模型是否真正理解物理原理,而非仅追求视觉逼真度。
- RoboLab:评估任务通用型机器人策略的仿真基准。
训练与部署工具
- 监督微调(SFT):提供完整的训练配方(recipes),包括代码、配置和工作流,允许开发者针对自定义视频数据集进行视觉生成微调,或针对机器人和物理AI工作流进行动作导向微调。
- 动作后训练(Action Post-training):使 Cosmos 3 能够适应动作感知的物理AI应用,包括前向动力学、逆动力学和政策生成。开发者可利用动作标注数据进行后训练,实现基于机器人动作的未来观测生成、从演示中推断动作以及从当前观测预测动作序列。
- NVIDIA NIM Microservices:提供经过优化的推理运行时,无需手动调整服务基础设施即可实现高性能、生产就绪的部署。
关键要点
- 统一架构:Cosmos 3 通过 MoT 架构将物理推理、世界生成和动作生成整合到单一模型中,简化了开发流程。
- 双塔设计:
- Reasoner Tower:基于自回归的 VLM,负责多模态理解与世界推理。
- Generator Tower:基于扩散模型,负责生成符合物理规律的视频和动作。
- 双模型规格:
- Nano (16B):面向边缘/工作站(如 RTX PRO 6000),侧重实时推理。
- Super (64B):面向数据中心(如 Hopper/Blackwell),侧重高质量生成与大规模合成数据。
- 全面开源:开源内容包括模型权重(Hugging Face)、代码(GitHub)、训练脚本、部署工具及6个合成数据集。
- 新型评估标准:引入 HUE 框架,通过原子二元验证和人类专家审核,解决自动化基准测试饱和后的评估难题。
- 基准领先:在 VANTAGE-Bench、Artificial Analysis、R-Bench、PAI-Bench 等多个物理AI和生成式AI基准中处于开源模型领先地位。
- 灵活的微调能力:提供针对视觉生成和动作后训练(Action Post-training)的完整工作流,支持前向/逆动力学及策略学习。
意义与影响
NVIDIA Cosmos 3 的发布标志着物理AI开发从“多模型拼凑”向“统一基座模型”演进的重要一步。
- 降低物理AI门槛:通过开源完整的训练配方、数据集和部署工具(NIM),NVIDIA 使得研究人员和企业能够更轻松地复现和定制物理AI系统,加速了从实验室到生产环境的转化。
- 解决“物理常识”难题:Cosmos 3 强调对物理定律、几何推理和物体交互的理解,而非仅仅是视觉上的逼真。这对于机器人操作、自动驾驶等需要严格遵循物理规律的应用至关重要。
- 推动合成数据革命:开源的高质量合成数据集和强大的生成能力,为训练鲁棒的AI模型提供了宝贵的数据源,特别是在难以获取真实世界边缘案例(
