技术博客Hugging Face Blog·3 天前

NVIDIA发布Cosmos 3首个开放物理AI推理与行动全模态模型

原标题：Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action

速览

NVIDIA正式发布Cosmos 3，这是业界首个面向物理AI推理与行动的开放全模态模型。该模型旨在为机器人和自动驾驶等领域提供强大的物理世界理解与决策能力。作为开放模型，它将加速物理AI领域的创新与应用落地。

AI 深度解读

欢迎 NVIDIA Cosmos 3：首个用于物理 AI 推理与行动的开源全能模型

NVIDIA 正式发布了 Cosmos 3，这是首个面向物理 AI（Physical AI）推理与行动的开源全能模型（Omni-model）。无论您是在构建机器人、自动驾驶汽车还是智能空间，Cosmos 3 都为您提供了模拟和理解物理世界的基础。

本次发布包含以下内容：

在 Hugging Face 上发布的 Cosmos 3 Super 和 Cosmos 3 Nano 模型，附带模型卡片和许可证信息。
用于生成管道的 Cosmos 3 Diffusers 集成。
在 GitHub 上发布的用于在自有数据上训练 Cosmos 3 的后训练脚本。
面向物理 AI 的开源合成数据生成（SDG）数据集。

背景

在之前的 Cosmos 版本中，开发者必须针对不同的能力使用单独的模型：世界生成（Cosmos Predict）、受控生成（Cosmos Transfer）、场景理解（Cosmos Reason）以及策略生成（Cosmos Policy）。这种碎片化的架构限制了开发效率，要求开发者在不同的模型之间进行切换和集成。

Cosmos 3 的核心突破在于其架构的统一性。它旨在解决物理 AI 系统需要同时理解像素与令牌（tokens）之外的更复杂概念——如运动、因果关系、物理规律和行动——这一挑战。通过构建一个能够在一个统一的向前传播（forward pass）中推理并生成不同模态的单一模型，Cosmos 3 为机器人洗衣、自动驾驶模拟或仓库安全场景的合成训练数据生成等用例提供了专门设计的基础模型。

核心内容

架构革新：MoT 与全能架构

Cosmos 3 最大的变化在于它是一个基于混合 Transformer（Mixture-of-Transformers, MoT）架构的全能模型。该架构在一个统一的框架内处理所有模态，包括文本、图像、视频、音频和行动（Action）。

具体工作流程如下：

编码：每种模态首先由专用的编码器进行编码。视觉理解使用 ViT（Vision Transformer），视觉/音频生成使用 VAE（变分自编码器），行动则使用领域感知向量。
投影：编码后的数据被投影到一个共享的表示空间中。
双序列处理：输入序列被拆分为两个子序列：
- 自回归（AR）子序列：通过下一个令牌预测处理推理和理解。
- 扩散（DM）子序列：通过迭代去噪处理生成。
联合注意力机制：AR 和 DM 令牌在每个 Transformer 层中使用单独的参数集，但通过联合注意力机制进行交互。这使得单一模型能够无缝地在视觉语言模型（VLM）、视频生成器、前向/逆向动力学模型或机器人策略之间切换，而无需任何架构更改。

模型版本

本次发布包含两个优化用于不同部署场景的模型尺寸：

Cosmos 3 Nano：
- 规模：8B 参数（8B 推理器 + 8B 生成器）。
- 定位：优化高效推理，旨在在 RTX PRO 6000 GPU 等工作站级计算资源上运行。
- 获取：在 Hugging Face 上提供，地址为 nvidia/Cosmos3-Nano。
Cosmos 3 Super：
- 规模：32B 参数（32B 推理器 + 32B 生成器）。
- 定位：专为大规模合成数据生成（SDG）和研究设计，运行于 NVIDIA Hopper 和 Blackwell GPU 上。
- 获取：在 Hugging Face 上提供，地址为 nvidia/Cosmos3-Super。

核心能力

Cosmos 3 支持通过单一统一模型进行多种输入和生成模态的操作：

生成逼真的物理世界视频：基于文本、图像、视频或行动输入，生成具有物理合理性的视频世界。
物理属性推理：能够推理运动、因果关系和空间关系等物理属性。
未来预测：基于当前状态预测未来的视频和行动序列。

提示工程指南（Prompt Guide）：

视频生成：建议使用详细的叙事段落作为提示。例如，描述车辆在多车道高速公路上的行驶环境、周围车辆、天气状况以及突发状况（如前方出现碎片）的详细视觉细节。
行动生成：提示应简洁并提供空间参考。例如：“将锅放到紫色物品的左侧。该视频是从第一人称视角拍摄的。”

工具链与生态系统集成

Diffusers 集成：Cosmos 3 已集成到 Hugging Face Diffusers 库中。用户可以通过 Cosmos3OmniPipeline 轻松运行世界生成管道。
- 示例代码逻辑：加载 nvidia/Cosmos3-Nano 模型，设置 torch_dtype=torch.bfloat16 和 device_map="cuda"，通过 pipe(prompt=..., num_frames=1, ...) 即可实现文生图或文生视频。
- 文档提供了文生视频、图生视频等更多示例。
Cosmos Framework：这是一个端到端框架，用于训练和服务像 Cosmos 3 这样的世界基础模型（WFMs）。
- 后训练（Post-training）：虽然 Cosmos 3 开箱即用，但针对特定机器人、环境或任务的后训练可获得最佳效果。仓库提供了后训练指南和脚本。
- Agent Skills：仓库包含代理技能（Agent Skills），用于验证要求、设置依赖环境、学习仓库结构、起草高质量提示或运行推理脚本，从而加速开发流程。

数据集：物理 AI 的合成数据生成（SDG）

作为 Cosmos 3 发布的一部分，NVIDIA 发布了一系列合成数据生成（SDG）数据集，旨在帮助物理 AI 社区训练和评估世界基础模型。这些数据集由 NVIDIA 各个团队生成，并已在 Hugging Face 上开放。

关键要点

首个开源全能模型：Cosmos 3 是首个开源的、基于 MoT 架构的全能模型，统一了推理与生成能力。
统一架构处理多模态：通过自回归（AR）和扩散（DM）子序列的联合注意力机制，单一模型可同时处理文本、图像、视频、音频和行动，无需切换模型。
双版本策略：
- Nano (8B)：面向高效推理，适配工作站级 GPU（如 RTX PRO 6000）。
- Super (32B)：面向大规模研究和合成数据生成，适配 NVIDIA Hopper/Blackwell 架构。
物理 AI 专用：不仅生成像素，更强调对运动、因果关系和物理规律的推理，直接服务于机器人、自动驾驶和智能空间应用。
易于集成：深度集成 Hugging Face Diffusers 库，提供 Cosmos3OmniPipeline，降低接入门槛。
完整的开发生态：提供后训练脚本、Agent Skills 辅助开发，以及开源的 SDG 数据集，形成从数据到模型再到应用的完整闭环。

意义与影响

Cosmos 3 的发布标志着物理 AI 发展的重要里程碑。在此之前，开发者需要在多个专用模型之间进行复杂的集成，以分别处理感知、推理和生成任务。Cosmos 3 通过其全能架构，消除了这种碎片化，使得构建能够真正“理解”物理世界（而不仅仅是识别图像）的 AI 系统变得更加可行和高效。

对于机器人领域，这意味着机器人可以更准确地预测动作后果并理解物理约束；对于自动驾驶，它提供了生成极端长尾场景（Long-tail scenarios）合成数据的能力，从而提升仿真训练的质量；对于智能空间，它提供了理解环境动态变化的基础。通过开源其模型、代码和数据集，NVIDIA 正在降低物理 AI 的门槛，加速整个行业从数字世界向物理世界智能的过渡。

查看原文 →huggingface.co