NVIDIA Cosmos:面向物理AI的开放世界模型平台
速览
NVIDIA Cosmos是一个开放平台,集成了世界模型、数据集和工具链,旨在加速物理AI的开发。它使开发者能够构建具备真实物理交互能力的机器人、自动驾驶车辆及智能基础设施系统。
AI 深度解读
这是什么
NVIDIA Cosmos 是 NVIDIA 推出的一个开源世界模型(World Models)平台,旨在为开发者提供构建“物理 AI”(Physical AI)所需的基础设施。该平台不仅包含模型,还涵盖了数据集和工具链,主要面向机器人、自动驾驶汽车、智能基础设施等需要与现实世界进行物理交互的场景。
当前版本 Cosmos 3 是该平台最新的核心模型家族。它被设计为一个“全模态”(Omnimodal)世界模型,采用统一的 Mixture-of-Transformers (MoT) 架构。这一架构创造性地结合了用于推理的自回归 Transformer(AR Transformer)和用于多模态生成的扩散 Transformer(DM Transformer),使得模型能够在一个统一的框架内,联合处理并生成语言、图像、视频、音频以及动作序列。
Cosmos 3 的核心突破在于其统一的 3D 多维旋转位置嵌入(mRoPE)表示,它能够编码跨模态的空间和时间结构,从而在图像、视频流、音频和动作轨迹上实现一致的推理能力。
解决的问题
传统的 AI 模型往往在特定模态或特定任务上表现优异,但缺乏对物理世界整体性的理解与生成能力。Cosmos 主要解决以下痛点:
- 模态割裂问题:现有的视觉语言模型(VLM)、视频生成器、世界模拟器和世界-动作模型通常是独立的。Cosmos 3 将这些关键模态统一到一个框架中,消除了数据孤岛。
- 物理一致性缺失:通用大模型在理解视频或生成内容时,往往缺乏对物理规律(如因果结果、空间 grounding、物理合理性)的深层理解。Cosmos 3 通过引入“世界理解”和“动作建模”能力,增强了模型对物理现实的感知。
- 研发与部署断层:开发者在从研究转向生产环境时,常面临工具链不兼容的问题。Cosmos 提供了从 Python-first 开发(Diffusers/Transformers)到 OpenAI 兼容的生产级服务(vLLM-Omni/vLLM)的完整路径,解决了从实验到落地的工程难题。
- 复杂交互建模困难:在机器人和自动驾驶领域,需要同时处理感知(理解环境)和控制(生成动作)。Cosmos 3 支持从文本/视觉输入到策略动作、逆动力学和前动力学的预测,简化了具身智能系统的开发流程。
核心功能
Cosmos 3 通过两个主要的运行时表面(Runtime Surfaces)提供功能:
1. 世界理解 (World Understanding)
模型能够分析视频和图像,输出以下结构化信息:
- 描述与事件:生成图像/视频的字幕,识别时间序列中的事件。
- 动作预测:预测下一步的动作。
- 空间与物理分析:提供空间 grounding(定位),评估物理合理性,并推断因果结果。
2. 世界生成 (World Generation)
模型能够根据文本、图像、视频或动作输入,生成多模态输出:
- 多模态内容:生成图像、视频、同步音频以及动作条件序列(action-conditioned rollouts)。
- 提示词上采样:支持将简短的场景描述扩展为密集的、结构化的提示词,以提升生成质量。
3. 动作建模 (Action Modeling)
专为机器人和自动驾驶设计,支持:
- 策略预测:预测机器人的策略动作。
- 动力学模拟:预测逆动力学(Inverse Dynamics)和前动力学(Forward Dynamics)。
- 运动控制:适用于相机运动、第一人称视角运动(egocentric motion)及自动驾驶场景。
4. 开发与服务路径
- 研究路径:基于 Diffusers 和 Transformers 库,支持 Python 优先的开发模式。
- 生产路径:通过 vLLM-Omni 和 vLLM 提供 OpenAI 兼容的 API 服务,支持高并发推理。
- 后训练支持:提供 Cosmos Framework 训练配方,支持视觉、动作和推理工作流的微调及特定任务评估。
亮点 / 与同类相比
- 统一的 MoT 架构:与仅专注于生成或仅专注于理解的单一模型不同,Cosmos 3 在同一个 Transformer 架构下共享注意力层和位置嵌入。这意味着它在“推理模式”(Reasoner Mode,使用因果自注意力进行下一词元预测)和“生成模式”(Generator Mode,使用全注意力进行去噪生成)之间可以无缝切换,且保持语义和时空结构的一致性。
- 全模态原生支持:大多数现有模型需要额外的适配器或后处理模块来融合音频或动作数据。Cosmos 3 原生支持语言、图像、视频、音频和动作序列的联合处理,无需复杂的中间转换。
- 物理 AI 导向:不同于 Sora 等通用视频生成模型,Cosmos 3 明确针对“物理 AI”优化,强调对物理规律、因果关系和动作控制的建模,使其更适用于机器人仿真和自动驾驶训练。
- 灵活的部署选项:
- 轻量级研究:提供
Cosmos3-Nano等较小模型,配合 Diffusers 库进行快速实验。 - 高性能生产:支持 vLLM-Omni,允许在多个 GPU 上进行张量并行(Tensor Parallelism)和层卸载(Layer-wise Offload),以应对
Cosmos3-Super(64B 参数)等大模型的显存压力。
- 轻量级研究:提供
- 开源生态:作为 GitHub 上的热门开源项目,它提供了完整的 Hugging Face 集成、Docker 镜像以及详细的推理示例,降低了物理 AI 的入门门槛。
适合谁用 / 上手
适合人群
- 具身智能与机器人研究者:需要模拟物理环境、训练机器人策略或生成合成数据以增强训练集的团队。
- 自动驾驶开发团队:需要生成包含复杂交通场景、天气变化和因果交互的视频数据来测试感知和规划算法的工程师。
- 多模态 AI 开发者:希望构建能够同时理解并生成视频、音频和动作指令的下一代应用系统的开发者。
- 物理仿真专家:需要高保真、符合物理规律的世界模拟器来替代或补充传统物理引擎的研究人员。
上手指南
-
环境准备:
- 推荐使用 Python 3.13 环境。
- 使用
uv进行包管理,确保正确安装与 NVIDIA 驱动匹配的 CUDA 版本(如--torch-backend=cu128或auto)。 - 安装必要的依赖库:
diffusers,transformers,torch,vllm-omni等。
-
认证与配置:
- 在 Hugging Face 获取访问令牌(Access Token)并本地认证:
uvx hf@latest auth login。 - 设置
HF_HOME环境变量以指定缓存路径,建议使用空间充足的磁盘。
- 在 Hugging Face 获取访问令牌(Access Token)并本地认证:
-
快速体验 (Diffusers 路径):
- 加载
Cosmos3-Nano模型。 - 使用
Cosmos3OmniPipeline进行文本到视频(Text-to-Video)生成。 - 示例代码展示了如何设置提示词、帧数、分辨率及推理步数,并导出为 MP4 视频。注意:扩散模型推理计算量大,首次运行需下载模型,请耐心等待。
- 加载
-
生产部署 (vLLM-Omni 路径):
- 使用官方 Docker 镜像
vllm/vllm-omni:cosmos3启动服务。 - 挂载本地媒体目录和 Hugging Face 缓存目录。
- 启动命令示例:
vllm serve nvidia/Cosmos3-Nano --omni ...。 - 对于大模型(如
Cosmos3-Super),需配置--tensor-parallel-size和--enable-layerwise-offload以优化显存使用。 - 服务启动后,可通过 Open
- 使用官方 Docker 镜像
