← 返回信息流
AI 资讯量子位·5 天前2 源报道

英伟达与清华团队提出 Gamma-World 实现世界模型从单人到多人交互

原标题:英伟达清华团队提出Gamma-World:世界模型从「一个人玩」到「多人共处」

速览

英伟达与清华大学团队联合提出Gamma-World,旨在推动世界模型从单智能体环境向多智能体交互仿真演进。该研究通过构建支持多智能体共处的仿真平台,显著提升了复杂场景下的交互建模能力。这一突破为开发具备更高社交智能和协作能力的通用人工智能系统提供了重要基础。

AI 深度解读

背景

当前,视频世界模型(Video World Models)在单智能体设定下已相对成熟,但在多智能体场景——即多个玩家共享同一个演化世界并进行交互——的架构层面,一直缺乏系统性的解决方案。

这一瓶颈并非源于算力不足,而是现有架构的设计缺陷。传统的视频世界模型基于单智能体假设,仅预测特定视角下的未来观测,无法处理多主体间的耦合关系。现有的位置编码和注意力机制在设计之初并未为多个主体预留接口,导致模型难以同时维护时间一致性、跨视角一致性和交互一致性。

此前虽有如 Solaris 等工作尝试双人 Minecraft 场景,但暴露出两个结构性问题:一是身份编码破坏了对称性,导致模型学到的是特定角色而非平等主体的交互规律;二是全连接注意力机制导致计算成本随玩家数量呈平方级增长,存在无法通过工程优化突破的扩展性天花板。

在此背景下,NVIDIA 联合清华大学、多伦多大学和 Vector Institute 发布了 Gamma-World(γ-World),旨在从底层组件重新设计多智能体世界模型。

核心内容

Gamma-World 提出了一套系统性的多智能体世界建模方案,其核心在于对身份表示和跨智能体通信机制的重新设计,并辅以高效的蒸馏策略以平衡生成质量与推理速度。

1. 身份表示:Simplex Rotary Agent Encoding(单纯形旋转智能体编码)

为解决多智能体身份表示中的对称性问题,Gamma-World 对标准的旋转位置编码(RoPE)进行了扩展。

  • 设计原理:在原有的时间、高度、宽度三个轴之外,增加第四个“玩家轴”。
  • 单纯形几何结构:模型将所有可能的玩家位置映射到一个正单纯形(Regular Simplex)的顶点上。例如,2个玩家对应线段两端,3个玩家对应等边三角形顶点,4个玩家对应正四面体顶点。
  • 等距性与对称性:在这种几何结构中,任意两个顶点之间的距离完全相等。这意味着无论模型看到哪两个玩家,他们之间的几何关系是对称的,没有任何一个玩家在表示上比其他玩家“更特殊”。
  • 优势:该编码无需可学习参数,训练时活跃玩家随机分配至顶点池,推理时只需从池中选取新顶点即可支持更多玩家。这使得模型能够实现“双人数据训练、四人场景直接跑通”的零样本泛化能力,无需重新训练或修改架构。

2. 通信机制:Sparse Hub Attention(稀疏枢纽注意力)

为了解决全连接注意力带来的计算复杂度爆炸问题,Gamma-World 引入了轮辐式拓扑结构。

  • 架构转变:摒弃了所有 token 两两直接交互的全连接模式,转而引入一组可学习的 Hub Token(枢纽 token)。
  • 信息流:每个智能体仅与自身历史及 Hub Token 交互;Hub Token 汇聚所有智能体的信息,压缩为共享状态摘要,再广播回各智能体流。
  • 两跳传递:不同智能体之间的信息通过“智能体 → Hub → 智能体”的两跳路径传递,屏蔽了直接注意力。
  • 效果:这一设计将计算成本从平方复杂度降低至线性复杂度。随着玩家数量增加,其 FLOPs(浮点运算次数)远低于密集注意力机制,且这种稀疏拓扑本身构成了合理的归纳偏置,显式编码了“跨智能体信息应经过共享世界状态瓶颈”的先验。

3. 训练策略:三阶段蒸馏

为了兼顾生成质量与实时推理,Gamma-World 采用了三阶段训练流程:

  • 第一阶段:训练双向教师模型。该模型可访问完整序列(包括未来帧),提供最高质量的生成分布,仅用于训练。
  • 第二阶段:训练因果学生模型。该模型仅能访问当前及过去帧,适配流式推理。关键在于将其完整训练为多步扩散模型,而非仅作为蒸馏热身,确保其具备合理的推演起点。
  • 第三阶段:条件 Self-Forcing 蒸馏。以因果学生为起点、双向教师为目标,通过分布匹配蒸馏(DMD)将多步采样压缩为 4 步采样。蒸馏在自回归 self-rollout 下进行,确保训练分布与推理分布对齐,有效缓解误差累积。

关键要点

  • 架构创新:Gamma-World 从 RoPE 扩展和注意力拓扑两个底层组件入手,解决了多智能体世界建模中长期存在的结构性缺失问题。
  • 对称性编码:通过单纯形旋转智能体编码,实现了玩家身份的等距表示和地位平等,避免了 Solaris 等方案中因固定槽位导致的对称性破坏和泛化性受限。
  • 线性复杂度:稀疏枢纽注意力机制将跨智能体通信的计算成本从平方级降至线性级,解决了扩展性天花板问题,并支持 24 FPS 的实时动作响应推演。
  • 零样本泛化:模型仅在双人数据上训练,即可在推理时直接生成四路同步视角,无需修改架构参数或重新训练,验证了单纯形编码的泛化能力。
  • 质量与速度平衡:通过三阶段蒸馏策略,成功将双向模型的高质量生成能力迁移至因果模型,实现了 4 步采样下的 24 FPS 流式推演。
  • 实验表现:在多人 Minecraft 环境的五类场景中,Gamma-World 在记忆、空间定位、移动、建造、跨视角一致性等指标上全面超越 Solaris,FVD 平均降幅超过 40%。
  • 通用性验证:模型不仅适用于游戏场景,还成功迁移至 RealOmin-Open 数据集的真实双臂机器人协同任务,证明了框架在 Physical AI 领域的通用性。

意义与影响

Gamma-World 的提出标志着世界模型从「一个人玩」向「多人共处」的重要跨越。其核心方法论在于将对问题结构的理解(如置换对称性、共享世界状态瓶颈)直接编码进架构,而非依赖模型从数据中隐式学习。这种设计不仅在样本效率和最终性能上具有显著优势,更验证了“理解优于拟合”的建模原则。

从应用层面看,Gamma-World 展示了从虚拟仿真到真实物理操作的迁移潜力。无论是 Minecraft 中的多智能体协作,还是真实双臂机器人的协同运动,同一套框架均能保持共享世界状态的一致性。这为手术室多臂协同、工厂多机器人调度、自动驾驶多车交互等复杂现实场景提供了新的解决方案。

长远来看,Gamma-World 所代表的多智能体世界模型框架,有望改变 AI 训练数据的采集方式。从依赖人力、空间和时间的物理采集,转向由神经网络驱动的大规模、无限可扩展的神经仿真生成。这不仅提升了仿真能力,更为整个 Physical AI 领域提供了一个全新的数据生产和策略训练基础设施,推动世界模型真正学会物理世界的「规则」而非仅仅生成「画面」。

查看原文 →qbitai.com