中国BWM世界模型开源第一,以小博大击败Google NVIDIA
速览
中国团队研发的BWM世界模型在WorldArena评测中表现优异,开源版BLM获全球第一,闭源版BWM-Fast获全球第二。该模型基于50亿参数的Wan2.2-TI2V-5B,通过DiT架构创新与数据效率优化,在物理遵循性和可控性上超越Google、NVIDIA等大厂模型。此举证明了架构原创比单纯堆砌算力更具壁垒,为具身智能发展提供新路径。
AI 深度解读
背景
在全球人工智能领域,世界模型(World Models)正成为继大语言模型之后的下一个核心战场。这一赛道旨在赋予 AI “物理直觉”,使其不仅能处理图像或文本,更能预见物理世界的动态变化。2026年,随着具身智能被纳入“十五五”未来产业规划,以及贝索斯、李飞飞、Yann LeCun 等科技巨头和顶尖学者的重金投入,世界模型领域呈现出激烈的“军备竞赛”态势。主流趋势是依靠堆叠海量数据、超大参数和极致算力来追求性能提升。
在此背景下,全球世界模型权威评测体系 WorldArena 公布了 Track-1(视频质量赛道)的最终结果。来自中国的“无界世界模型”(Boundless World Model,简称 BWM)打破了“算力即正义”的固有叙事。该模型由同济大学申恒涛教授团队牵头,基于阿里巴巴开源的 Wan2.2-TI2V-5B 视频生成模型进行研发。令人意外的是,这款参数量仅为 50 亿的模型,在视觉质量、运动质量、物理遵循性等六大维度、16 项细分指标的严苛评估中,开源版本 BLM 以 64.54 分斩获全球第一,闭源版本 BWM-Fast 以 67.87 分位列全球第二,力压 Google、NVIDIA 等科技巨头的参赛阵容。
核心内容
BWM 的成功并非偶然,而是源于其在技术架构、数据效率及评测场景上的系统性创新。
技术架构的差异化创新 BWM 团队摒弃了单纯依赖算力堆叠的路径,转而通过架构创新提升数据效率。其核心技术突破包含三个层面:
- DiT 架构的应用:采用基于 Transformer 的扩散模型(DiT)替代传统卷积骨干网络。在处理长视频序列时,Transformer 的注意力机制能够捕捉更远距离的时空依赖关系,确保模型在推演后续帧时,仍能记住初始帧中的关键信息(如杯子的位置)。
- 动态记忆机制:引入该机制以缓解长时序推演中的“灾难性遗忘”问题,增强了模型对长时间跨度物理状态的保持能力。
- 首帧引导与双通路动作控制:利用初始帧信息锚定场景,提升时空连贯性;同时通过双通路动作控制调制,将机器人动作轨迹精准映射到视频生成中,实现了动作可控的物理仿真。
六大场景下的物理直觉验证 BWM 在 WorldArena 评测中覆盖了六大类典型具身任务场景,全面检验其建模能力:
- 空间重排:在多物体排序与堆叠中,保持物体身份稳定及接触面的物理合理性。
- 铰链交互:在微波炉开合等场景中,维持物体几何形态的连贯性及状态持久性。
- 精细操作:理解物体的“可供性”(Affordance),如拧开关、挂杯子等微小接触区域的状态变化。
- 双臂协同:建模同步运动,避免近距离交接中的碰撞,保持物体连续性。
- 长程放置:解决长时序下的遮挡问题,防止物体在遮挡后“凭空消失”,保持场景一致性。
- 分布外泛化(OOD):团队使用 GPT-Image-2 生成从未见过的初始场景进行测试。BWM 在面对物体外观剧烈变化时,依然能保持动作驱动的动力学一致性。这证明模型并非通过“背题”获取高分,而是真正习得了物理规律,具备了一定的“物理直觉”。
开源与闭源并行的生态策略 针对世界模型领域学术成果难验证、顶尖技术难复现的痛点,BWM 采取了双轨策略:
- 开源版本(BLM):在 GitHub 和 Hugging Face 开放模型权重和推理代码(训练代码逐步释出),GitHub 仓库 Star 数已超 1600。此举旨在降低科研门槛,促进社区复现与迭代。
- 闭源版本(BWM-Fast):持续探索性能上限,验证技术路线在极端条件下的竞争力。
关键要点
- 排名突破:BWM 开源版 BLM 在 13 个参评模型中全球第一;闭源版 BWM-Fast 在 86 个参评模型中全球第二,仅以 0.39 分之差落后。
- 小参数大效能:基于 50 亿参数(Wan2.2-TI2V-5B)的模型,击败了众多规模远超自己的竞争对手,证明了架构原创性比单纯的算力规模更具壁垒价值。
- 团队背景:由欧洲科学院外籍院士、同济大学计算机科学与技术学院院长申恒涛教授牵头,联合国家级青年人才朱磊、考拉悠然、上海码极客共同研发。
- 物理一致性验证:通过“分布外泛化”测试,证明模型在面对未见过的场景外观时,仍能依据动作序列合理推演结果,具备真正的物理理解能力而非记忆训练数据。
- 行业趋势呼应:BWM 的技术路线呼应了英伟达机器人方向负责人 Jim Fan 提出的“VLA 已死,WAM(World Action Models)当立”的观点,以及复旦大学与新加坡国立大学关于具身智能前沿的综述结论。
- 生态建设:通过开源底座加速世界模型迭代,解决行业“黑盒”难题,为具身智能提供可复现的技术支撑。
意义与影响
BWM 的登顶标志着世界模型赛道进入了一个新的竞争维度:从“算力军备竞赛”转向“架构与效率创新”。
首先,它打破了行业对“大参数、大数据、大算力”单一路径的依赖,证明通过 DiT 架构优化、动态记忆机制及高效数据利用,小参数模型同样能达到世界顶尖水平。这对于降低 AI 研发门槛、推动绿色计算具有重要意义。
其次,BWM 在“物理直觉”上的表现,为具身智能(Embodied AI)提供了关键的技术支撑。世界模型让机器人能够在虚拟环境中进行低成本、高频率的“彩排”,从而加速真实世界中的技能习得。BWM 在铰链、精细操作及长程放置等复杂物理交互中的稳定表现,表明其已具备解决具身智能核心痛点的能力。
最后,BWM 采取的开源策略有助于构建健康的行业生态。通过提供可复现的基准(Baseline),它促进了全球研究者对世界模型能力边界的准确认知,避免了重复造轮子,加速了从学术探索到产业落地的进程。正如文中所述,中国团队在世界模型这一前沿领域不仅“在场”,且已具备站在全球前列的实力,这将为后续的空间智能与世界模型核心问题的深度探索奠定坚实基础。
