← 返回信息流
AI 资讯量子位·2 小时前

全球首个隐空间世界模型问世,打通长时序双向物理因果链

原标题:全球首个:隐空间世界模型,打通长时序双向物理因果链了!

速览

该成果发布了全球首个隐空间世界模型,实现了长时序双向物理因果链的打通。这一突破在具身智能领域具有里程碑意义,显著提升了模型对物理世界的理解与预测能力。据悉,研发该模型的公司近期完成2亿美元融资,并凭借此技术跃居具身智能榜单首位。

AI 深度解读

背景

具身智能(Embodied AI)领域长期面临一个核心痛点:如何让机器人像人类一样具备对物理世界的“直觉”和因果推理能力,从而在复杂、非标准化的环境中实现高精度、长周期的任务执行。

过去几年,主流的视觉-语言-动作(VLA)路线虽然让机器人能够理解文本指令,但其本质依赖人类演示的模仿学习。这种“刻板的开卷考试”式方法极度依赖显式标注,且底层缺乏对物理因果的理解。一旦光照变化或物体位置微调,机器人往往会出现动作变形或“卡壳”,泛化能力出现断崖式下跌。

在此背景下,成立仅一年的具身智能新锐公司**无界动力(Wujie Dynamics)**提出了一条特立独行的技术路线:隐空间世界模型 + 强化学习。该公司近期发布了全球首个“长时序双向物理因果链”隐空间世界模型 MWA™,并在由斯坦福大学等顶尖机构发起的权威评测基准 RoboCasa 中,以 75.2% 的平均任务成功率斩获全球第一,超越了英伟达(NVIDIA)GR00T-N1.6 等主流模型。与此同时,无界动力在资本市场上也表现强劲,已完成超 2 亿美元天使轮融资,Pre-A 轮近 2 亿美元融资接近尾声,投资方包括红杉中国、线性资本等头部机构。

核心内容

无界动力的核心突破在于通过 MWA™ 模型,让机器人从“像素级模仿”转向“因果级理解”,并解决了长时序任务中的误差累积问题。其技术架构主要包含以下三个维度的创新:

1. 隐空间推演与“潜动作”表征

传统世界模型在像素空间进行预测,浪费大量算力处理背景噪声和无关细节。MWA™ 全程在统一共享的**隐空间(Latent Space)**内完成推演,跳过像素层面的冗余计算。

更关键的是,模型提炼出了**“潜动作(Latent Action)”**概念。传统方法依赖人类预先标记的显式动作空间(如机械臂末端坐标、关节轨迹),标注成本极高。而“潜动作”直接在特征高维空间内,将视频中“物体因交互产生的位置、状态变化”抽象为高维表征。

  • 去标注化训练:无需人工动作标签,模型能从海量无标签互联网视频中自动归纳动作本质。
  • 由果推因:利用潜动作直接穿透背景噪点,理解物体受力与演变的物理常识,盘活了无标签数据资源。

2. 长时序双向物理因果链架构

针对传统双向动力学架构受限于“单步瞬时推理”导致的误差滚雪球效应,MWA™ 进行了核心范式创新:

  • 正逆双向互审机制
    • 逆动力学(IDM):负责“由果推因”,从结果反推导致该结果的动作特征。
    • 正动力学(FDM):负责“由因及果”,给定动作推演环境变化。
    • 两者并非独立运行,而是通过“正逆互审”进行因果对齐和虚拟验证,极大提升了推理精度。
  • 时序 Chunk 级建模:MWA™ 首创时序 Chunk 级逆向动力学建模机制,打破单步推理桎梏。在面对复杂连续任务时,模型能从 10 秒以上的视觉序列中,批量、一次性推理并输出连续多步的 Latent Action Chunk 动作组。这大幅减弱了长周期作业中的误差放大效应,实现了从“走一步看一步”到“长周期博弈推演”的跨越。

3. 原生适配强化学习与 AnyPhys 负样本体系

为了让隐空间内的物理常识转化为实际执行力,无界动力从底层架构让模型原生适配强化学习(RL)机制,并解决了行业数据“重正轻负”的瓶颈:

  • AnyPhys 数据体系:行业数据集多为“完美正样本”,缺乏失败教训。无界动力首创 AnyPhys 负样本核心数据体系,沉淀了几万条失败、失稳及临界边界样本,构建起罕见的“失败知识库”。
  • 稠密奖励设计:摒弃单一的成功奖励模式,建立自动区分正、负、次优、边界样本的方法论。例如在精密接插任务中,通过构建全局空间图,以末端三维距离为代价求解最短路径,量化动作进度,实现自动打分分类。
  • 效果验证:该机制兼容离线模仿加权与在线稠密奖励训练,在高精密插接任务实测中,噪声数据下的任务成功率最高提升 5 倍。

关键要点

  • 技术路线差异化:无界动力坚持“隐空间世界模型 + 强化学习”路线,区别于主流 VLA 模仿学习,强调对物理因果的底层理解而非表象模仿。
  • 全球第一的实测成绩:在 RoboCasa 榜单中,MWA™ – WALA 以 75.2% 的平均任务成功率位列全球第一,较第二名提升 2.4%,在长时序复合流程、受限空间拿取等高难度任务中表现突出。
  • 潜动作(Latent Action)创新:绕过人工动作标注,直接在隐空间抽象交互变化,使得模型可直接利用互联网海量无标签视频进行训练。
  • 长时序因果链:通过时序 Chunk 级逆向动力学建模,实现多步动作组的批量推理,有效解决长周期任务中的误差累积和动作不连贯问题。
  • 负样本驱动进化:通过 AnyPhys 体系引入失败和边界样本,配合稠密奖励设计,显著增强了机器人在噪声环境下的实操精度和泛化能力。
  • 团队与商业化落地:CEO 张玉峰(前地平线智驾一号位)与 CTO 夏中谱(端到端模型量产关键人物)的组合具备极强的“算法到量产”闭环能力。公司已签下近 1 亿美元全球订单,涵盖汽车(ZF LIFETEC、欧摩威)、能源(远景科技)及消费服务(连锁咖啡)等领域,并全栈自研 1200 TOPS 大小脑一体计算平台。

意义与影响

无界动力 MWA™ 的成功发布及其在 RoboCasa 榜单中的优异表现,标志着具身智能从“Demo 展示”向“真实世界交付”的关键转折。

  1. 打破泛化瓶颈:通过隐空间因果推理和无标签数据的高效利用,MWA™ 证明了机器人可以在强不确定性、非标准化的复杂环境中稳定作业,解决了行业长期存在的泛化性难题。
  2. 重新定义数据价值:AnyPhys 负样本体系和潜动作机制,将互联网上海量的、未被标注的视频数据转化为高价值的训练资源,降低了具身智能的数据获取成本,加速了模型迭代。
  3. 验证“理解先于行动”的哲学:该案例进一步印证了具身智能发展的根本路径——比起教会机器人更多具体任务,让其理解重力、碰撞、摩擦等物理世界的基本规律更为重要。只有具备物理常识的“大脑”,才能实现真正的通用具身智能。
  4. 产业落地的加速:无界动力在成立一年内即获得巨额融资并签下亿元级海外大单,表明资本市场和产业界对这种具备底层技术突破且能实现规模化交付的具身智能方案给予了高度认可,有望加速机器人技术在汽车制造、能源运维及商业服务等领域的规模化应用。
查看原文 →qbitai.com