← 返回信息流
AI 资讯量子位·4 天前

复旦系团队发布机器人原生世界动作模型,首创时空一体架构

原标题:机器人原生世界动作模型问世!首创时空一体架构,复旦系团队出品

速览

复旦系团队推出机器人原生世界动作模型,该模型首创时空一体架构。这一突破旨在提升机器人在复杂环境中的动作生成与理解能力。项目发展迅速,半年内已斩获5轮融资。

AI 深度解读

背景

随着通用人工智能(AGI)的竞争从虚拟数字空间延伸至真实物理世界,具身智能与机器人大脑已成为该赛道最核心的决胜高地。然而,当前行业主流的视觉语言动作模型(VLA)、通用世界模型及视频推演方案普遍存在空间感知精度不足、物理逻辑约束缺失、长时序规划能力薄弱以及真机落地鲁棒性差等痛点。这些缺陷导致现有模型难以支撑机器人实现真正的自主感知、推理、决策与稳定交互。

在此背景下,深耕世界动作模型底层技术五年的复旦系科创企业眸深智能(Mou Shen Intelligence),正式推出了专为机器人原生打造的通用具身大脑——STI-WM时空一体世界动作模型(Spatiotemporally Integrated World Model)。该模型旨在通过时空一体化建模、物理一致性约束及端到端原生融合,打破传统技术桎梏,开辟物理世界 AGI 落地的最优技术路径。

核心内容

STI-WM 是眸深智能历经五年迭代、完成七代技术更新后的核心成果。不同于行业常见的“通用世界模型 + VLA”拼接改良模式,STI-WM 确立了世界动作模型的原生融合路线。其核心逻辑在于:机器人与物理世界的所有交互最终都落地为动作,唯有精准理解时空演化规律、遵守物理逻辑并实现端到端原生映射,才能解决机器人泛化性差和落地难的问题。

1. 团队与学术积淀 眸深智能的核心团队源自复旦大学深度学习实验室,构建了“学术科研、工程落地、产业商业化”三位一体的架构。核心阵容包括:

  • 陈涛:复旦大学未来信息创新学院教授、深度学习实验室主任,负责科研底层。
  • 张益民:原英特尔中国首席科学家,负责工程化落地。
  • 穆泽林:95后复旦连续创业者,主导商业化布局。 团队超九成核心研发人员来自复旦大学,拥有百余名校硕博人才。其学术成果包括全球首个人形动作生成大模型 MotionGPT、三维世界模型 HL3DWM,并斩获 ICCV2023 全球三维目标识别冠军、CVPR2024 三维密集语义推理冠军及 IJCAI2025 杰出论文奖。其原创技术被英伟达 DAIR 等国际顶尖实验室引用。

2. 技术架构与原理 STI-WM 实现了空间结构、时间演化、物理一致性、执行鲁棒性的“四维统一”:

  • 多模态输入与编码:兼容 RGB 图像、深度点云及机器人本体多模态感知输入,将复杂环境信息统一编码为紧凑高效的时空潜在世界状态。
  • 闭环控制机制:上层支持百秒级长时程任务推演与全局轨迹规划,下层输出精准可控的精细化动作片段。通过实时环境观测动态纠偏和在线重规划,构建“理解世界—推演未来—规划动作—执行纠错”的完整物理智能闭环。
  • 对比优势:相较于 Dreamer 系列(偏重环境预测、忽视真机控制)、LWM/PWM(时空割裂)及仅追求视觉逼真的视频生成模型,STI-WM 以三维几何约束、动力学校验和真机闭环执行为核心,彻底解决信息失真和泛化薄弱问题。

3. 六大核心技术壁垒

  • 时空一体化原生建模:空间结构与时间动态实时耦合,消除多模块拼接的信息损耗,提升推理效率与决策精准度。
  • 原生三维感知能力:基于点云直接还原真实物理空间,规避 2D 视觉深度缺失和空间误判缺陷。
  • 内置物理一致性引擎:融合碰撞检测与动力学约束,从底层杜绝不合理动作与环境崩坏,保障真机执行安全。
  • 长时程高阶规划:支持百秒级连续复杂任务自主推演,适配真实场景复杂作业需求。
  • 端侧轻量化部署:通过自研模型压缩、量化蒸馏技术,实现百亿级大模型在机器人端侧芯片的低成本落地,降低算力门槛。
  • 小样本强泛化能力:依托虚拟世界大规模预训练加少量真机微调,高效适配陌生场景与长尾任务,降低数据依赖。

关键要点

  • 首创时空一体架构:STI-WM 是全球首个专为机器人原生打造的时空一体世界动作模型,实现了从“视觉合理”到“物理可行”的跨越。
  • 复旦系硬核团队:核心团队由复旦大学深度学习实验室教授、前英特尔首席科学家及英伟达技术负责人组成,学术与工程能力稳居全球第一梯队。
  • 解决行业痛点:针对现有 VLA 和世界模型存在的物理逻辑缺失、长时序规划弱、真机鲁棒性差等问题,提供了端到端原生融合的解决方案。
  • 技术领先性:团队早在 2022 年即提出全球首个影空间语言-动作端到端映射 MLD 模型,该思路于 2025 年 5 月被英伟达 DAIR 实验室核心工作引用验证。
  • 商业化进展迅速:公司半年内完成 5 轮融资,3 亿元 Pre-A 轮融资获 5 倍超额认购。已与宇树科技、禾川科技、颐家养老等头部企业达成合作,并与近十家上市公司(含五家以上千亿级产业龙头)达成战略合作,预计未来三年可锁定 10 亿元订单。

意义与影响

STI-WM 的问世标志着 AGI 竞争正式进入物理智能新时代。其意义主要体现在以下三个方面:

  1. 重构行业技术范式:通过摒弃传统的模态拼接模式,STI-WM 证明了“世界动作模型原生融合”是解决机器人泛化性和落地难的更优路径,为行业提供了新的技术参考标准。
  2. 加速通用具身智能落地:凭借端侧轻量化部署和小样本强泛化能力,该模型大幅降低了产业化算力门槛和数据依赖,使得通用机器人能够在工业制造、居家康养、商业服务等多元真实场景中规模化部署。
  3. 推动中国物理 AI 领跑全球:眸深智能依托复旦系的学术底蕴与全栈自研能力,在底层架构上实现原创创新,有助于提升中国在原生物理 AI 领域的全球竞争力,开启物理世界 AGI 的全新纪元。
查看原文 →qbitai.com