智源大会:天工AI发布Matrix-Game 3.5重新定义世界模型
速览
昆仑万维旗下天工AI在智源大会上公布了Matrix-Game 3.5的最新技术进展。该成果旨在重新定义世界模型,标志着其在AI底层技术领域的持续深耕。此举展示了天工AI在构建更智能、更逼真的虚拟世界模拟能力上的最新突破。
AI 深度解读
背景
6月12日至13日,第8届智源大会在北京举行。本届大会汇聚了2位图灵奖得主、8位院士、30位30岁以下青年科学家以及40余位AI企业CEO及创始人,围绕Agent、世界模型、具身智能、AI自进化与AI安全等前沿议题展开深入探讨。其中,“世界模型”成为最受关注的核心议题之一,来自具身智能、机器人控制、游戏引擎及物理AI基础设施等不同领域的研究者提出了各自的技术路线。
在此背景下,昆仑万维旗下Skywork首席科学家刘扬受邀出席6月13日的世界模型分论坛。他发表了题为《Matrix-Game:长时序记忆下的实时流式交互式世界模型》的演讲,系统阐述了Matrix-Game的研发历程与最新进展,并首次公布了Matrix-Game 3.5的核心技术突破。刘扬提出了“下一帧状态生成和动作生成应该进行联合训练”的全新框架,旨在解决世界模型在长时序记忆、实时性及物理一致性方面的瓶颈。
核心内容
1. 重新定义世界模型:从“预测”到“状态-动作联合生成”
当前全球世界模型赛道技术路线快速分化,但一个共识正在形成:世界模型已从纯学术命题演变为机器人、仿真、游戏与通用AI底层能力的竞争。国内昆仑万维的Matrix-Game是该赛道中起步最早、系统化程度最高的力量之一。
刘扬指出,业内对“世界模型”的定义混乱,视频生成、3D表征和交互式模拟器并非同一对象。他提出了更完整的理解框架:
- 理解当下状态:超越纯视觉,需理解物体级别的物理属性(如墙是否可穿越、水的温度)。
- 预测下一个状态:基于当前状态推断世界演化。
- 渲染呈现:使开发者能观测“下一帧”。
然而,Matrix Game的训练揭示了一个关键结论:状态的预测与动作的生成应当联合训练,而非分而治之。 联合训练能显著提升对状态的理解及状态与动作的预测能力。这意味着完整的世界模型是对状态与动作的联合理解与联合生成,可根据应用场景侧重输出状态(交互模拟器)或动作(机器人控制)。
2. Matrix-Game 演进路线:以游戏为切口,通向通用交互
团队选择游戏作为训练与验证切入点,因为游戏天然具备视觉输入、状态接受、动作指令输出及下一帧生成的闭环特性,且能在可控条件下生成高质量数据。
- Matrix-Game 1.0 (2025年3月):最早公开的可交互世界模型之一。
- Matrix-Game 2.0 (2025年8月):业界首个实现分钟级实时长序列交互的世界模型,单卡B100、720P@25FPS,首个开源方案。其影响力得到认可,DiT作者谢赛宁团队基于此发布了全球首个多人视频世界模型Solaris。
- Matrix-Game 3.0 (2026年3月):5B参数蒸馏模型实现720P@40FPS实时生成,补齐了记忆、长时程和实时性三大短板,跻身全球第一梯队。
- Matrix-Game 3.5 (计划2026年7月发布):首次系统披露核心突破。从游戏场景向真实场景扩展,支持多风格动态切换、指令控制及NPC交互,并全新升级长时记忆能力。
3. 构建无限数据引擎,突破数据瓶颈
传统数据采集成本高、效率低。Skywork团队构建了自动化数据生产管线,输出 Video + Pose + Action + Language 的高质量数据,目前已产出500万+高质量视频切片、1万+有效训练小时数及1200+覆盖游戏场景。具体包括:
- 基于Unreal Engine 5的自主探索管线:部署RL Agent在UE5场景中自由探索,毫秒级同步采集视觉、动作及语义信息。
- 跨游戏自动化控制与探索管线:覆盖《GTA V》《荒野大镖客2》《赛博朋克2077》等3A大作,实现自动录制与标注。
- 开放平台视频自动挖掘管线:利用VLM筛选高质量片段,自动完成切分、过滤与结构化标注。
4. 训练中的关键挑战与技术突破
- 动作信号与视觉画面缺乏一一对应:同一视觉变化可能由不同动作引起(如鼠标或键盘)。团队通过主动构建数据场景,明确物理规则,解决歧义。
- 模型理解动作指令但不理解物理后果:例如模型能理解“往前走”,但无法认知“墙不可穿越”。团队建立主动数据标注体系,手工构建边界场景,注入物理知识。
- 注入控制参数破坏原始视频分布:早期将动作信号作为额外参数注入,导致基础能力退化。3.5版本采用PRoPE(Projective Position Encoding)机制,通过相机投影矩阵让模型感知相对位姿,降低对分布的破坏并增强泛化能力。
- 记忆检索方式决定长时程一致性上限:早期原样存储历史帧导致上下文窗口占用大、画面冲突。3.5版本将历史帧切分为三维坐标系下的空间块(spatial tokens),按空间位置匹配重组,提升一致性、稳定性及灵活性。
关键要点
- 技术范式升级:Matrix-Game 3.5 的核心创新在于提出并实现了“状态生成”与“动作生成”的联合训练框架,打破了以往单向观测预测的局限。
- 性能指标突破:Matrix-Game 3.0 已实现5B参数模型在720P分辨率下的40FPS实时生成;3.5版本将进一步扩展至真实场景,支持NPC交互及多风格动态切换。
- 数据基础设施:通过UE5自主探索、跨游戏自动化控制及开放平台挖掘三条管线,构建了包含500万+视频切片的高质量自动化数据引擎,解决了世界模型训练的数据瓶颈。
- 解决核心痛点:
- 针对动作歧义:通过主动构建场景明确物理规则。
- 针对物理常识缺失:通过手工标注边界场景注入物理知识。
- 针对分布破坏:引入PRoPE机制替代传统的参数注入。
- 针对长时记忆:采用三维空间块(spatial tokens)检索与重组机制,提升画面一致性与灵活性。
- 开源生态价值:Matrix-Game 2.0 作为首个开源方案,已吸引顶级学术团队(如NYU谢赛宁团队)基于其底座开发新模型,证明了其在基础模型领域的技术影响力。
意义与影响
Matrix-Game 3.5 的公布标志着世界模型技术从“仿真器”向“通用交互基础模型”的跨越。通过确立状态与动作联合生成的统一框架,Skywork团队为解决具身智能和机器人控制中的物理世界交互难题提供了新的技术路径。
该成果不仅展示了昆仑万维在AI基础设施领域的深耕能力,也通过开源策略推动了全球世界模型生态的发展。随着3.5版本计划于2026年7月发布,世界模型有望进一步突破游戏边界,在机器人控制、物理仿真及通用人工智能(AGI)的关键基石领域发挥更实质性的作用,重新定义智能体与物理世界的交互方式。
