← 返回信息流
AI 资讯量子位·3 天前

VAST完成近2亿美元融资,披露世界模型路线

原标题:近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

速览

VAST宣布完成新一轮近2亿美元融资,并正式披露其世界模型技术路线。该融资将支持其开发能够模拟真实物理世界的AI模型,旨在实现多人真正同屏的沉浸式体验。这一进展标志着生成式AI在构建复杂动态场景方面迈出了关键一步。

AI 深度解读

背景

通用人工智能(AGI)公司 VAST 近期完成了近 2 亿美元的 A+ 及 A++ 轮融资,领投方包括渶策资本和国寿长三角科创基金。投资方阵容强大,汇聚了深圳市人工智能终端产业基金(产业方为荣耀)、上海半导体产投等产业资本,以及深创投、元生资本、沃赋创投、方广资本等一线财务资本,春华创投、靖亚资本、BV 百度风投、东方嘉富等老股东也进行了超额追投。

这是 VAST 继今年 3 月完成 5000 万美元 A 轮融资后,再次获得资本市场的强力背书。与此同时,VAST 正式对外披露了其世界模型技术路线——Project Eden。这一举措标志着 VAST 从此前以 Tripo 系列为核心的 AI 3D 生成能力,向构建可交互、可演化虚拟世界的底层基础设施迈进,旨在为通用人工智能打造专属的“世界底座”。

核心内容

VAST 首席科学家曹炎培指出,VAST 的核心愿景是解锁下一代互动内容的底层基础设施。其技术路径分为两个阶段:第一步是“造万物”,即利用 AI 生成天然兼容工业管线的 3D 资产;第二步是“造世界”,构建可动态推演、多人实时交互且状态永久留存的完整虚拟环境。

目前业界的世界模型技术路线纷繁复杂,各家押注不同:

  • Google DeepMind 的 Genie:采用单体视频模型路线,将空间、交互、视角压缩进像素历史,但缺乏独立的状态概念,难以支持多玩家交互。
  • World Labs (李飞飞创立):通过 Marble 强调空间结构和几何一致性,能从单图生成持久 3D 世界,但剥离了时间维度和物理逻辑,目前仅停留在静态场景重建。
  • JEPA (Yann LeCun 力推):主张在潜空间维护内部状态进行推演,与 VAST 哲学有共识,但更多停留在学术纲领阶段。

VAST 认为,合格的通用世界模型必须同时解决两大命题:定义世界当下的客观状态(State)和驱动世界持续自主演化(Transition)。为此,VAST 提出了 Project Eden,其核心技术在于将底层状态推演视觉呈现进行原生解耦。

Project Eden 的三层架构:

  1. 底层:结构化状态层。维护一个跨时间持续存在的全局世界状态。这是一种紧凑的隐式表征,记录场景几何、物体身份和全局事件逻辑。它独立于相机视角,确保物理一致性从架构层面得到保证,而非靠模型“猜”出。
  2. 中间:条件接口层。将底层 3D 状态转化为特定视角下的语义和几何约束,确保所有视角渲染同源。
  3. 上层:生成式渲染层。专注于补全纹理、光照、材质和局部动态细节,算力集中在渲染本身,不再需要盲猜画面结构。

这种解耦设计的核心优势在于降低模型负担。例如,当玩家按下灭火器时,状态模型只需推理“粉末是否喷出”,而渲染模型负责呈现“喷出的逼真效果”。若耦合训练,模型需同时处理逻辑判断和视觉逼真度,算力负担将指数级增加。

数据策略支撑:

  • L1 海量互联网视频自标注:依托 Tripo 的 3D 基础模型能力,对互联网 2D 视频进行反向解构,提取深度、相机位姿与几何轨迹,提炼出兼具底层推演态和视觉渲染态的双态数据,提供泛化底座。
  • L2 引擎合成数据:利用游戏引擎天然运行两种状态的特性,通过 Agent 在引擎环境中 7×24 小时不间断探索,自动录制带有精准 3D 状态标注的训练配对数据,帮助模型学习严密的物理演变和控制逻辑。

三大核心能力:

  1. 原生环境持久化:对象离开视锥后仍在底层状态中运转,用户回看时查询的是确定存在的客观状态,实现长程记忆和一致性。
  2. 场景自由复用与模块化:用户可反复介入正在运转的底层世界,操作被真实留存,支持全域状态延续与高效复用,打破传统视频模型“一镜到底”的盲盒限制。
  3. 原生多玩家交互:底层状态被所有智能体共享并同步推演,系统只需根据坐标分别渲染多路画面,算力成本线性可控,解决了单体视频模型算力随人数指数爆炸的问题。

落地场景:

  • 消费端:AI 原生沙盒平台,支持用户通过自然语言或简易动作一键创作可多人共享的互动数字世界。
  • 科研端:具身智能的高质量仿真基座,支持集群式智能体训练和多智能体协同研究。

VAST 在此领域拥有深厚积累。其旗下 Tripo 系列是全球使用最广泛的通用 3D 生成大模型之一,拥有全球最大的高质量原生 3D 数据集。Tripo H3.1 刷新了 AI 3D 精度天花板,Tripo P1.0 实现了秒级生产级网格输出,Tripo 8K 贴图将边际成本降至近乎为零。此外,VAST 已开源超 30 个项目,覆盖从基础表征到生成管线的完整技术栈。

创始团队方面,CEO 宋亚宸(前商汤科技、MiniMax 联合创始人)、CTO 梁鼎(清华大学本硕博,前商汤通用模型负责人)和首席科学家曹炎培(清华大学博士,threestudio、TripoSR 主导者,前腾讯 ARC 实验室专家研究员)均具备顶尖的技术背景。

尽管进展显著,VAST 仍面临两大挑战:一是支持更丰富物理动态和更细粒度交互的高复杂度场景演化;二是实现状态的自主维护,即通过强大的状态转移模型,根据智能体交互行为持续自监督更新底层状态,不再依赖外部标注。

关键要点

  • 融资与战略:VAST 完成近 2 亿美元融资,正式披露世界模型路线 Project Eden,从“造万物”(3D 资产生成)向“造世界”(可交互虚拟环境)演进。
  • 技术架构创新:Project Eden 首创将底层状态推演与视觉呈现原生解耦。底层维护全局客观状态,上层专注渲染,中间层进行约束转化,确保物理一致性和计算效率。
  • 解决行业痛点
    • 克服 Genie 等单体视频模型缺乏状态概念、无法支持多玩家交互的缺陷。
    • 弥补 World Labs 等方案缺乏时间维度和物理逻辑的不足。
    • 解决多玩家场景下算力指数爆炸的问题,实现线性可控的算力成本。
  • 数据双轮驱动
    • L1 利用互联网视频自标注提供泛化能力。
    • L2 利用游戏引擎合成数据提供精准物理逻辑和控制逻辑。
  • 核心能力突破:实现环境持久化(长程记忆)、场景模块化复用(状态留存)和原生多玩家交互(共享状态推演)。
  • 深厚技术底座:依托 Tripo 系列在 AI 3D 领域的领先地位(如 H3.1、P1.0、8K 贴图)及超 30 个开源项目,VAST 拥有全球最大高质量原生 3D 数据集和深厚的 3D 生成技术积累。
  • 未来挑战:需攻克高复杂度场景的物理演化以及状态的完全自主维护(自监督更新),以让虚拟世界真正“活”起来。

意义与影响

VAST 披露 Project Eden 及其世界模型路线,标志着 AI 从单纯的“内容生成”向“环境模拟与交互”迈出了关键一步。

首先,技术路线的差异化竞争。在业界普遍陷入单体视频模型或静态 3D 重建的内卷时,VAST 提出的“状态与渲染解耦”架构,从底层逻辑上解决了多智能体交互、长程一致性和物理演化的难题。这种架构不仅适用于当前的 AI 生成,更为通用人工智能(AGI)提供了必要的“世界底座”,使 AI 智能体能够在其中进行试错

查看原文 →qbitai.com