← 返回信息流
AI 资讯爱范儿·3 天前

VAST完成近2亿美元融资,以状态渲染解耦重构世界模型

原标题:世界模型赛道,VAST 选了一条还没有人走过的路

速览

AI公司VAST完成A+及A++轮融资,合计近2亿美元。其推出的Project Eden采用状态与渲染原生解耦架构,底层维护独立世界状态,上层按需渲染,解决了传统世界模型缺乏持久化和多用户交互一致性的问题。该路径被视为通用人工智能底层基础设施的重要探索。

AI 深度解读

背景

当前,人工智能行业正面临从单一模态向多模态、从文本理解向物理世界认知的关键转型。继 Agent(智能体)赛道之后,“世界模型”(World Model)已成为 AI 领域新的必争之地。李飞飞(Fei-Fei Li)和杨立昆(Yann LeCun)等顶尖学者相继宣布获得巨额融资,标志着该赛道已进入资本密集投入阶段。

然而,世界模型目前尚处于定义模糊、路线分化的十字路口。早在 ChatGPT 出现之前,众多 AI 学者便指出大语言模型(LLM)的文本训练范式已触及瓶颈,认为 AI 若要真正理解物理世界,必须依赖世界模型。目前行业内主要存在三大技术流派:

  1. 抽象表征预测派:以杨立昆的 JEPA 为代表,侧重于抽象特征的预测。
  2. 空间智能派:以李飞飞的 World Labs(Marble 模型)为代表,致力于显式的 3D 重建与几何理解。
  3. 学习型仿真派:以 DeepMind 的 Genie 为代表,旨在构建可交互的虚拟环境。

尽管各路巨头纷纷入局,但业界对于“什么是世界模型”并未达成共识。在此背景下,AI 公司 VAST 通过完成近 2 亿美元的 A+ 及 A++ 轮融资,以及其旗下产品 Tripo 在 3D 生成领域的积累,提出了一条区别于现有主流流派的全新路径。

核心内容

VAST 的核心主张是:世界模型不应仅仅是生成流畅视频或静态 3D 场景,而应是一个具备底层状态独立维护确定性控制的系统。其首席科学家曹炎培将这一愿景拆解为两步:第一步是“造万物”,即利用 AI 3D 生成符合管线标准的资产;第二步是“造世界”,即构建可演化、可试错、支持多人交互的完整虚拟环境。

1. 架构革新:状态与渲染的原生解耦

VAST 提出的 Project Eden 是全球首个允许对世界状态进行独立维护与确定性控制的世界模型。其核心创新在于将“世界状态”与“画面渲染”彻底拆分,这与传统模型将两者压缩在一起预测的方式截然不同。

  • 传统视频生成派(如 Genie):本质是“一镜到底”的视频生成。模型通过 Transformer 的 KV cache 记忆历史帧,预测下一帧像素。这种方式的缺陷在于,当镜头移开或视角改变时,模型缺乏对场景持久性的记忆,只能重新“幻想”场景,导致空间一致性差,且无法记录动作带来的永久改变。
  • 传统空间智能派(如 Marble):虽然能构建固定的 3D 空间,解决了视角一致性问题,但往往丢失了时间维度。场景是静态的,缺乏物理变化、事件因果和动态演化,用户无法真正改变世界。
  • VAST 的解耦架构
    • 底层(结构化状态):独立维护世界的几何、物体身份、事件逻辑等状态信息。无论镜头是否看向某处,物体状态始终存在且持续更新。
    • 中间层(转换层):根据观察者身份和视角,将底层状态转换为局部条件信息(如可见物体、空间关系)。
    • 上层(生成式渲染):仅负责基于条件信息生成高质量画面,充当高效渲染器,无需记忆世界全貌。

2. 数据构建:从 2D 视频到 3D 状态的反向工程

为了实现上述架构,VAST 解决了世界模型训练数据匮乏的问题。Project Eden 要求训练数据必须同时包含“底层推演状态”和“高质量视觉画面”。

  • 互联网视频反解构:利用 Tripo 积累的 3D 基础模型能力,对海量互联网 2D 视频进行反向解构,恢复深度、相机位姿、几何轨迹等信息,还原背后的空间状态。
  • 游戏引擎合成数据:利用游戏引擎中已有的物体坐标、碰撞关系、动作输入等数据,形成“状态-结果”的完全对应数据,让模型学习动作对世界状态的演化影响。
  • 数据互补:互联网视频提供泛化与广度,引擎数据提供精准与控制,两者结合构成了原生训练数据。

3. 能力验证:持久化、多人交互与动作泛化

Project Eden 的 Demo 展示了其架构带来的实质性能力突破:

  • 环境持久化:用户的行为(如推箱子、射击)会永久改变底层状态,后续进入的用户或同一用户的再次访问都能看到一致的结果,而非重新生成。
  • 多人并发交互:由于状态独立于渲染,多个玩家可以共享同一个世界底座。Demo 中展示了两人共同推箱子、赛车竞速等场景,状态只有一份,渲染各自独立。
  • 动作泛化:除了基础的移动跳跃,模型还能处理赶羊、灭火、划船等复杂动作。因为状态推演只需学习“动作->状态变化”,无需同时学习视觉效果,训练效率更高。

关键要点

  • 路线差异化:VAST 没有选择纯视频生成或纯静态 3D 重建,而是采用“状态与渲染原生解耦”的三层算法结构,模仿大世界游戏的服务器-客户端逻辑。
  • 确定性优于逼真度:世界模型的核心价值在于对物理世界的正确推演(对不对),而非仅仅画面逼真(像不像)。VAST 强调状态的可预测性和确定性控制。
  • 数据驱动创新:通过 Tripo 的 3D 生成能力对 2D 视频进行反向工程,提取深度和几何信息,解决了世界模型训练数据中“状态”缺失的难题。
  • 商业化逻辑转变:世界模型将从按次生成的 SaaS 模式,转向类似游戏引擎或云服务的“座席模式”(Seat Model)。状态维护在云端,渲染在端侧,降低单次生成成本。
  • 应用前景广阔
    • UGC 娱乐:降低互动内容创作门槛,用户可通过自然语言一键生成可多人共享的物理世界,形成新的互动娱乐生态。
    • 科研与产业:为具身智能(Embodied AI)提供具备完整物理规则、长时序一致性且可自由干预的高质量仿真基座。
  • 发展里程碑
    1. 验证状态推演与画面呈现的解耦(Project Eden Demo 阶段)。
    2. 攻克状态预测的泛化能力(如非预设动作的物理推演)。
    3. 解决多人并发与推理成本的工程难题,迈向中长期商业化。

意义与影响

VAST 的 Project Eden 为世界模型赛道提供了一条具有长期参考价值的探索方向,其意义在于重新定义了世界模型的底层逻辑。

首先,它指出了纯视频生成路线在算力消耗和逻辑一致性上的局限性。纯视频模型需要极高的算力来维持帧间连贯性,且难以实现真正的物理交互和持久化。VAST 的解耦架构通过云端维护状态、端侧进行渲染,有望大幅降低推理成本,使世界模型在商业上具备可持续性。

其次,它推动了 AI 从“内容生成”向“环境构建”的范式转移。传统 AI 关注生成静态图片或视频片段,而世界模型旨在构建一个持续运转、可交互的数字宇宙。VAST 将“造世界”的门槛压低至接近拍照的水平,预示着未来可能出现类似短视频平台的 UGC 互动内容生态。

最后,对于具身智能和机器人领域,VAST 提供的具备完整物理规则和长时序一致性的仿真环境,将成为训练和评测智能体的关键基础设施。随着多人并发问题的解决,这种 AI 原生的沙盒平台有望颠覆传统的数字内容创作(DCC)工具(如 Blender)和游戏引擎(如 UE、Unity),成为下一代互联网互动体验的基础底座。

查看原文 →ifanr.com