AI 资讯爱范儿·3 天前

VAST完成近2亿美元融资，以状态渲染解耦重构世界模型

原标题：世界模型赛道，VAST 选了一条还没有人走过的路

速览

AI公司VAST完成A+及A++轮融资，合计近2亿美元。其推出的Project Eden采用状态与渲染原生解耦架构，底层维护独立世界状态，上层按需渲染，解决了传统世界模型缺乏持久化和多用户交互一致性的问题。该路径被视为通用人工智能底层基础设施的重要探索。

AI 深度解读

背景

当前，人工智能行业正面临从单一模态向多模态、从文本理解向物理世界认知的关键转型。继 Agent（智能体）赛道之后，“世界模型”（World Model）已成为 AI 领域新的必争之地。李飞飞（Fei-Fei Li）和杨立昆（Yann LeCun）等顶尖学者相继宣布获得巨额融资，标志着该赛道已进入资本密集投入阶段。

然而，世界模型目前尚处于定义模糊、路线分化的十字路口。早在 ChatGPT 出现之前，众多 AI 学者便指出大语言模型（LLM）的文本训练范式已触及瓶颈，认为 AI 若要真正理解物理世界，必须依赖世界模型。目前行业内主要存在三大技术流派：

抽象表征预测派：以杨立昆的 JEPA 为代表，侧重于抽象特征的预测。
空间智能派：以李飞飞的 World Labs（Marble 模型）为代表，致力于显式的 3D 重建与几何理解。
学习型仿真派：以 DeepMind 的 Genie 为代表，旨在构建可交互的虚拟环境。

尽管各路巨头纷纷入局，但业界对于“什么是世界模型”并未达成共识。在此背景下，AI 公司 VAST 通过完成近 2 亿美元的 A+ 及 A++ 轮融资，以及其旗下产品 Tripo 在 3D 生成领域的积累，提出了一条区别于现有主流流派的全新路径。

核心内容

VAST 的核心主张是：世界模型不应仅仅是生成流畅视频或静态 3D 场景，而应是一个具备底层状态独立维护与确定性控制的系统。其首席科学家曹炎培将这一愿景拆解为两步：第一步是“造万物”，即利用 AI 3D 生成符合管线标准的资产；第二步是“造世界”，即构建可演化、可试错、支持多人交互的完整虚拟环境。

1. 架构革新：状态与渲染的原生解耦

VAST 提出的 Project Eden 是全球首个允许对世界状态进行独立维护与确定性控制的世界模型。其核心创新在于将“世界状态”与“画面渲染”彻底拆分，这与传统模型将两者压缩在一起预测的方式截然不同。

传统视频生成派（如 Genie）：本质是“一镜到底”的视频生成。模型通过 Transformer 的 KV cache 记忆历史帧，预测下一帧像素。这种方式的缺陷在于，当镜头移开或视角改变时，模型缺乏对场景持久性的记忆，只能重新“幻想”场景，导致空间一致性差，且无法记录动作带来的永久改变。
传统空间智能派（如 Marble）：虽然能构建固定的 3D 空间，解决了视角一致性问题，但往往丢失了时间维度。场景是静态的，缺乏物理变化、事件因果和动态演化，用户无法真正改变世界。
VAST 的解耦架构：
- 底层（结构化状态）：独立维护世界的几何、物体身份、事件逻辑等状态信息。无论镜头是否看向某处，物体状态始终存在且持续更新。
- 中间层（转换层）：根据观察者身份和视角，将底层状态转换为局部条件信息（如可见物体、空间关系）。
- 上层（生成式渲染）：仅负责基于条件信息生成高质量画面，充当高效渲染器，无需记忆世界全貌。

2. 数据构建：从 2D 视频到 3D 状态的反向工程

为了实现上述架构，VAST 解决了世界模型训练数据匮乏的问题。Project Eden 要求训练数据必须同时包含“底层推演状态”和“高质量视觉画面”。

互联网视频反解构：利用 Tripo 积累的 3D 基础模型能力，对海量互联网 2D 视频进行反向解构，恢复深度、相机位姿、几何轨迹等信息，还原背后的空间状态。
游戏引擎合成数据：利用游戏引擎中已有的物体坐标、碰撞关系、动作输入等数据，形成“状态-结果”的完全对应数据，让模型学习动作对世界状态的演化影响。
数据互补：互联网视频提供泛化与广度，引擎数据提供精准与控制，两者结合构成了原生训练数据。

3. 能力验证：持久化、多人交互与动作泛化

Project Eden 的 Demo 展示了其架构带来的实质性能力突破：

环境持久化：用户的行为（如推箱子、射击）会永久改变底层状态，后续进入的用户或同一用户的再次访问都能看到一致的结果，而非重新生成。
多人并发交互：由于状态独立于渲染，多个玩家可以共享同一个世界底座。Demo 中展示了两人共同推箱子、赛车竞速等场景，状态只有一份，渲染各自独立。
动作泛化：除了基础的移动跳跃，模型还能处理赶羊、灭火、划船等复杂动作。因为状态推演只需学习“动作->状态变化”，无需同时学习视觉效果，训练效率更高。

关键要点

路线差异化：VAST 没有选择纯视频生成或纯静态 3D 重建，而是采用“状态与渲染原生解耦”的三层算法结构，模仿大世界游戏的服务器-客户端逻辑。
确定性优于逼真度：世界模型的核心价值在于对物理世界的正确推演（对不对），而非仅仅画面逼真（像不像）。VAST 强调状态的可预测性和确定性控制。
数据驱动创新：通过 Tripo 的 3D 生成能力对 2D 视频进行反向工程，提取深度和几何信息，解决了世界模型训练数据中“状态”缺失的难题。
商业化逻辑转变：世界模型将从按次生成的 SaaS 模式，转向类似游戏引擎或云服务的“座席模式”（Seat Model）。状态维护在云端，渲染在端侧，降低单次生成成本。
应用前景广阔：
- UGC 娱乐：降低互动内容创作门槛，用户可通过自然语言一键生成可多人共享的物理世界，形成新的互动娱乐生态。
- 科研与产业：为具身智能（Embodied AI）提供具备完整物理规则、长时序一致性且可自由干预的高质量仿真基座。
发展里程碑：
1. 验证状态推演与画面呈现的解耦（Project Eden Demo 阶段）。
2. 攻克状态预测的泛化能力（如非预设动作的物理推演）。
3. 解决多人并发与推理成本的工程难题，迈向中长期商业化。

意义与影响

VAST 的 Project Eden 为世界模型赛道提供了一条具有长期参考价值的探索方向，其意义在于重新定义了世界模型的底层逻辑。

首先，它指出了纯视频生成路线在算力消耗和逻辑一致性上的局限性。纯视频模型需要极高的算力来维持帧间连贯性，且难以实现真正的物理交互和持久化。VAST 的解耦架构通过云端维护状态、端侧进行渲染，有望大幅降低推理成本，使世界模型在商业上具备可持续性。

其次，它推动了 AI 从“内容生成”向“环境构建”的范式转移。传统 AI 关注生成静态图片或视频片段，而世界模型旨在构建一个持续运转、可交互的数字宇宙。VAST 将“造世界”的门槛压低至接近拍照的水平，预示着未来可能出现类似短视频平台的 UGC 互动内容生态。

最后，对于具身智能和机器人领域，VAST 提供的具备完整物理规则和长时序一致性的仿真环境，将成为训练和评测智能体的关键基础设施。随着多人并发问题的解决，这种 AI 原生的沙盒平台有望颠覆传统的数字内容创作（DCC）工具（如 Blender）和游戏引擎（如 UE、Unity），成为下一代互联网互动体验的基础底座。

查看原文 →ifanr.com