← 返回信息流
AI 资讯量子位·8 天前

5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了

速览

北京大学、香港中文大学及上海人工智能实验室联合推出VGGT-Edit,这是一种基于视频生成基础模型的3D场景编辑工具。该方法摒弃了传统的2D绕回3D流程,直接在3D空间进行操作,将编辑速度提升了120倍,仅需5秒即可完成。这一突破显著降低了3D内容创作的门槛,为实时3D编辑和生成式AI应用提供了高效解决方案。

AI 深度解读

背景

3D生成与重建领域近年来取得了显著进展,从早期的 NeRF 到当前的 3D Gaussian Splatting,再到 VGGT、$\pi^3$ 等前馈式(Feed-forward)3D 重建模型,行业速度明显加快。仅需几张输入图片,模型即可在数秒内重建出完整的 3D 场景。

然而,现有的 3D 生成模型普遍存在“只建不改”的局限。虽然模型能够理解并重建三维世界,但缺乏对三维世界的修改能力。用户很难通过自然语言指令完成具体的编辑任务,例如“将椅子移至窗边”、“删除中间的椅子”或“将灰色皮沙发改为白色长毛沙发”。

更严峻的问题在于,现有方法在处理复杂编辑时往往导致多视角不一致。例如,在某个视角中删除了椅子,但在其他视角中椅子又重新出现;或者未修改的背景区域发生非预期的变形。这种“在不同角度硬 P 图”的现象,对于机器人、AR/VR 及空间智能等需要严格几何一致性的应用场景而言,是致命的缺陷。

核心内容

针对上述痛点,来自北京大学、香港中文大学、上海 AI Lab、南洋理工大学(NTU)等机构的研究团队提出了 VGGT-Edit,这是一套原生的 3D 编辑框架。其核心设计理念是“不再绕回 2D”,即直接在 3D 空间内完成编辑操作,而非传统的“2D 编辑后投影回 3D”的思路。

1. 残差场预测机制(Residual Field Prediction) VGGT-Edit 建立在 VGGT-Like 前馈式重建模型之上,继承了其快速高效的 3D 表示能力。与传统方法重新生成整个场景不同,该框架采用残差场预测机制:

  • 模型保留原始场景稳定的 3D 结构。
  • 仅学习“需要变化的局部区域”,如物体移动、材质改变、物体删除或新增。
  • 最终输出遵循公式:新场景 = 原场景 + 局部残差变化。 这一设计确保了未修改的背景区域保持高度稳定,避免了全局重生成带来的几何漂移。

2. 深度同步文本注入(Depth-Synchronized Text Injection) 为解决文本指令与 3D 空间位置对齐困难的问题,团队设计了深度同步文本注入机制:

  • 不同于传统方法仅在输入层注入一次文本信息,VGGT-Edit 在多个关键网络层持续融合文本语义。
  • 这种机制使模型在整个 3D 生成过程中,始终明确“修改哪个区域”、“修改目标是什么”以及“空间位置在哪里”。
  • 配合“视角重要性加权”算法,模型能自动评估不同视角的可靠性(如遮挡情况),从而提升多视角编辑的稳定性。

3. 专用 3D 编辑头(Editing Head) VGGT-Edit 额外设计了一套专门面向 3D 编辑任务的编辑分支(Editing Head):

  • 该 Head 直接作用于 3D 表示空间,输出对应的残差场变化。
  • 它负责学习哪些区域保持不变、哪些区域需要编辑,并确保编辑后的多视角一致性。
  • 相比直接重新生成,这种方式更加稳定且高效,是赋予 VGGT-Like 模型编辑能力的关键步骤。

4. DeltaScene 数据集构建 为了训练该模型,团队构建了规模近 10 万组的 DeltaScene 数据集,涵盖客厅、办公室、住宅等多种场景。数据生成流程高度自动化,利用 Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max 等工具,自动完成编辑指令生成、目标识别、多视角编辑及 3D 一致性过滤,确保训练数据满足“多视角几何一致”的要求。

关键要点

  • 原生 3D 编辑:摒弃传统的“2D 编辑+3D 重建”范式,直接在 3D 空间进行编辑,从根本上解决多视角不一致问题。
  • 残差学习策略:通过预测局部残差变化而非全局重生成,大幅提升了背景区域的稳定性,减少了几何漂移和重影。
  • 语义-空间对齐:利用深度同步文本注入机制,实现了文本指令与 3D 空间特征的细粒度对齐,提升了编辑的精准度。
  • 极致速度:在 DeltaScene 测试集上,VGGT-Edit 单次编辑仅需约 5 秒,相比传统优化方法最高实现 120 倍加速
  • 泛化能力:模型能够处理训练集中未出现的指令(如“将中间椅子顺时针旋转 90 度”),表明其真正理解了文本语义到 3D 空间变化的映射,而非死记硬背模板。
  • 自动化数据管线:利用 Qwen 系列大模型和 SAM3 构建自动化数据生成流程,解决了 3D 编辑训练数据稀缺且难以保证几何一致性的难题。

意义与影响

VGGT-Edit 的提出标志着 3D 编辑技术从“概念验证”迈向“可用”阶段,其意义主要体现在以下几个方面:

  1. 推动实时交互成为可能:5 秒的编辑速度和 120 倍的加速比,使得 3D 世界编辑首次接近实时交互标准。这对于需要快速迭代和反馈的应用场景至关重要。
  2. 赋能空间智能应用:对于机器人导航、数字孪生、AR/VR 等领域,稳定的 3D 一致性是基础。VGGT-Edit 提供的稳定编辑能力,使得构建可交互、可修改的 3D 世界成为现实,而非仅仅是静态展示。
  3. 从“生成”到“理解”的跨越:模型能够泛化处理未见过的编辑指令,说明 AI 开始真正理解空间变化逻辑。这比单纯的 3D 生成更为关键,因为未来的空间智能核心在于像人类一样自由、稳定地修改世界,而不仅仅是生成世界。
  4. 开源与社区推动:随着相关论文(arXiv: 2605.15186)的发布及 DeltaScene 数据集的构建,将为后续研究者提供高质量的基准和工具,加速 3D 编辑领域的技术迭代。
查看原文 →qbitai.com