AI 资讯量子位·8 天前

5秒完成3D场景编辑，北大&港中文&上海AI Lab搞出VGGT-Edit，120倍加速太炸了

速览

北京大学、香港中文大学及上海人工智能实验室联合推出VGGT-Edit，这是一种基于视频生成基础模型的3D场景编辑工具。该方法摒弃了传统的2D绕回3D流程，直接在3D空间进行操作，将编辑速度提升了120倍，仅需5秒即可完成。这一突破显著降低了3D内容创作的门槛，为实时3D编辑和生成式AI应用提供了高效解决方案。

AI 深度解读

背景

3D生成与重建领域近年来取得了显著进展，从早期的 NeRF 到当前的 3D Gaussian Splatting，再到 VGGT、$\pi^3$ 等前馈式（Feed-forward）3D 重建模型，行业速度明显加快。仅需几张输入图片，模型即可在数秒内重建出完整的 3D 场景。

然而，现有的 3D 生成模型普遍存在“只建不改”的局限。虽然模型能够理解并重建三维世界，但缺乏对三维世界的修改能力。用户很难通过自然语言指令完成具体的编辑任务，例如“将椅子移至窗边”、“删除中间的椅子”或“将灰色皮沙发改为白色长毛沙发”。

更严峻的问题在于，现有方法在处理复杂编辑时往往导致多视角不一致。例如，在某个视角中删除了椅子，但在其他视角中椅子又重新出现；或者未修改的背景区域发生非预期的变形。这种“在不同角度硬 P 图”的现象，对于机器人、AR/VR 及空间智能等需要严格几何一致性的应用场景而言，是致命的缺陷。

核心内容

针对上述痛点，来自北京大学、香港中文大学、上海 AI Lab、南洋理工大学（NTU）等机构的研究团队提出了 VGGT-Edit，这是一套原生的 3D 编辑框架。其核心设计理念是“不再绕回 2D”，即直接在 3D 空间内完成编辑操作，而非传统的“2D 编辑后投影回 3D”的思路。

1. 残差场预测机制（Residual Field Prediction） VGGT-Edit 建立在 VGGT-Like 前馈式重建模型之上，继承了其快速高效的 3D 表示能力。与传统方法重新生成整个场景不同，该框架采用残差场预测机制：

模型保留原始场景稳定的 3D 结构。
仅学习“需要变化的局部区域”，如物体移动、材质改变、物体删除或新增。
最终输出遵循公式：新场景 = 原场景 + 局部残差变化。这一设计确保了未修改的背景区域保持高度稳定，避免了全局重生成带来的几何漂移。

2. 深度同步文本注入（Depth-Synchronized Text Injection） 为解决文本指令与 3D 空间位置对齐困难的问题，团队设计了深度同步文本注入机制：

不同于传统方法仅在输入层注入一次文本信息，VGGT-Edit 在多个关键网络层持续融合文本语义。
这种机制使模型在整个 3D 生成过程中，始终明确“修改哪个区域”、“修改目标是什么”以及“空间位置在哪里”。
配合“视角重要性加权”算法，模型能自动评估不同视角的可靠性（如遮挡情况），从而提升多视角编辑的稳定性。

3. 专用 3D 编辑头（Editing Head） VGGT-Edit 额外设计了一套专门面向 3D 编辑任务的编辑分支（Editing Head）：

该 Head 直接作用于 3D 表示空间，输出对应的残差场变化。
它负责学习哪些区域保持不变、哪些区域需要编辑，并确保编辑后的多视角一致性。
相比直接重新生成，这种方式更加稳定且高效，是赋予 VGGT-Like 模型编辑能力的关键步骤。

4. DeltaScene 数据集构建 为了训练该模型，团队构建了规模近 10 万组的 DeltaScene 数据集，涵盖客厅、办公室、住宅等多种场景。数据生成流程高度自动化，利用 Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max 等工具，自动完成编辑指令生成、目标识别、多视角编辑及 3D 一致性过滤，确保训练数据满足“多视角几何一致”的要求。

关键要点

原生 3D 编辑：摒弃传统的“2D 编辑+3D 重建”范式，直接在 3D 空间进行编辑，从根本上解决多视角不一致问题。
残差学习策略：通过预测局部残差变化而非全局重生成，大幅提升了背景区域的稳定性，减少了几何漂移和重影。
语义-空间对齐：利用深度同步文本注入机制，实现了文本指令与 3D 空间特征的细粒度对齐，提升了编辑的精准度。
极致速度：在 DeltaScene 测试集上，VGGT-Edit 单次编辑仅需约 5 秒，相比传统优化方法最高实现 120 倍加速。
泛化能力：模型能够处理训练集中未出现的指令（如“将中间椅子顺时针旋转 90 度”），表明其真正理解了文本语义到 3D 空间变化的映射，而非死记硬背模板。
自动化数据管线：利用 Qwen 系列大模型和 SAM3 构建自动化数据生成流程，解决了 3D 编辑训练数据稀缺且难以保证几何一致性的难题。

意义与影响

VGGT-Edit 的提出标志着 3D 编辑技术从“概念验证”迈向“可用”阶段，其意义主要体现在以下几个方面：

推动实时交互成为可能：5 秒的编辑速度和 120 倍的加速比，使得 3D 世界编辑首次接近实时交互标准。这对于需要快速迭代和反馈的应用场景至关重要。
赋能空间智能应用：对于机器人导航、数字孪生、AR/VR 等领域，稳定的 3D 一致性是基础。VGGT-Edit 提供的稳定编辑能力，使得构建可交互、可修改的 3D 世界成为现实，而非仅仅是静态展示。
从“生成”到“理解”的跨越：模型能够泛化处理未见过的编辑指令，说明 AI 开始真正理解空间变化逻辑。这比单纯的 3D 生成更为关键，因为未来的空间智能核心在于像人类一样自由、稳定地修改世界，而不仅仅是生成世界。
开源与社区推动：随着相关论文（arXiv: 2605.15186）的发布及 DeltaScene 数据集的构建，将为后续研究者提供高质量的基准和工具，加速 3D 编辑领域的技术迭代。

查看原文 →qbitai.com

5秒完成3D场景编辑，北大&港中文&上海AI Lab搞出VGGT-Edit，120倍加速太炸了

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐