← 返回信息流
技术博客arXiv cs.AI·2 小时前

SimWorlds:AI多代理系统生成动态4D场景

原标题:SimWorlds: A Multi-Agent System for Dynamic 3D Scene Creation

速览

SimWorlds是一个多代理系统,专为从文本生成动态可编辑的4D场景而设计。它结合了Blender特有的过程知识,通过规划-编码-评审工作流,协调空间布局、物理求解器、时间序列、相机和灯光。系统采用分层场景协议与确定性验证器,确保物理一致性,并提供运行时状态检查工具来捕捉静态图像无法发现的机制故障。值得注意的是,研究还推出了4DBuildBench基准,全面评估视觉保真度和物理一致性。实验结果显示,SimWorlds在动态Blender生成基准上显著优于现有方法,这对视频生成和具身AI训练数据具有重要价值。

AI 深度解读

背景

随着大语言模型(LLM)代理的快速发展,它们正被广泛应用于将自然语言翻译为三维场景,这种翻译方式多采用程序化流程。但现有系统主要聚焦于静态输出。对于仅依赖文本生成动态四维(4D)场景,即液体流动、粒子发射、刚体级联以及关节机构运动等情况,目前仍处于较大空白。尽管这些动态场景在作为可编辑内容以及作为物理基础训练数据用于视频生成和具身智能(embodied AI)领域具有重要价值,但它们却鲜为人关注。

现有动态四维场景生成面临两个核心挑战,这与静态文本到场景工作有本质区别:首先,代理必须在一个单一连贯场景中同时协调空间布局、多个物理求解器、时间序列、相机以及照明;其次,从渲染视频中验证运动正确性在根本上比判断单个图像的正确性困难得多。SimWorlds 作为 arXiv cs.AI 论文“SimWorlds: A Multi-Agent System for Dynamic 3D Scene Creation”(提交于 2026 年 7 月 2 日)的核心创新,旨在通过多代理框架从文本直接生成动态、可编辑的四维场景。

核心内容

SimWorlds 是一个多代理框架,其目标是产生动态、可编辑的四维场景,这些场景源自文本提示,并结合了 Blender 特定的程序化知识。框架采用规划器-编码器-评审者的工作流,驱动一个固定顺序的构造阶段序列。场景协议采用分层结构,由确定性验证器强制执行,以确保一致性。此外,框架配备了运行时状态检查工具套件,这些工具能够发现渲染图像无法揭示的机构故障。

为评估 SimWorlds 生成的程序化动态三维场景,研究者还提出了 4DBuildBench 基准测试。基准同时衡量视觉保真度和物理一致性,特别针对文本提示生成的动态场景。实验结果显示,SimWorlds 在动态 Blender 生成的先前基线系统上表现出色,超越了现有动态生成模型在视觉质量和物理一致性上的表现。

关键要点

  • SimWorlds 首次实现仅通过文本提示生成动态四维(4D)场景,涵盖液体流动、粒子发射、刚体级联和关节机构运动等可编辑内容。
  • 框架引入 Blender 特定的程序化知识,以支持复杂动态模拟。
  • 采用规划器-编码器-评审者三阶段工作流,严格按固定顺序执行构造阶段,确保多代理协作的连贯性。
  • 采用分层场景协议,由确定性验证器强制执行,保障空间布局、物理求解器、时间序列、相机和照明的一致性。
  • 配备运行时状态检查工具套件,能够捕捉渲染视频无法发现的机构故障。
  • 提出 4DBuildBench 基准,同时评估视觉保真度和物理一致性。
  • 实验验证 SimWorlds 在动态 Blender 生成基线上的显著优越性。

意义与影响

SimWorlds 为动态场景生成开辟了新路径,通过解决空间布局与物理协调的多代理系统,使四维场景从文本提示的生成不再受限于静态局限。这一突破提升了可编辑内容在游戏、电影和虚拟现实中的应用潜力,同时为视频生成和具身智能提供了高质量的物理基础训练数据。4DBuildBench 的推出进一步推动了该领域标准化评估基准的构建,促使更多研究聚焦于动态物理一致性的验证。总体而言,SimWorlds 不仅填补了现有静态方法与动态场景之间的空白,还为 AI 代理在复杂模拟场景中的应用设定了新标准,具有重要的学术价值和实际应用前景。

查看原文 →arxiv.org