← 返回信息流
AI 资讯雷峰网·3 小时前

NTU曹子昂团队PhysX-Anything:单图生成可仿真物理3D资产

原标题:NTU 曹子昂教授团队:破解 3D 标注成本难题,只需一张图片丨CVPR 2026

速览

南洋理工大学曹子昂团队提出PhysX-Anything,旨在解决3D资产生成中视觉与物理仿真脱节的难题。该系统能从单张真实图像直接推断物体的部件结构、关节关系、材料属性及真实尺度,并输出URDF等格式。这一突破将3D生成从“视觉建模”推进至“物理建模”,为机器人训练、数字孪生及AR/VR交互提供了低成本、高精度的仿真资产生成方案。

AI 深度解读

NTU 曹子昂团队:破解 3D 标注成本难题,只需一张图片丨CVPR 2026

背景

随着生成式 AI 在 3D 内容生产领域的深入,行业首要解决的“视觉逼真度”问题已取得显著进展:模型能够根据文本或图像生成外观完整、纹理逼真且形状合理的 3D 物体。然而,随着机器人、具身智能、数字孪生、AR/VR 及工业仿真等应用的快速发展,真正的落地瓶颈已从“看起来像不像”转变为“是否具备物理真实性”。

现实世界中的物体并非静态摆件,而是包含尺度、材料、重量、关节、摩擦、碰撞及功能关系的物理实体。例如,一个柜子不仅需要外观相似,还需明确门轴位置及开启方向;一副眼镜需具备可折叠的镜腿关节;一个水龙头需支持旋转操作及与机械手的物理接触。当前,3D 资产生成的核心断层在于:视觉资产易于生成,但仿真资产仍高度依赖人工建模和手动标注,成本高、效率低且难以规模化扩展至家庭、工厂等复杂场景。

因此,行业亟需从“图像到 3D”进化为“图像到可交互、可运动、可仿真的物理 3D 资产”。在此背景下,南洋理工大学(NTU)曹子昂教授团队提出了《PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image》。该研究旨在将单张真实图像直接转化为仿真可用的物理 3D 资产,不仅恢复物体外形,还推断部件结构、关节关系、材料属性、真实尺度、功能用途及文本描述,并输出 URDF、XML 等可直接进入物理引擎的格式,从而推动 3D 生成从“视觉建模”迈向“物理建模”。

核心内容

PhysX-Anything 的核心目标是通过单张输入图像,自动生成包含几何、物理属性及交互能力的完整 3D 资产。其技术流程、数据集构建及实验评估如下:

1. 数据集构建:PhysX-Mobility

为支持训练与评估,研究团队构建了 PhysX-Mobility 数据集。该数据源自 PartNet-Mobility,包含超过 2000 个常见真实物体,覆盖 47 类物体(如马桶、风扇、相机、咖啡机、订书机、柜子和椅子等)。标注内容极为详尽,包括绝对尺度、部件层级、材料、密度、关节类型、运动方向、运动范围、可供性(Affordance)及部件文本描述,使原有物理 3D 数据类别扩展超过 2 倍。

2. 技术架构与生成流程

模型输入为单张 in-the-wild 图像,需从单一视角推断被遮挡结构、复杂背景下的形状、不明确材质、不可见内部构造及关节运动方式。生成过程采用多轮对话机制:

  • 第一轮:整体物理表示生成 基于 Qwen2.5 的 VLM(视觉语言模型)生成整体物理表示,涵盖 Name、Category、Dimension、Parts、Material、Density、Affordance、Kinematics、Description 和 Group_info,描述物体的类别、尺寸、部件组成、材料属性、功能用途和运动关系。

  • 第二轮至 N+1 轮:部件几何生成 针对物体的 N 个部件,逐个生成几何信息。每个部件输出 32 × 32 × 32 的 3D voxel grid。为解决原始 mesh 和 vertex quantization 导致的 token 序列过长问题,研究人员采用了 voxelization、voxel index 和 range merge 的表达方式。

    • Token 压缩策略:该策略将 mesh 到 voxel 的压缩率约达 74 倍,最终压缩约 193 倍,同时保留显式几何结构,无需额外 special tokens 或新 tokenizer,有效降低了 VLM 上下文压力并减少部件间干扰。
  • 几何细化与表面生成 系统使用 controllable flow transformer 根据粗 voxel 细化几何,结合图像条件、文本条件、粗 voxel 条件、噪声和时间步生成高分辨率几何特征。随后,通过预训练 structured latent diffusion model 生成 mesh surface、radiance fields 和 3D Gaussian。

  • 最终输出 利用 nearest-neighbor 根据 voxel assignment 分割出部件级 mesh,整合全局物理信息和细粒度几何,最终输出 URDF、XML 和部件级 mesh,可直接用于物理引擎。

3. 实验评估

  • 主要指标对比:在 PhysX-Mobility 数据集上,PhysX-Anything 在几何质量(PSNR 20.35、CD 14.43、F-score 77.50)、物体尺度误差(从 PhysXGen 的 43.44 降至 0.30)、材料属性、可供性、运动参数和描述质量上均优于 URDFormer、Articulate-Anything 和 PhysXGen。
  • 泛化能力测试:在约 100 张 in-the-wild 真实网络图片测试中,PhysX-Anything 的几何 VLM 评分和运动参数 VLM 评分均达到 0.94,显著高于对比方法,显示其对非数据集物体具有强泛化能力。
  • 人类主观评价:14 名志愿者给出 1,568 个有效评分,PhysX-Anything 在几何、尺度、材料、可供性、运动参数和描述维度均获更高偏好(几何质量 0.98,运动参数 0.98,描述质量 0.96)。
  • 消融实验:验证了最终表示方法优于 Voxel 版本和 Index 版本,在复杂结构和物理属性预测上更稳定。
  • 机器人仿真实验:将生成的水龙头、柜门、眼镜、打火机、笔记本和把手等资产导入 MuJoCo 风格仿真环境,执行开关、开合、折叠等操作。结果表明,生成资产可通过 URDF 和 XML 直接用于仿真,具备物理可执行性,支持接触丰富的机器人操作任务。

关键要点

  • 范式转变:PhysX-Anything 将 3D 资产生成的目标从“看起来真实”推进到“用起来真实”,解决了视觉资产与仿真资产之间的断层。
  • 单图生成物理资产:仅需一张真实图像,即可自动生成包含几何、关节、材料、尺度及功能描述的仿真可用 3D 资产,无需人工建模。
  • 高效的 Token 压缩策略:通过 voxelization 和 range merge 实现约 193 倍的 token 压缩,在保留显式几何结构的同时,大幅降低 VLM 的处理负担,为处理 3D 数据的 VLM 任务提供了新范式。
  • 多模态联合建模:证明了 VLM 不仅能处理 2D 视觉任务,还能有效处理几何、关节和物理属性的联合建模。
  • 广泛的适用性:生成的资产可直接输出为 URDF、XML 等格式,无缝接入 MuJoCo 等物理引擎,适用于家庭机器人、AR/VR 交互、工业仿真及数字孪生。
  • 性能领先:在几何质量、尺度预测准确性及物理属性推断上,PhysX-Anything 均优于现有的 URDFormer、Articulate-Anything 和 PhysXGen 等方法。

意义与影响

PhysX-Anything 的提出标志着 3D 生成技术从“视觉重建”向“物理仿真”的关键跨越,其意义深远:

  1. 大幅降低仿真资产制作门槛:过去,制作可仿真 3D 资产需要专业团队进行手工建模并人工标注物理属性,成本高昂且周期长。PhysX-Anything 使得只需一张照片即可自动生成,极大提升了生产效率,降低了游戏开发、影视特效、工业仿真及自动驾驶仿真等领域的门槛。
  2. 赋能具身智能与机器人技术:对于家庭和服务机器人而言,该技术支持从日常物体照片快速生成可开合、可抓取的训练资产,加速了机器人学习开门、抓取等复杂操作策略的进程。
  3. 提升 AR/VR 交互真实性:在虚拟
查看原文 →leiphone.com