AI 资讯雷峰网·3 小时前

NTU曹子昂团队PhysX-Anything：单图生成可仿真物理3D资产

原标题：NTU 曹子昂教授团队：破解 3D 标注成本难题，只需一张图片丨CVPR 2026

速览

南洋理工大学曹子昂团队提出PhysX-Anything，旨在解决3D资产生成中视觉与物理仿真脱节的难题。该系统能从单张真实图像直接推断物体的部件结构、关节关系、材料属性及真实尺度，并输出URDF等格式。这一突破将3D生成从“视觉建模”推进至“物理建模”，为机器人训练、数字孪生及AR/VR交互提供了低成本、高精度的仿真资产生成方案。

AI 深度解读

NTU 曹子昂团队：破解 3D 标注成本难题，只需一张图片丨CVPR 2026

背景

随着生成式 AI 在 3D 内容生产领域的深入，行业首要解决的“视觉逼真度”问题已取得显著进展：模型能够根据文本或图像生成外观完整、纹理逼真且形状合理的 3D 物体。然而，随着机器人、具身智能、数字孪生、AR/VR 及工业仿真等应用的快速发展，真正的落地瓶颈已从“看起来像不像”转变为“是否具备物理真实性”。

现实世界中的物体并非静态摆件，而是包含尺度、材料、重量、关节、摩擦、碰撞及功能关系的物理实体。例如，一个柜子不仅需要外观相似，还需明确门轴位置及开启方向；一副眼镜需具备可折叠的镜腿关节；一个水龙头需支持旋转操作及与机械手的物理接触。当前，3D 资产生成的核心断层在于：视觉资产易于生成，但仿真资产仍高度依赖人工建模和手动标注，成本高、效率低且难以规模化扩展至家庭、工厂等复杂场景。

因此，行业亟需从“图像到 3D”进化为“图像到可交互、可运动、可仿真的物理 3D 资产”。在此背景下，南洋理工大学（NTU）曹子昂教授团队提出了《PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image》。该研究旨在将单张真实图像直接转化为仿真可用的物理 3D 资产，不仅恢复物体外形，还推断部件结构、关节关系、材料属性、真实尺度、功能用途及文本描述，并输出 URDF、XML 等可直接进入物理引擎的格式，从而推动 3D 生成从“视觉建模”迈向“物理建模”。

核心内容

PhysX-Anything 的核心目标是通过单张输入图像，自动生成包含几何、物理属性及交互能力的完整 3D 资产。其技术流程、数据集构建及实验评估如下：

1. 数据集构建：PhysX-Mobility

为支持训练与评估，研究团队构建了 PhysX-Mobility 数据集。该数据源自 PartNet-Mobility，包含超过 2000 个常见真实物体，覆盖 47 类物体（如马桶、风扇、相机、咖啡机、订书机、柜子和椅子等）。标注内容极为详尽，包括绝对尺度、部件层级、材料、密度、关节类型、运动方向、运动范围、可供性（Affordance）及部件文本描述，使原有物理 3D 数据类别扩展超过 2 倍。

2. 技术架构与生成流程

模型输入为单张 in-the-wild 图像，需从单一视角推断被遮挡结构、复杂背景下的形状、不明确材质、不可见内部构造及关节运动方式。生成过程采用多轮对话机制：

第一轮：整体物理表示生成 基于 Qwen2.5 的 VLM（视觉语言模型）生成整体物理表示，涵盖 Name、Category、Dimension、Parts、Material、Density、Affordance、Kinematics、Description 和 Group_info，描述物体的类别、尺寸、部件组成、材料属性、功能用途和运动关系。
第二轮至 N+1 轮：部件几何生成 针对物体的 N 个部件，逐个生成几何信息。每个部件输出 32 × 32 × 32 的 3D voxel grid。为解决原始 mesh 和 vertex quantization 导致的 token 序列过长问题，研究人员采用了 voxelization、voxel index 和 range merge 的表达方式。
- Token 压缩策略：该策略将 mesh 到 voxel 的压缩率约达 74 倍，最终压缩约 193 倍，同时保留显式几何结构，无需额外 special tokens 或新 tokenizer，有效降低了 VLM 上下文压力并减少部件间干扰。
几何细化与表面生成 系统使用 controllable flow transformer 根据粗 voxel 细化几何，结合图像条件、文本条件、粗 voxel 条件、噪声和时间步生成高分辨率几何特征。随后，通过预训练 structured latent diffusion model 生成 mesh surface、radiance fields 和 3D Gaussian。
最终输出 利用 nearest-neighbor 根据 voxel assignment 分割出部件级 mesh，整合全局物理信息和细粒度几何，最终输出 URDF、XML 和部件级 mesh，可直接用于物理引擎。

3. 实验评估

主要指标对比：在 PhysX-Mobility 数据集上，PhysX-Anything 在几何质量（PSNR 20.35、CD 14.43、F-score 77.50）、物体尺度误差（从 PhysXGen 的 43.44 降至 0.30）、材料属性、可供性、运动参数和描述质量上均优于 URDFormer、Articulate-Anything 和 PhysXGen。
泛化能力测试：在约 100 张 in-the-wild 真实网络图片测试中，PhysX-Anything 的几何 VLM 评分和运动参数 VLM 评分均达到 0.94，显著高于对比方法，显示其对非数据集物体具有强泛化能力。
人类主观评价：14 名志愿者给出 1,568 个有效评分，PhysX-Anything 在几何、尺度、材料、可供性、运动参数和描述维度均获更高偏好（几何质量 0.98，运动参数 0.98，描述质量 0.96）。
消融实验：验证了最终表示方法优于 Voxel 版本和 Index 版本，在复杂结构和物理属性预测上更稳定。
机器人仿真实验：将生成的水龙头、柜门、眼镜、打火机、笔记本和把手等资产导入 MuJoCo 风格仿真环境，执行开关、开合、折叠等操作。结果表明，生成资产可通过 URDF 和 XML 直接用于仿真，具备物理可执行性，支持接触丰富的机器人操作任务。

关键要点

范式转变：PhysX-Anything 将 3D 资产生成的目标从“看起来真实”推进到“用起来真实”，解决了视觉资产与仿真资产之间的断层。
单图生成物理资产：仅需一张真实图像，即可自动生成包含几何、关节、材料、尺度及功能描述的仿真可用 3D 资产，无需人工建模。
高效的 Token 压缩策略：通过 voxelization 和 range merge 实现约 193 倍的 token 压缩，在保留显式几何结构的同时，大幅降低 VLM 的处理负担，为处理 3D 数据的 VLM 任务提供了新范式。
多模态联合建模：证明了 VLM 不仅能处理 2D 视觉任务，还能有效处理几何、关节和物理属性的联合建模。
广泛的适用性：生成的资产可直接输出为 URDF、XML 等格式，无缝接入 MuJoCo 等物理引擎，适用于家庭机器人、AR/VR 交互、工业仿真及数字孪生。
性能领先：在几何质量、尺度预测准确性及物理属性推断上，PhysX-Anything 均优于现有的 URDFormer、Articulate-Anything 和 PhysXGen 等方法。

意义与影响

PhysX-Anything 的提出标志着 3D 生成技术从“视觉重建”向“物理仿真”的关键跨越，其意义深远：

大幅降低仿真资产制作门槛：过去，制作可仿真 3D 资产需要专业团队进行手工建模并人工标注物理属性，成本高昂且周期长。PhysX-Anything 使得只需一张照片即可自动生成，极大提升了生产效率，降低了游戏开发、影视特效、工业仿真及自动驾驶仿真等领域的门槛。
赋能具身智能与机器人技术：对于家庭和服务机器人而言，该技术支持从日常物体照片快速生成可开合、可抓取的训练资产，加速了机器人学习开门、抓取等复杂操作策略的进程。
提升 AR/VR 交互真实性：在虚拟

查看原文 →leiphone.com