技术博客arXiv cs.AI·3 小时前

3D场景图生成新法：按关系变换特性解耦提升视角鲁棒性

原标题：Not All Relations Rotate Alike: Transformation-Aware Decoupling for Viewpoint-Robust 3D Scene Graph Generation

速览

针对3D场景图生成中视角旋转导致关系预测失准的问题，研究提出变换感知解耦（TAD）框架。该框架根据谓词的变换行为将关系推理解耦，分别学习随视角变化的方向性线索和保持稳定的接触/语义线索。实验表明，TAD在不使用旋转增强的情况下，显著提升了3DSSG基准下的视角鲁棒性，同时保持了竞争力的性能。

AI 深度解读

Not All Relations Rotate Alike: Transformation-Aware Decoupling for Viewpoint-Robust 3D Scene Graph Generation

背景

3D 场景图生成（3D Scene Graph Generation, 3DSGG）旨在将 3D 场景表示为结构化的“对象-关系-对象”图，为空间理解提供了一种紧凑的关系抽象。在具身智能（Embodied Intelligence）的应用场景中，智能体（Agent）通常会从不同的视角观察同一个 3D 场景，这些视角之间往往仅存在偏航角（Yaw rotation）的差异。

然而，现有的 3DSGG 模型在面对此类视角变化时，往往无法产生符合预期变换行为的关系预测。这一现象揭示了一个经验性的不匹配问题，即谓词级别的变换异构性（Predicate-level transformation heterogeneity）：

方向性谓词（如 left, front, right, behind）：应当随着观察框架的变化而发生相应的变换。
接触、支撑及语义谓词（如 standing on, attached to）：应当保持相对稳定，不随观察视角的改变而改变。

当前模型未能有效区分这两类谓词在视角变化下的不同行为模式，导致在视角鲁棒性方面表现不佳。

核心内容

为了解决上述不匹配问题，研究团队提出了 Transformation-Aware Decoupling (TAD)，这是一种视角鲁棒的 3DSGG 框架。TAD 的核心思想是根据谓词的变换行为对关系推理进行解耦，并辅以视角稳定的对象表示。

1. 关系推理的解耦机制

TAD 将关系推理分解为两个独立的部分：

稳定分支：学习那些在视角变化下应保持稳定的线索（对应接触、支撑等谓词）。
方向分支：学习那些应随观察框架变化而变化的方向性线索（对应左右前后等谓词）。

最终，这两个部分被合并用于标准的多标签谓词预测（Multi-label predicate prediction）。

2. 辅助监督与特征描述

为了促使两个分支捕捉互补的关系线索，TAD 引入了以下机制：

变换特定描述符（Transformation-specific descriptors）：用于区分不同变换特性的关系特征。
组感知辅助监督（Group-aware auxiliary supervision）：通过辅助任务强化模型对关系类别特性的理解。

3. 视角稳定的对象表示

TAD 框架还依赖于视角稳定的对象表示，确保在解耦关系推理之前，对象本身的特征提取不受视角旋转的干扰，从而为后续的关系判断提供可靠的基础。

关键要点

问题洞察：现有 3DSGG 模型忽略了谓词在视角变换下的异构性，导致方向性谓词和静态谓词在模型中受到相同的变换处理，从而产生预测误差。
方法创新：提出 TAD 框架，显式地将关系推理解耦为“视角稳定”和“视角变化”两个分支，分别处理静态谓词和方向性谓词。
无需旋转增强：TAD 在训练过程中不需要使用旋转数据增强（Rotation augmentation）即可实现视角鲁棒性，这在计算效率和数据利用上具有优势。
性能表现：在 3DSSG 数据集上的广泛实验表明，TAD 在偏航视角变化下达到了最先进（SOTA）的鲁棒性水平，同时在标准基准测试中保持了具有竞争力的性能。
互补性学习：通过变换特定描述符和组感知辅助监督，确保两个解耦分支能够捕捉互补的关系线索，避免信息冗余或冲突。

意义与影响

这项研究对具身智能和 3D 视觉理解领域具有重要意义：

提升具身智能的泛化能力：在真实世界中，机器人或智能体不可避免地会改变观察视角。TAD 框架使得 3D 场景图生成模型能够更准确地理解空间关系，无论观察角度如何变化，从而提升智能体在动态环境中的导航、交互和决策能力。
修正模型设计范式：以往的研究往往将所有关系谓词视为同等对待，或者依赖大量的数据增强来模拟视角变化。TAD 从语义层面揭示了谓词的变换特性差异，提供了一种更精细、更符合物理直觉的建模方式，为后续研究提供了新的思路。
效率与效果的平衡：通过解耦机制而非单纯依赖数据增强来实现视角鲁棒性，TAD 在保持高性能的同时，可能降低了训练复杂度和对大规模旋转数据的依赖，具有更高的实际应用价值。

该项目页面已公开，可供进一步查阅相关代码和数据资源。

查看原文 →arxiv.org