← 返回信息流
技术博客arXiv cs.AI·3 小时前

3D场景图生成新法:按关系变换特性解耦提升视角鲁棒性

原标题:Not All Relations Rotate Alike: Transformation-Aware Decoupling for Viewpoint-Robust 3D Scene Graph Generation

速览

针对3D场景图生成中视角旋转导致关系预测失准的问题,研究提出变换感知解耦(TAD)框架。该框架根据谓词的变换行为将关系推理解耦,分别学习随视角变化的方向性线索和保持稳定的接触/语义线索。实验表明,TAD在不使用旋转增强的情况下,显著提升了3DSSG基准下的视角鲁棒性,同时保持了竞争力的性能。

AI 深度解读

Not All Relations Rotate Alike: Transformation-Aware Decoupling for Viewpoint-Robust 3D Scene Graph Generation

背景

3D 场景图生成(3D Scene Graph Generation, 3DSGG)旨在将 3D 场景表示为结构化的“对象-关系-对象”图,为空间理解提供了一种紧凑的关系抽象。在具身智能(Embodied Intelligence)的应用场景中,智能体(Agent)通常会从不同的视角观察同一个 3D 场景,这些视角之间往往仅存在偏航角(Yaw rotation)的差异。

然而,现有的 3DSGG 模型在面对此类视角变化时,往往无法产生符合预期变换行为的关系预测。这一现象揭示了一个经验性的不匹配问题,即谓词级别的变换异构性(Predicate-level transformation heterogeneity)

  1. 方向性谓词(如 left, front, right, behind):应当随着观察框架的变化而发生相应的变换。
  2. 接触、支撑及语义谓词(如 standing on, attached to):应当保持相对稳定,不随观察视角的改变而改变。

当前模型未能有效区分这两类谓词在视角变化下的不同行为模式,导致在视角鲁棒性方面表现不佳。

核心内容

为了解决上述不匹配问题,研究团队提出了 Transformation-Aware Decoupling (TAD),这是一种视角鲁棒的 3DSGG 框架。TAD 的核心思想是根据谓词的变换行为对关系推理进行解耦,并辅以视角稳定的对象表示。

1. 关系推理的解耦机制

TAD 将关系推理分解为两个独立的部分:

  • 稳定分支:学习那些在视角变化下应保持稳定的线索(对应接触、支撑等谓词)。
  • 方向分支:学习那些应随观察框架变化而变化的方向性线索(对应左右前后等谓词)。

最终,这两个部分被合并用于标准的多标签谓词预测(Multi-label predicate prediction)

2. 辅助监督与特征描述

为了促使两个分支捕捉互补的关系线索,TAD 引入了以下机制:

  • 变换特定描述符(Transformation-specific descriptors):用于区分不同变换特性的关系特征。
  • 组感知辅助监督(Group-aware auxiliary supervision):通过辅助任务强化模型对关系类别特性的理解。

3. 视角稳定的对象表示

TAD 框架还依赖于视角稳定的对象表示,确保在解耦关系推理之前,对象本身的特征提取不受视角旋转的干扰,从而为后续的关系判断提供可靠的基础。

关键要点

  • 问题洞察:现有 3DSGG 模型忽略了谓词在视角变换下的异构性,导致方向性谓词和静态谓词在模型中受到相同的变换处理,从而产生预测误差。
  • 方法创新:提出 TAD 框架,显式地将关系推理解耦为“视角稳定”和“视角变化”两个分支,分别处理静态谓词和方向性谓词。
  • 无需旋转增强:TAD 在训练过程中不需要使用旋转数据增强(Rotation augmentation)即可实现视角鲁棒性,这在计算效率和数据利用上具有优势。
  • 性能表现:在 3DSSG 数据集上的广泛实验表明,TAD 在偏航视角变化下达到了最先进(SOTA)的鲁棒性水平,同时在标准基准测试中保持了具有竞争力的性能。
  • 互补性学习:通过变换特定描述符和组感知辅助监督,确保两个解耦分支能够捕捉互补的关系线索,避免信息冗余或冲突。

意义与影响

这项研究对具身智能和 3D 视觉理解领域具有重要意义:

  1. 提升具身智能的泛化能力:在真实世界中,机器人或智能体不可避免地会改变观察视角。TAD 框架使得 3D 场景图生成模型能够更准确地理解空间关系,无论观察角度如何变化,从而提升智能体在动态环境中的导航、交互和决策能力。
  2. 修正模型设计范式:以往的研究往往将所有关系谓词视为同等对待,或者依赖大量的数据增强来模拟视角变化。TAD 从语义层面揭示了谓词的变换特性差异,提供了一种更精细、更符合物理直觉的建模方式,为后续研究提供了新的思路。
  3. 效率与效果的平衡:通过解耦机制而非单纯依赖数据增强来实现视角鲁棒性,TAD 在保持高性能的同时,可能降低了训练复杂度和对大规模旋转数据的依赖,具有更高的实际应用价值。

该项目页面已公开,可供进一步查阅相关代码和数据资源。

查看原文 →arxiv.org