技术博客arXiv cs.AI·2 小时前

层次语义约束异构图实现开放词汇音视频事件定位

原标题：Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization

速览

针对开放词汇音视频事件定位中未见类别缺乏监督信号及层级语义约束缺失的问题，研究提出层次语义约束异构图框架。该方法在欧氏空间构建包含音视频片段及视频级节点的异构图，并利用双阈值过滤门控融合策略进行跨模态信息整合。通过将多模态表示映射至双曲空间并引入层级蕴含正则化损失，有效实现了不同层级间的语义一致性，在基准测试中表现优于现有方法。

AI 深度解读

层级语义约束异构图用于音频-视觉事件定位

背景

开放词汇音频-视觉事件定位（Open-Vocabulary Audio-Visual Event Localization, OV-AVEL）是一项旨在联合建模音频和视觉线索的任务，其目标不仅是识别事件，还要在时间轴上精确定位这些事件。该任务的关键挑战在于“开放词汇”特性，即模型需要能够识别和定位在训练阶段从未见过的类别（unseen categories）。

现有的主流方法主要致力于在欧几里得空间（Euclidean space）中学习联合的音频-视觉表示。然而，尽管取得了一定进展，这些方法仍面临两个显著的技术瓶颈：

跨时间尺度的一致性难以维持：由于缺乏针对未见类别的监督信号，模型很难在多个时间尺度上保持音频与视觉线索之间的一致性。
层级语义约束缺失：现有方法往往忽视了片段级（segment-level）与视频级（video-level）语义之间的层级约束，导致模型无法在不同层级之间建立有效的语义一致性。

为了解决上述挑战，研究人员提出了一种新的框架，旨在通过更复杂的图结构和空间映射来提升模型在开放词汇场景下的性能。

核心内容

针对现有方法的局限性，本文提出了一种**层级语义约束异构图（Hierarchical Semantic-Constrained Heterogeneous Graph, HSCHG）**框架，专门用于音频-视觉事件定位。该框架的核心创新在于构建了一个多层次的图结构，并结合了双模态过滤机制与双曲空间映射。具体技术路径如下：

1. 构建欧几里得空间中的异构图层级结构

首先，模型在欧几里得空间中构建了一个异构的层级图。该图包含两类核心节点：

音频和视觉片段节点：代表视频中的局部时间片段及其对应的音频/视觉特征。
对应的视频级节点：代表整个视频的全局特征。

为了捕捉每个模态内部完整的时间信息，模型引入了多方向时间边（multi-directional temporal edges）。这种设计允许信息在时间维度上进行双向流动，从而更全面地理解时序依赖关系。

2. 双阈值过滤门控融合策略

在跨模态信息融合方面，模型采用了一种双阈值过滤门控融合策略（dual-threshold filtering gated fusion strategy）。这一策略的核心逻辑是“谨慎融合”：只有当音频与视觉之间的对齐置信度（alignment confidence）高于特定阈值时，才会引入跨模态信息。这种机制有效避免了低置信度匹配带来的噪声干扰，提高了特征的鲁棒性。

3. 引入双向语义约束

为了实现不同层级间的语义一致性，模型在片段级表示和视频级表示之间引入了双向语义约束（bidirectional semantic constraints）。这不仅确保了局部细节与全局上下文之间的逻辑连贯，还强化了模型对事件整体结构的理解。

4. 映射至双曲空间与层级蕴含正则化

鉴于层级结构在双曲空间（hyperbolic space）中具有天然的几何优势（双曲空间能更高效地表示树状或层级数据），模型将多层级的音频-视觉表示和文本原型（text prototypes）统一映射到双曲空间中。

在此空间中，模型引入了层级蕴含正则化损失（hierarchical entailment regularization loss）。该损失函数用于表征视频与其片段之间的层级蕴含关系（即整体包含部分，部分反映整体），从而在几何空间中强制模型学习到符合逻辑的层级语义结构。

关键要点

解决未见类别泛化难题：通过层级语义约束和双曲空间映射，弥补了因缺乏未见类别监督信号而导致的多时间尺度音频-视觉一致性缺失问题。
异构层级图结构：构建了包含片段节点和视频节点的异构图，利用多方向时间边捕捉模态内的完整时序信息。
高置信度跨模态融合：采用双阈值过滤门控机制，仅在音频-视觉对齐置信度高时才进行信息融合，提升了特征质量。
双向层级语义约束：在片段级和视频级表示之间建立双向约束，确保了局部与全局语义的一致性。
双曲空间几何优势：将表示映射到双曲空间，并利用层级蕴含正则化损失，更好地建模视频与片段间的层级关系。
性能验证：在 OV-AVEL 基准测试中，该方法优于现有方法；消融实验进一步验证了各个组件的有效性。

意义与影响

这项研究在开放词汇多模态学习领域具有重要的理论和应用价值：

突破了欧几里得空间的局限：传统方法多在欧几里得空间操作，难以有效处理层级和树状结构数据。本文引入双曲空间，为多模态表示学习提供了新的几何视角，证明了双曲空间在处理层级语义关系上的优越性。
提升了开放场景下的鲁棒性：通过双阈值过滤和层级约束，模型在面对训练时未见过的新类别时，能够更准确地利用音频和视觉线索进行定位，增强了模型的泛化能力。
为多模态对齐提供新思路：提出的“高置信度融合”策略避免了噪声累积，为多模态融合中的噪声抑制和特征选择提供了有效的技术范式。
推动 AVEL 技术发展：作为 OV-AVEL 基准上的最新进展，该方法为后续研究如何在缺乏监督信号的情况下保持跨模态一致性提供了可借鉴的框架，有望推动智能监控、视频检索、辅助理解等实际应用的发展。

查看原文 →arxiv.org