AVOC框架:通过检索式Token压缩增强多模态大模型长音频视频理解
速览
针对多模态大模型在处理长音频视频时面临的上下文窗口限制和信息冗余问题,研究团队提出了AVOC框架。该框架在模态编码器和LLM主干之间引入可学习的Token压缩模块,将压缩过程重构为Top-K检索问题,基于相关性、重要性和多样性三个维度筛选关键信息。实验表明,AVOC在OmniVideoBench和LVOmniBench基准测试中取得最先进性能,并能在长达一小时的音视频任务中保持鲁棒性。
AI 深度解读
AVOC:通过检索启发的 Token 压缩增强全模态大模型的长时音频视频理解
背景
多模态大语言模型(Multimodal Large Language Models, MLLMs)在短视频和短音频的理解任务上已经取得了显著进展。然而,当面对长时长的音频视频内容(如数小时的电影、会议录像或直播流)时,现有的模型面临着两大核心瓶颈:
- 上下文窗口限制:大多数模型的上下文长度有限,难以一次性处理长达数小时的高分辨率、高采样率的多媒体数据。
- 信息冗余严重:长视频和长音频中包含大量重复、静态或无关紧要的帧与片段,直接输入会导致计算资源浪费,并干扰模型对关键信息的提取。
为了突破这些限制,研究人员提出了 AVOC(Audio-Video Omni-modal Compression)框架。该框架旨在通过一种受检索机制启发的 Token 压缩技术,提升全模态大模型在长时音频视频理解任务上的性能。
核心内容
AVOC 的核心创新在于将多模态 Token 压缩重新定义为一个Top-K 检索问题。
1. 框架架构
AVOC 在模态编码器(Modality Encoders)与大语言模型骨干网络(LLM Backbone)之间引入了一个可学习的 Token 压缩模块。这个模块充当“守门人”的角色,负责在数据进入 LLM 之前进行筛选和压缩。
2. 检索式压缩机制
传统的压缩方法往往基于简单的阈值或固定规则,而 AVOC 借鉴了经典信息检索(Information Retrieval, IR)中的三个关键标准,从大量的候选 Token 池中筛选出最具信息量的子集:
- 相关性(Relevance):筛选与用户查询(User Query)最相关的 Token。例如,如果用户问“视频中的人物穿什么颜色的衣服?”,模型会优先保留与人物外观相关的视觉 Token。
- 重要性(Importance):评估 Token 本身的信息密度。那些包含关键事件、显著变化或高熵值的片段会被赋予更高的权重。
- 多样性(Diversity):确保保留的 Token 覆盖内容的不同方面,避免冗余。例如,避免保留大量连续且内容相同的静止帧,而是选择具有代表性的关键帧。
3. 统一流程
AVOC 将上述三个标准实例化为具体的算法机制,并整合到一个统一的检索风格压缩管道中。给定固定的上下文预算(Context Budget),该模块必须检索出一个紧凑的 Token 子集,该子集能够最大程度地支持回答用户的查询。
关键要点
- 问题重构:将多模态 Token 压缩从传统的“降维”或“剪枝”问题,重构为“在固定预算下检索最佳信息子集”的 Top-K 检索问题。
- 三大筛选标准:
- Relevance:确保选出的 Token 与当前查询紧密相关。
- Importance:优先保留信息量大、关键性高的 Token。
- Diversity:保证覆盖内容的多样性,减少冗余。
- 模块位置:压缩模块位于模态编码器和 LLM 骨干网络之间,作为预处理步骤,有效减轻 LLM 的计算负担。
- 长时处理能力:AVOC 能够处理长达一小时(1 hour)的音频视频内容,并在“大海捞针”(Needle-in-a-Haystack)测试任务中保持鲁棒性能,证明其具备提取长时依赖中细微关键信息的能力。
- 性能提升:在 OmniVideoBench 和 LVOmniBench 这两个长时音频视频基准测试中,AVOC 取得了最先进(SOTA)的性能。
意义与影响
AVOC 的提出对于推动多模态 AI 向长时内容理解迈进具有重要意义:
- 突破上下文限制:通过高效的压缩机制,AVOC 使得现有的大语言模型能够在不显著增加显存和计算成本的前提下,处理远超其原生上下文窗口的长时多媒体数据。
- 提升效率与精度:通过引入检索式的筛选机制,AVOC 不仅减少了冗余信息的干扰,还提高了模型对关键信息的关注度。实验数据显示,AVOC 在 OmniVideoBench 上的平均准确率比第二名高出 4.9 分,在 LVOmniBench 上高出 5.5 分。
- 通用性潜力:这种基于检索启发的压缩范式可以推广到其他长序列多模态任务中,为构建更强大的全模态智能体(Omni-modal Agents)提供了新的技术路径。
- 实际应用价值:能够高效处理长达一小时的视频,意味着该技术可应用于电影分析、长会议记录、监控视频检索等实际场景,极大地扩展了多模态大模型的应用边界。
