技术博客arXiv cs.AI·4 小时前

OmniMem：面向流式视听大模型的扰动感知记忆压缩框架

原标题：OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

速览

针对视听大模型在处理长视频时因Token和KV缓存线性增长导致的推理瓶颈，OmniMem提出了一种内存高效的流式框架。该框架引入模态感知内存分配策略，分别管理视觉和音频上下文以解决模态间Token不平衡问题，并利用扰动感知内存选择保留关键信息。实验表明，在VideoMME Long等基准测试中，OmniMem在相同内存预算下比无训练压缩基线准确率提升2-4%，微调后还可额外提升1-2%。

AI 深度解读

OmniMem：面向流式音视频大模型的扰动感知记忆压缩技术

背景

音视频大语言模型（Audio-Visual LLMs）在长视频理解领域展现出巨大的应用潜力。然而，这类模型在处理长视频时面临着根本性的计算瓶颈：随着视频时长的增加，视频 Token 的数量以及键值（Key-Value, KV）缓存的大小呈线性增长。这种线性增长不仅极大地消耗了显存资源，还严重限制了模型的推理速度和实际部署能力。

现有的记忆压缩方法通常对所有 Token 一视同仁，未能充分考虑到音视频多模态数据中存在的显著特性差异。特别是音频和视频上下文之间往往存在严重的 Token 数量不平衡，且不同模态的信息密度和冗余度各不相同。因此，如何在不牺牲长程理解能力的前提下，高效地压缩和保留关键的多模态记忆信息，成为当前亟待解决的技术难题。

核心内容

本文提出了 OmniMem，一个专为音视频大语言模型设计的、内存高效的流式处理框架。OmniMem 旨在通过创新的内存管理策略，解决长视频推理中的内存瓶颈问题。其核心工作流和关键技术点如下：

1. 模态感知的内存分配策略

与现有方法统一处理所有 Token 不同，OmniMem 引入了模态感知的内存分配策略。该策略分别管理视觉（Visual）和音频（Audio）上下文。鉴于视频和音频数据在 Token 生成率上的巨大差异（例如，视频帧产生的 Token 远多于音频片段），OmniMem 能够针对每种模态的特性进行差异化的内存管理，从而有效应对两种模态间严重的 Token 不平衡问题。

2. 扰动感知记忆选择

为了在压缩内存的同时保持对长程信息的理解能力，OmniMem 采用了扰动感知（Perturbation-aware）的记忆选择机制。

原理：该方法通过评估移除或压缩特定 KV 状态对模型输出造成的“扰动”程度，来筛选出最具信息量且非冗余的 KV 状态。
效果：只有那些对模型最终推理结果影响较小的冗余信息才会被压缩或丢弃，而关键信息则被完整保留。这使得 OmniMem 能够在大幅缩减内存占用的同时，不牺牲模型对长视频内容的理解能力。

3. 预算感知微调（Budget-aware Fine-tuning）

为了在现实部署的资源约束下进一步强化压缩效果，OmniMem 探索了预算感知微调技术。

机制：在微调过程中，模型被鼓励将有用信息整合到被保留的记忆中。
目的：这种微调策略旨在让模型学会在有限的内存预算内，更智能地存储和提取关键信息，从而提升压缩后的推理性能。

4. 实验验证

研究团队在 VideoMME Long、LVBench 和 LVOmniBench 等多个基准数据集上进行了广泛实验，使用的基线模型包括 Video-SALMONN 2+ 和 Qwen-2.5-Omni。实验结果表明：

在相同的内存预算下，OmniMem 相比强大的免训练（training-free）压缩基线，准确率提升了 2-4%（绝对值）。
在经过预算感知微调后，准确率进一步提升了 1-2%。

关键要点

解决核心痛点：针对音视频 LLM 在长视频推理中因 KV 缓存线性增长导致的内存和计算瓶颈，提出了专门的流式压缩框架。
模态差异化处理：摒弃了统一压缩所有 Token 的传统做法，采用模态感知的内存分配，分别优化视觉和音频上下文的管理，解决多模态 Token 不平衡问题。
基于扰动的筛选机制：利用扰动感知记忆选择技术，精准识别并保留信息量大且非冗余的 KV 状态，确保压缩不损失长程理解能力。
微调增强压缩效能：引入预算感知微调，促使模型主动将关键信息整合进受限的记忆空间中，进一步挖掘压缩潜力。
显著的性能提升：在多个主流长视频理解基准上，OmniMem 在同等内存限制下，相比现有免训练基线实现了 2-4% 的准确率提升，微调后额外增益 1-2%。

意义与影响

OmniMem 的提出为长视频理解任务的落地部署提供了重要的技术路径。

降低部署门槛：通过高效的内存压缩，OmniMem 使得在资源受限的设备上运行复杂的音视频大模型成为可能，降低了硬件成本。
提升推理效率：减少 KV 缓存的大小直接加速了自回归生成过程，提高了长视频分析的实时性。
多模态处理新范式：其模态感知的分配策略和扰动感知选择机制，为多模态大模型的记忆管理提供了新的设计思路，证明了针对不同模态特性进行差异化优化是提升效率的关键。
推动长视频 AI 发展：随着短视频向长视频、复杂叙事内容扩展，OmniMem 这类能够高效处理长上下文的技术，对于构建真正具备深度理解能力的通用人工智能助手具有重要意义。

查看原文 →arxiv.org