技术博客arXiv cs.AI·14 小时前

多模态大模型如何融合视听信息：从感知到决策

原标题：From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs

速览

该研究深入剖析了视听大模型（AVLLMs）内部音频和视觉信号如何路由、利用及整合。研究发现，模型根据任务需求动态调整信息流向，且在信息传递后可丢弃原始视听token以提升效率。这一发现为多模态大模型的可解释性、架构设计及推理优化提供了重要依据。

AI 深度解读

从感官到决策：多模态大模型中听觉与视觉感知的信息流

背景

多模态大语言模型（Multimodal Large Language Models, MLLMs）如今已具备“听”和“看”的能力，能够处理音频、视频和图像等多种输入形式。然而，尽管这些模型在研究和实际应用中日益普及，其内部运作机制仍是一个黑盒。具体而言，音频和视觉信号究竟如何在网络内部传输，又是如何最终影响模型的预测结果的，这一过程尚缺乏深入的理解。

现有的研究多集中于视觉语言模型（VLMs）或视频语言模型（VideoLLMs），但对于同时包含听觉和视觉模态的 Audio-Visual Large Language Models (AVLLMs)，其内部的信息路由、利用及整合机制知之甚少。特别是在面对复杂的输入配置——如连续的音视频视频流与多个交错的音视频项目时，模型内部的信息流动路径究竟如何变化，目前尚无定论。

核心内容

本研究深入剖析了 AVLLMs 内部音频与视觉信息的流动机制，重点考察了两种不同的输入配置下，模型如何路由、利用和整合多模态信息。研究主要基于 Qwen2.5-Omni 和 Video-SALMONN2 Plus 两个模型，并在 3B 和 7B 参数规模下进行了验证。

1. 连续音视频视频流中的信息流动 在处理连续的音视频视频（audio-visual video）时，AVLLMs 遵循了此前在 VLMs 和 VideoLLMs 中建立的顺序信息流动路径。在这种配置下，音频和视觉信息的贡献并非固定不变，而是根据任务对特定模态的依赖程度，按比例沿着该路径流动。这意味着模型能够动态调整对不同感官输入的权重，以优化最终的回答质量。

2. 交错音视频项目中的路由机制转变 当输入配置变为多个交错的音视频项目（multiple interleaved audio-visual items）时，模型内部的信息路由机制发生了显著变化。原有的顺序流动路径被打破，信息转而流向不同的并行数据流（parallel streams）。这种机制的转变表明，模型能够根据输入数据的结构特性，灵活调整其内部的信息处理架构。

3. 信息转移后的冗余消除与推理优化 研究还发现了一个关键现象：一旦音频、视觉及其他类型的 token 信息被成功转移至大语言模型（LLM）的核心部分，这些原始的感知 token 实际上可以被丢弃。实验显示，丢弃这些 token 对模型的预测结果影响极小，甚至在某些情况下能带来轻微的性能提升。这一发现具有极高的工程价值，因为它意味着在推理阶段可以大幅减少内存占用和计算开销，从而显著提升 AVLLMs 的推理效率。这一结论在多个任务和数据集上均得到了验证，证明了其通用性。

关键要点

动态模态加权：在连续音视频输入中，模型并非平等对待所有感官输入，而是根据任务需求，按比例动态分配音频和视觉信息的贡献度。
结构自适应路由：面对交错的音视频数据，模型会自动从“顺序流动”切换至“并行流”处理机制，显示出对输入结构的高度适应性。
感知 Token 的可丢弃性：原始音频和视觉 token 仅在信息提取阶段必要。一旦信息被 LLM 核心捕获，这些 token 即可安全移除，且不会损害模型性能，甚至可能因减少噪声而略微提升效果。
跨模型与规模的普适性：上述发现不仅在 Qwen2.5-Omni 和 Video-SALMONN2 Plus 上得到验证，且在 3B 和 7B 不同参数规模下保持一致，表明这是 AVLLMs 的一种普遍内在机制。
效率提升潜力：基于“信息转移后可丢弃感知 token”的发现，开发者可以设计更高效的推理管道，降低多模态大模型的部署成本。

意义与影响

这项研究首次为 AVLLMs 内部如何协调声音与视觉信号提供了连贯且清晰的图景。其意义不仅在于理论上的解释性突破，更在于为未来的模型设计指明了方向。

首先，在**可解释性（Interpretability）**方面，研究揭示了多模态大模型内部的信息流动规律，打破了黑盒状态，有助于研究人员更深入地理解模型为何做出特定决策。

其次，在**模型设计（Design）**方面，了解信息流动的路由机制（顺序 vs. 并行）有助于构建更高效的架构，特别是在处理复杂、非连续的多模态数据时。

最后，在**效率优化（Efficiency）**方面，证实感知 token 的可丢弃性为多模态大模型的轻量化部署提供了理论依据。通过移除冗余的感知数据，可以在保持甚至提升性能的同时，显著降低计算资源消耗和延迟。这为下一代音频-视觉及更广泛的多模态大模型的发展奠定了坚实基础，推动了该领域向更高效、更透明的方向演进。

查看原文 →arxiv.org