技术博客arXiv cs.CL·2 小时前

连续音频思维：提升大型音频语言模型声学信息保留能力

原标题：Continuous Audio Thinking for Large Audio Language Models

速览

大型音频语言模型因训练目标偏向文本生成，往往丢失语音、音乐等丰富的声学信息。研究提出连续音频思维（CoAT）框架，利用专家蒸馏构建连续潜在工作区，在生成响应前组织声学信息。该方法无需额外自回归解码成本，在多项音频推理和理解基准上验证了有效性。

AI 深度解读

Continuous Audio Thinking for Large Audio Language Models

背景

大型音频语言模型（Large Audio Language Models, LALMs）在多样化的音频理解任务中展现出了令人印象深刻的能力，其应用范围涵盖了从语音转录到音乐分析等多个领域。然而，现有的 LALMs 通常被训练为生成与文本对齐的响应（text-aligned responses）。这种训练范式导致模型的隐藏状态（hidden states）逐渐被塑造为服务于文本生成，而非保留原始的声学信息。

在这个过程中，音频所携带的丰富声学内容——包括音素细节、韵律、声音事件、情感色彩以及音高——往往在模型处理过程中丢失，难以被有效地利用来生成高质量的响应。这一缺陷限制了 LALMs 在需要精细声学感知的复杂任务中的表现。

核心内容

为了解决上述问题，研究团队提出了 Continuous Audio Thinking (CoAT) 框架。该框架旨在为音频语言模型配备一个连续的潜在工作空间（continuous latent workspace），用于在生成响应之前组织和处理声学信息。CoAT 的核心机制基于从音频专家模型中进行的蒸馏（distillation）。

1. 连续思考空间（Continuous Thinking Space）

CoAT 引入了一个专门的“思考空间”，模型可以在其中利用由专家蒸馏提供的丰富声学信息。在这个空间中，模型不再急于生成文本，而是先对输入的音频数据进行深度的声学特征提取和组织。这种机制允许模型在生成最终文本响应之前，充分“思考”音频中的细微差别，如音素、韵律和情感等关键声学特征。

2. 高效推理架构

提出的连续思考块（continuous thinking block）可以在单次预填充（single prefill）过程中完成处理。这意味着 CoAT 不需要在基线模型之上增加额外的自回归解码（autoregressive decoding）成本。从计算效率的角度来看，CoAT 在提升性能的同时，保持了与基线模型相当的推理速度，避免了因增加复杂推理步骤而带来的延迟。

3. 实验验证与效果

研究团队在三个主流的大型音频语言模型上验证了 CoAT 的有效性：

Qwen2-Audio
Qwen2.5-Omni-7B
Audio Flamingo~3

实验涵盖了一个广泛的基准测试套件，包括：

音频推理（Audio Reasoning）
音频理解（Audio Understanding）
音乐分类（Music Classification）
语音情感识别（Speech Emotion）
语音转录（Speech Transcription）

结果显示，在这些任务上均取得了显著的性能提升。进一步的深入分析证实，辅助监督信号（auxiliary supervision）能够从“思考位置”有效地传播到模型的文本响应中，确保了声学信息能够真正影响最终的输出结果。

关键要点

解决声学信息丢失问题：传统 LALMs 因训练目标偏向文本生成，导致音素、韵律、情感等关键声学细节在隐藏状态中被稀释或丢失。CoAT 通过引入连续潜在工作空间，专门用于在生成前保留和组织这些信息。
专家蒸馏驱动：CoAT 框架的核心在于从音频专家模型中进行蒸馏，利用专家模型对声学特征的深刻理解来指导主模型的“思考”过程。
零额外解码成本：连续思考块的处理被优化为单次预填充操作，使得 CoAT 在不增加自回归解码开销的前提下提升性能，保持了推理效率。
跨模型通用性：该方法在 Qwen2-Audio、Qwen2.5-Omni-7B 和 Audio Flamingo~3 等不同架构的模型上均验证有效，证明了其通用性。
多任务性能提升：在音频推理、理解、音乐分类、情感识别和语音转录五大类任务中，CoAT 均带来了可量化的性能增益。
监督信号的有效传播：分析表明，思考阶段获得的声学特征监督能够成功传播至最终的文本输出，实现了声学感知与语言生成的有效结合。

意义与影响

Continuous Audio Thinking (CoAT) 的提出标志着大型音频语言模型在架构设计上的一个重要进步。它揭示了当前 LALMs 在“声学感知”与“语言生成”之间的断层，并提供了一种高效的解决方案。

首先，CoAT 证明了通过引入专门的中间表示空间（即思考空间），可以显著改善模型对细粒度声学特征（如音素、韵律）的利用能力。这对于需要高精度音频理解的应用场景（如医疗听诊分析、法律录音转录、音乐内容识别等）具有重要意义。

其次，该框架在提升性能的同时保持了计算效率，解决了以往增加模型复杂度往往导致推理延迟增加的问题。这使得 CoAT 更容易被集成到现有的 LALM 系统中，具有极高的工程落地价值。

最后，CoAT 为未来的多模态模型研究提供了新的思路：即在进行跨模态转换（如音频到文本）时，不应简单地压缩声学信息以适配文本生成，而应保留并利用连续的声学表征，通过专门的机制进行“思考”和整合。这一理念可能延伸至视频、传感器数据等其他模态的处理中。

查看原文 →arxiv.org