技术博客arXiv cs.CL·2 天前

LaSR：基于潜在推理的上下文感知语音识别新范式

原标题：LaSR: Context-Aware Speech Recognition via Latent Reasoning

速览

针对现有语音大模型在上下文感知方面的不足，研究提出LaSR（潜在语音推理）训练范式。该方法利用潜在推理过程对齐思维链监督，实现上下文信息 grounding 和转录过渡，无需生成显式中间令牌。实验表明，LaSR在Fun-Audio-Chat上显著提升了专业术语识别准确率，且未引入额外延迟，优于标准监督微调基线。

AI 深度解读

LaSR：通过潜在推理实现上下文感知的语音识别

背景

近年来，语音大语言模型（Speech Large Language Models, Speech LLMs）的快速发展极大地提升了 spoken language understanding（口语理解）和推理能力。然而，现有的语音模型在“上下文感知”方面仍存在显著局限。

传统模型往往难以在语音识别过程中有效反映说话人的真实意图以及话题的上下文背景。这导致在识别特定领域术语或复杂语境下的语音时，准确率往往不尽如人意。为了解决这一痛点，研究人员提出了一种新的训练范式，旨在通过引入“潜在推理”机制，让模型在生成转录文本之前，先在隐空间中完成对上下文信息的 grounding（锚定/定位）和过渡处理。

核心内容

本文提出了一种名为 LaSR（Latent Speech Reasoning，潜在语音推理）的新颖训练范式。LaSR 的核心创新在于构建了一条上下文感知的推理轨迹，利用潜在推理过程来增强语音识别的效果。

1. 潜在推理机制

与传统的生成式模型不同，LaSR 并不生成显式的中间 token（即不输出类似“思维链”的文本步骤）。相反，它采用了一种隐式对齐策略：

CoT 监督对齐：LaSR 将思维链（Chain-of-Thought, CoT）的监督信号对齐到目标词汇对应的声学特征区域。这意味着模型在识别某个词时，会在声学特征层面“思考”该词在上下文中的合理性。
潜在推理周期：模型引入了专门的“潜在推理周期”，用于执行两项关键任务：
1. 上下文信息锚定：利用前文语境确定当前语音片段的语义指向。
2. 转录过渡：平滑处理从上下文到当前目标词的语义转换，确保转录结果的连贯性。

2. 专用数据集：Spoken Darwin-Science

为了有效基准测试（benchmark）模型在专业词汇上的上下文识别能力，研究团队提出了 Spoken Darwin-Science 数据集。这是一个大规模语料库，专注于学术术语。该数据集的构建旨在填补现有通用语音数据集在专业领域上下文理解评估方面的空白。

3. 实验结果

在 Fun-Audio-Chat 数据集上的初步实验表明：

术语识别提升：LaSR 显著提高了对专业术语的识别准确率。
零额外延迟：这种性能提升并未引入额外的推理延迟，保持了高效的实时处理能力。
优于基线：LaSR 一致地优于标准的监督微调（Supervised Fine-Tuning, SFT）基线模型。

关键要点

范式创新：LaSR 提出了一种基于“潜在推理”的训练范式，区别于传统的显式思维链生成，通过隐式对齐声学特征与推理逻辑来增强上下文感知。
技术实现：
- 不生成显式中间文本 token。
- 将 CoT 监督信号映射到目标词的声学特征区域。
- 引入潜在推理周期以完成上下文锚定和转录过渡。
数据贡献：发布了 Spoken Darwin-Science 大规模学术术语语料库，为评估专业领域的上下文语音识别提供了新的基准。
性能优势：在 Fun-Audio-Chat 上验证，LaSR 在提升术语识别准确率的同时，保持了与基线模型相同的推理延迟，且性能稳定超越标准 SFT 方法。
应用前景：研究结果证明了潜在推理在构建高效、上下文感知的语音助手方面的巨大潜力。

意义与影响

LaSR 的研究成果揭示了语音大模型发展的一个新方向：从单纯的“声学特征到文本”的映射，转向“声学特征到语义推理再到文本”的深层理解。

解决上下文缺失痛点：通过引入潜在推理，模型能够更好地捕捉说话人的意图和话题背景，这对于医疗、法律、学术等专业领域的语音助手至关重要。
效率与精度的平衡：许多引入推理机制的模型往往伴随着计算开销的增加和延迟的提升。LaSR 证明了通过隐式对齐和潜在空间处理，可以在不牺牲实时性的前提下显著提升识别精度，这为工业级部署提供了可行方案。
推动垂直领域应用：Spoken Darwin-Science 数据集的发布，鼓励了社区对专业术语语音识别的关注，有助于推动语音技术在垂直行业中的深度应用。

总之，LaSR 不仅是一个新的模型架构，更是一种新的训练哲学，它强调了“理解”在语音识别中的核心地位，为下一代上下文感知的语音交互系统奠定了基础。

查看原文 →arxiv.org