技术博客arXiv cs.CL·4 小时前

LWS范式：让大模型在语音交互中通过显式文本释放核心能力

原标题：Liberating LLM Capabilities in Full-Duplex Speech Models

速览

现有语音大模型受限于口语输出，难以发挥代码生成等文本原生能力。研究提出LWS范式，让单一自回归模型在监听音频的同时，以可见文本为主要输出并并行语音回复。该方法无需修改架构，仅通过Token Schema实现，显著提升了全双工交互中的推理与一致性表现。

AI 深度解读

解放全双工语音模型中的大语言模型能力：LWS 范式解读

背景

当前，基于语音的大语言模型（Speech-based LLMs）在交互体验上取得了显著进展，但其输出形式往往受到严格限制：模型通常被约束为仅生成口语回复。这种设计虽然提升了语音交互的自然度，却带来了一个核心痛点——它抑制了文本原生能力的发挥。

在实时交互场景中，许多任务（如代码生成、结构化分析、多步推理）需要持久化、结构化且可检查的中间输出。然而，传统的语音模型无法直接提供这些“文本原生”的能力，导致用户无法在对话过程中查看、复制或利用这些关键信息。现有的改进工作主要集中在优化语音推理能力或实现全双工（Full-Duplex）的对话轮转机制上，但在处理文本时，往往将其视为隐藏的中间状态或从属模态，而非一等公民的输出通道。

这种架构局限使得语音模型在处理复杂逻辑任务时显得力不从心，难以兼顾实时语音交互的流畅性与复杂任务所需的结构化输出需求。

核心内容

为了解决上述矛盾，研究团队提出了一种名为 Listen-Write-Speak (LWS，听-写-说) 的新范式。这是一种“文本优先”的三通道交互模式，旨在通过单一自回归大语言模型（LLM），同时实现音频监听、文本书写和语音说话三种功能。

1. LWS 工作原理

LWS 范式让模型在共享的因果注意力上下文（shared causal attention context）下并行执行以下操作：

Listen（听）： 持续监听用户的音频输入。
Write（写）： 将可见的自由格式文本作为主要输出通道。这意味着模型在思考过程中产生的结构化数据、代码或推理步骤会以文本形式实时展示给用户。
Speak（说）： 在生成文本的同时，并行生成实时的口语回复。

这种设计使得文本不再是后台的隐藏状态，而是成为与语音并列甚至更优先的一等输出通道。

2. 技术实现：零架构修改

LWS 的核心创新在于其实现方式极其轻量。它完全通过 Token Schema（令牌模式） 来实现，无需对底层模型架构进行任何修改。这意味着现有的预训练模型可以直接通过数据层面的调整来适配这一范式，大大降低了部署门槛。

3. 数据合成与训练

为了训练这种多模态协同行为，研究团队设计了一个两阶段的数据流水线：

该流水线合成与“揭示的输入时间线”（revealed input timeline）一致的每秒认知标注（cognitive annotations）。
通过这种方式，模型学会了如何在听到用户语音的同时，同步生成对应的文本思考和语音回应，确保三者之间的逻辑一致性。

关键要点

文本作为一等输出通道： LWS 打破了语音模型仅输出音频的限制，将可见文本作为主要输出，从而释放了代码生成、结构化分析等文本原生能力。
全双工实时交互： 模型能够在用户说话的同时进行监听、思考和回应，实现了真正的全双工交互，同时保持低延迟。
无需架构改动： 通过 Token Schema 实现，无需修改模型底层结构，兼容性强，易于集成到现有系统中。
一致性保障： 模型在生成语音和文本时保持了高度的一致性，避免了“说一套做一套”的现象。
实证表现优异：
- 在 Full-Duplex-Bench 上展现了强大的全双工交互能力。
- 在 VoiceBench AlpacaEval 中达到 4.72 分。
- 写作与说话的一致性高达 92.6%。
- 在 URO-Bench 上 consistently 优于其内部消融实验（ablations）版本。

意义与影响

LWS 范式的提出具有重要的理论和实践意义。它证明了在语音交互中引入可见的文本输出通道，并不会牺牲实时响应性，反而能显著提升模型处理复杂任务的能力。

对于开发者而言，这一范式提供了一种无需重构模型架构即可增强语音助手智能水平的路径。对于用户而言，这意味着未来的语音助手不仅能“听懂并回答”，还能“边想边写”，在对话过程中实时展示代码、图表或逻辑推导过程，极大地提升了人机协作的透明度和效率。

随着代码和数据的公开，LWS 有望推动下一代语音大模型向更通用、更透明的方向演进，弥合语音交互与文本处理之间的鸿沟。

查看原文 →arxiv.org