技术博客arXiv cs.CL·3 小时前

单自回归大模型实现原生全双工语音对话

原标题：BayLing-Duplex: Native Full-Duplex Speech Dialogue with a Single Autoregressive LLM

速览

BayLing-Duplex是一种原生全双工语音语言模型，通过单一自回归LLM同时处理听与说，无需外部话轮检测模块。该设计仅添加少量特殊令牌，可复用现有训练和服务架构。在GLM-4-Voice基础上微调后，其在打断和话轮转换成功率上表现优异，且未牺牲回答质量。

AI 深度解读

BayLing-Duplex：基于单一自回归大模型的本地全双工语音对话

背景

实时、全双工（Full-Duplex）语音交互被视为下一代语音聊天机器人的核心特征。这种交互模式允许模型同时“听”和“说”，从而能够自然处理对话中的重叠、犹豫以及用户打断（Barge-in）等现象，极大地提升了人机交互的自然度。

然而，现有的语音语言模型（SpeechLMs），如 LLaMA-Omni 和 GLM-4-Voice，本质上仍采用基于轮次（Turn-based）的交互方式。这些模型严重依赖外部的语音活动检测（VAD）模块来标记用户发言的结束，进而触发模型的回复生成。这种架构从根本上限制了模型的交互能力，使其无法像人类一样在对方说话的同时进行思考或插话，导致交互过程显得生硬且滞后。

核心内容

本文介绍了 BayLing-Duplex，这是一种原生的全双工 SpeechLM。其核心创新在于仅使用一个单一的自回归大语言模型（LLM），该模型能够自主决定何时倾听、何时说话以及何时停止，完全无需辅助的轮次切换模块。

架构与训练策略

极简架构适配：该设计仅向标准词表中添加了少量的特殊标记（Special Tokens）。这种轻量级的修改使得该方案具有极强的通用性，可以迁移到不同的 LLM 上，并复用现有的训练和服务栈，无需对模型架构进行复杂的适应性调整。
高效微调流程：研究团队从公开的 GLM-4-Voice 检查点出发，仅使用了 400K 条全双工样本进行微调，随后进行了一轮轻量级的直接偏好优化（DPO）阶段。这种低资源消耗的训练方式证明了全双工能力可以通过高效的数据策略获得。

性能评估

在 InstructS2S-Eval 基准测试中，BayLing-Duplex 取得了显著的成果：

轮次切换成功率：达到 92%。
打断成功率：达到 100%。
语音响应评分：相较于 Moshi，评分从 2.17 提升至 3.39。

此外，在 Llama Questions、Web Questions 和 Alpaca-Eval 等基于文本或标准问答的基准测试中，BayLing-Duplex 的表现匹配或超越了其基于轮次的对应版本。这一结果有力地证明了：同时建模“听”和“说”的能力并不会以牺牲响应质量为代价。

关键要点

原生全双工能力：BayLing-Duplex 是首个仅通过单一自回归 LLM 实现原生全双工语音对话的模型，无需外部 VAD 模块即可自主管理对话流。
低开销改造：仅通过添加少量特殊 Token 即可实现全双工功能，兼容现有 LLM 架构及训练/服务基础设施，迁移成本低。
数据效率极高：仅需 400K 条全双工样本进行微调，并结合轻量级 DPO，即可在交互能力上实现质的飞跃。
交互性能卓越：在 InstructS2S-Eval 上实现 92% 的轮次切换成功率和 100% 的打断成功率，显著优于现有基线模型（如 Moshi）。
质量无损：在保持高交互自然度的同时，模型在标准问答任务中的表现并未下降，甚至优于或持平于传统的基于轮次的模型。

意义与影响

BayLing-Duplex 的提出标志着语音交互技术从“模拟对话”向“真实对话”迈出了关键一步。

打破交互瓶颈：通过消除对外部 VAD 模块的依赖，该方案解决了传统 SpeechLM 在实时性、自然度和抗干扰能力上的根本局限，使 AI 助手能够像人类一样进行流畅、自然的并发交流。
降低部署门槛：其“单一模型+少量 Token”的设计思路，使得全双工能力可以低成本地集成到现有的 LLM 生态中，无需重新设计复杂的端到端架构，加速了全双工语音技术的落地应用。
验证了联合建模的可行性：研究结果证实，同时优化语音生成和对话逻辑不仅可行，而且不会损害模型的通用智能水平，为未来多模态大模型的发展提供了重要的技术路径参考。

查看原文 →arxiv.org