技术博客arXiv cs.CL·1 小时前

提升英中语音翻译效果：评估并保留词汇重音

原标题：Evaluating and Preserving Lexical Stress in English-to-Chinese Speech-to-Speech Translation

速览

针对英中语音翻译中词汇重音传递不足及缺乏自动评估指标的问题，研究团队构建了中文重音数据集及基于XLS-R的重音检测器。在此基础上，结合EmphAssess系统提出了一种新的跨语言重音评估客观指标，并微调CosyVoice3模型以构建具备重音感知能力的语音翻译系统。实验表明，该架构在重音翻译能力上显著优于现有系统，且评估指标与人类主观判断高度相关。

AI 深度解读

评估与保留英语到中文语音到语音翻译中的词汇重音

背景

随着语音到语音翻译（Speech-to-Speech Translation, S2ST）技术的飞速发展，现有的系统在语义准确性和语音自然度方面已经取得了令人瞩目的进步。然而，在跨语言转换过程中，一个至关重要的副语言特征——词汇重音（Lexical Stress）——的传递却长期被忽视。

词汇重音不仅是语言结构的一部分，更是表达强调、说话者意图和情感色彩的关键线索。在英语等重音计时语言中，重音的变化可以显著改变句子的含义或侧重点。相比之下，中文作为声调语言，其韵律特征与英语截然不同，导致重音信息的跨语言迁移变得极其复杂。

目前，这一领域面临两大核心挑战：

研究空白：关于 S2ST 系统中重音跨语言转移的研究严重不足。
评估缺失：对于中文这类声调语言，缺乏可靠、自动化的重音评估指标，使得难以量化模型在保留重音信息方面的表现。

针对这一痛点，本研究提出了一套完整的解决方案，旨在评估并保留英中 S2ST 过程中的词汇重音信息。

核心内容

本研究通过构建专门的数据集、开发自动检测工具以及优化生成模型，系统地解决了英中语音翻译中重音保留的问题。具体工作流如下：

1. 构建重音标注数据集与检测器

为了在中文语境下量化重音，研究团队首先构建了一个带有重音标注的中文数据集。在此基础上，他们基于 XLS-R（一种强大的多语言语音预训练模型）微调训练了一个专门用于检测普通话（Mandarin）重音的检测器。这一工具使得机器能够自动识别中文语音中的重音模式，为后续的评估提供了基础。

2. 提出跨语言重音评估指标

为了评估英语到中文翻译中的重音保留情况，研究团队将上述中文重音检测器与现有的英语重音评估系统 EmphAssess 相结合。通过这种跨语言的映射与对比，他们提出了一种新颖的、客观的自动评估指标。该指标旨在衡量源语言（英语）中的重音意图是否在目标语言（中文）的译文中得到了有效保留。

3. 构建重音感知的 S2ST 系统

在评估框架确立后，研究团队对开源语音合成模型 CosyVoice3 进行了微调，构建了一个“重音感知”（stress-aware）的 S2ST 系统。该系统在翻译过程中不仅关注语义转换，还显式地建模和保留源语言中的重音特征，力求在目标语音中重现说话者的强调意图。

4. 实验结果验证

实验结果表明：

性能提升：提出的 S2ST 架构在重音翻译能力上显著优于现有的基线系统。
质量平衡：在提升重音保留能力的同时，系统保持了具有竞争力的整体翻译质量（语义准确性）。
指标有效性：新提出的评估指标与人类主观判断呈现出强相关性，证明了其作为自动化评估工具的有效性。

关键要点

重音的重要性被低估：现有的 S2ST 研究多聚焦于语义和自然度，忽略了词汇重音在传达说话者意图和强调方面的关键作用。
跨语言评估难题：由于英语（重音计时）和中文（声调语言）韵律机制不同，直接评估重音转移效果极具挑战性，此前缺乏针对中文的可靠自动评估手段。
技术栈创新：
- 利用 XLS-R 构建了首个可用的普通话重音检测器。
- 结合 EmphAssess 提出了首个跨语言重音客观评估指标。
- 基于 CosyVoice3 微调实现了重音感知的端到端翻译。
实证效果显著：新系统在重音保留指标上大幅领先，且新评估指标与人类主观评价高度一致，验证了方法论的有效性。

意义与影响

这项研究在语音翻译领域具有重要的理论和应用价值：

填补评估空白：首次为声调语言（如中文）的 S2ST 系统提供了可量化的重音评估标准。这解决了长期以来因缺乏客观指标而难以优化重音保留效果的问题。
提升沟通的自然度与准确性：通过保留词汇重音，翻译后的语音能够更准确地传达说话者的情感色彩、强调重点和隐含意图，从而显著提升人机交互或跨语言沟通的自然度和可信度。
推动多语言韵律建模：研究提出的基于 XLS-R 的重音检测器和跨语言评估框架，为其他语言对的韵律特征迁移研究提供了可借鉴的方法论基础。
促进开源生态发展：通过基于 CosyVoice3 等开源模型进行改进，本研究进一步丰富了开源 S2ST 工具链，降低了开发者构建高保真、高语义保真度语音翻译系统的门槛。

总之，该工作不仅是一项技术改进，更是对语音翻译中“副语言信息”价值的一次重要重申，标志着 S2ST 技术从“听得懂”向“听得自然、听得懂意图”迈进的关键一步。

查看原文 →arxiv.org