技术博客arXiv cs.CL·4 小时前

NaturalFlow：减少中断停顿，提升同声传译自然度

原标题：NaturalFlow: Reducing Disruptive Pauses for Natural Speech Flow in Simultaneous Speech-to-Speech Translation

速览

针对同声传译中为追求低延迟导致的语音碎片化和频繁停顿问题，研究提出NaturalFlow框架。该框架利用模型内部信号最小化块间静音，在保持低延迟和翻译质量的同时，显著提升了语音流的自然度。实验表明，该方法能有效降低听众认知负荷。

AI 深度解读

NaturalFlow：在实时语音翻译中减少破坏性停顿，重塑自然语音流

背景

同步语音到语音翻译（Simultaneous Speech-to-Speech Translation, Simul-S2ST）旨在通过最小化延迟来实现近乎实时的沟通。与传统的连续翻译（Consecutive Translation，即等待说话者说完整个句子或段落后再进行翻译）相比，同步翻译提供了极具吸引力的实时替代方案，极大地降低了交互中的等待时间。

然而，为了追求极致的低延迟，现有的同步翻译系统往往不得不采用分块（chunk-wise）的处理策略。这种策略导致生成的语音片段破碎，缺乏连贯性。听众因此被迫面对一种不自然的声学流，其中充斥着频繁的停顿和沉默。这种不流畅的语音不仅听起来生硬，还会显著增加听众的认知负荷，使得沟通体验大打折扣。

现有的研究大多集中在平衡延迟与翻译质量上，却忽视了“语音流畅度”这一关键维度。如何在保持低延迟优势的同时，消除因分块处理带来的断裂感，成为该领域亟待解决的痛点。

核心内容

为了解决上述问题，研究团队提出了 NaturalFlow，这是一个流利度感知的优化框架（fluency-aware optimization framework）。该框架的核心目标是发现同步翻译的低延迟优势与连续翻译的自然流畅度之间的“甜蜜点”（sweet spot）。

1. 核心机制：利用模型内部信号

NaturalFlow 并不依赖外部规则或后处理来强行拼接语音，而是通过利用模型内部的信号来最小化块间静音（inter-chunk silences）。具体而言，框架利用了以下两个关键信号：

语言多样性（Linguistic Diversity）：通过分析源语言和目标语言之间的结构差异，模型能够更准确地预测何时应该结束当前语音块，从而减少不必要的等待或仓促截断。
诱导的时间变异性（Induced Temporal Variability in Speech Durations）：传统的同步翻译往往产生节奏僵硬的语音。NaturalFlow 通过在训练过程中引入时间上的变异性，使生成的语音在节奏上更加自然，模拟人类说话时的自然停顿和加速，从而掩盖或减少块与块之间的突兀间隙。

2. 优化目标

该框架旨在最小化块间静音，同时保持以下两个关键指标：

竞争性延迟（Competitive Latency）：确保翻译的响应速度依然保持在同步翻译的高水平。
翻译质量（Translation Quality）：确保语义的准确传达不受影响。

3. 实验验证

研究团队在短文本和长文本基准测试（benchmarks）上对 NaturalFlow 进行了评估。实验结果表明，该框架能够在维持具有竞争力的延迟和翻译质量的同时，显著改善语音的自然流动感。

关键要点

问题定义：同步语音翻译为了追求低延迟，常导致语音碎片化，产生频繁的块间停顿，增加了听众的认知负荷，破坏了自然语音流。
解决方案：提出 NaturalFlow 框架，这是一个流利度感知的优化框架，旨在平衡低延迟与自然流畅度。
技术路径：
- 利用模型内部信号来最小化块间静音。
- 具体利用 语言多样性 和 诱导的时间变异性 来优化语音生成的节奏和连贯性。
实验结果：在短形式和长形式基准测试中，NaturalFlow 均表现出自然流畅的语音流，同时保持了具有竞争力的延迟和翻译质量。
核心价值：在不牺牲同步翻译核心优势（低延迟）的前提下，显著提升了用户体验，降低了认知负荷。

意义与影响

NaturalFlow 的提出标志着同步语音翻译技术从单纯的“速度竞赛”向“体验优化”迈出了重要一步。

提升人机/人人交互体验：通过减少不自然的停顿，同步翻译系统生成的语音将更加接近人类自然说话的节奏。这对于实时会议、跨国协作、无障碍沟通等场景至关重要，能够显著降低用户的疲劳感和认知负担。
重新定义同步翻译的性能指标：传统评估主要关注延迟（Latency）和翻译准确率（如 BLEU 分数）。NaturalFlow 强调了“流利度”（Fluency）和“声学自然度”作为同等重要的评估维度，推动了该领域评估体系的多维化发展。
技术启示：利用模型内部信号（如语言多样性和时间变异性）进行优化，为其他序列生成任务（如文本摘要、实时字幕生成）提供了新的思路，即通过挖掘模型内部的动态特性来改善输出序列的连贯性，而不仅仅是依赖外部后处理。

总之，NaturalFlow 为解决同步翻译中的“断裂感”问题提供了有效的框架，为构建更自然、更高效的实时跨语言沟通工具奠定了坚实基础。

查看原文 →arxiv.org