技术博客arXiv cs.CL·7 天前

解锁基于提示的文本转语音模型中的细粒度及句内说话风格控制

原标题：Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models

速览

针对现有基于提示的文本转语音模型缺乏细粒度控制和全局风格单一的问题，本文提出两项新技术。通过计算嵌入空间中的方向向量实现跨句风格插值，并利用KV缓存交换和滑动窗口注意力掩码解决自回归解码器的早期注意力偏差，实现句内风格转换。实验表明，该方法在性别转换、音高和语速变化上表现优异，且能保持高说话人相似度和感知平滑度。

AI 深度解读

解锁基于提示的文本转语音模型中的细粒度与句内说话风格控制

背景

随着基于提示（Prompt-based）的文本转语音（TTS）模型的兴起，研究人员能够通过自然语言指令来驱动语音生成的风格控制。这种范式极大地简化了用户与语音合成系统的交互方式，使得非专业人士也能通过简单的文本描述生成具有特定情感、语调或角色特征的语音。

然而，现有的基于提示的 TTS 模型在实际应用中面临着两个主要的局限性：

细粒度控制不足：模型往往只能提供粗略的风格分类或单一的全局风格描述，难以实现连续的风格属性插值（例如，从“平静”平滑过渡到“兴奋”的中间状态）。
缺乏句内风格转换能力：大多数模型在整个语句（utterance）生成过程中应用单一的全局风格。这意味着，如果一个句子需要表达从“疑问”到“肯定”的情绪变化，或者语速从慢到快的动态变化，现有模型难以在同一句话中实现这种随时间变化的风格转换。

这些限制严重阻碍了 TTS 技术在需要高度自然、动态表达的场景（如高端有声书、交互式游戏角色对话、情感陪伴机器人）中的实际应用。

核心内容

本文提出了一种新颖的技术框架，旨在解决上述两个核心痛点，即在现有的基于提示的 TTS 模型中实现句间风格插值（Inter-utterance style interpolation）和句内风格转换（Intra-utterance style transition）。

1. 句间风格插值：实现连续风格过渡

为了实现不同风格之间的平滑过渡，研究团队在嵌入空间（embedding space）中引入了方向向量计算机制。

原理：系统首先计算对比风格提示（contrastive style prompts，如“快乐”与“悲伤”）在嵌入空间中的方向向量。
方法：通过在这些方向向量上进行简单的线性插值，模型能够生成介于两种极端风格之间的中间风格嵌入向量。
效果：这种方法使得用户可以在不同风格属性之间进行连续调节，从而实现风格特征的平滑过渡，而非生硬的切换。

2. 句内风格转换：解决自回归解码器的注意力偏差

在实现单句内部的时间变化风格转换时，研究团队发现了一个关键的技术障碍：自回归 TTS 解码器中存在强烈的早期 token 注意力偏差。

问题诊断：在自回归生成过程中，解码器往往过度关注序列开头的 token。这导致初始生成的音频片段（即“第一印象”）会主导后续所有音频片段的生成，使得后续的风格变化难以被正确执行。
解决方案：为了缓解这一效应，作者引入了两项关键技术：
1. KV-cache 交换（KV-cache swapping）：通过动态管理键值缓存，调整模型对历史信息的依赖权重。
2. 滑动窗口注意力掩码（Sliding-window attention masking）：限制注意力机制的范围，防止早期 token 对后续生成产生过强的全局影响，从而允许局部风格特征在句子不同位置独立演化。

3. 实验结果验证

研究团队在多个基准测试中验证了所提方法的有效性：

句间插值性能：
- 性别转换成功率：达到 99-100%。
- 音高变化：支持高达 36 Hz 的音高变化。
- 语速变化：支持高达每秒 1.6 个音节的语速变化。
句内转换性能：
- 说话人相似度：保持在 0.81-0.91 的高水平，确保在风格变化过程中说话人身份的一致性。
- 感知平滑度评分：达到 3.48-4.48 分（基于主观感知评估），表明风格转换在听觉上是自然且流畅的。

关键要点

双重控制能力：本文首次在同一框架下实现了 TTS 模型的跨句风格插值和句内风格转换，突破了传统模型只能应用单一全局风格的限制。
嵌入空间插值技术：通过计算对比风格提示在嵌入空间中的方向向量并进行插值，实现了连续、细腻的风格属性调节。
注意力偏差修正：识别出自回归解码器中早期 token 的主导效应是阻碍句内风格变化的主要原因，并通过 KV-cache 交换和滑动窗口注意力掩码有效解决了这一问题。
高保真度与平滑度：实验数据显示，该方法在保持说话人身份一致性的同时，实现了极高的风格转换成功率和感知平滑度，具备极高的实用价值。

意义与影响

这项研究对文本转语音领域具有重要的理论和实践意义：

提升语音合成的自然度与表现力：通过支持细粒度和时间变化的风格控制，生成的语音将更加接近人类自然的说话方式，能够表达复杂的情感层次和动态语气变化。
拓展应用场景：该技术使得 TTS 系统能够胜任更复杂的任务，如生成具有丰富情感变化的有声书、多角色互动的游戏对话、以及需要微妙语气调整的虚拟助手。
推动基于提示的 TTS 模型发展：本文提出的 KV-cache 交换和滑动窗口注意力掩码等技术，为优化自回归 TTS 模型的生成机制提供了新的思路，可能启发后续研究解决其他类似的生成偏差问题。
增强用户交互体验：允许用户通过简单的提示词实现连续的风格调节，降低了使用门槛，提升了人机交互的自然性和直观性。

总之，这项工作不仅解决了基于提示的 TTS 模型在风格控制上的关键瓶颈，也为构建更智能、更自然的语音合成系统奠定了重要基础。

查看原文 →arxiv.org