技术博客arXiv cs.CL·2 小时前

利用上下文嵌入预测普通话单音节词时长与音高

原标题：Using embeddings to predict spoken word duration and pitch in Mandarin monosyllabic words

速览

arXiv论文2607.02002v1提出，利用普通话口语语料中7470个单音节CV词的上下文嵌入，成功预测其发音时长和音高轮廓。嵌入不仅在类型层面高于随机基线准确预测时长，也能在单个词层面精确预测。生成的音高轮廓能反向回溯至毫秒级时间尺度，与真实轮廓接近，显著优于置换基线。这项研究证明嵌入在韵律学建模中的实用价值，可能推动语音合成和自然语言处理技术改进。

AI 深度解读

背景

在语音科学领域，音高轮廓（f0 contours）是表征语音声学特征的重要指标。时间归一化的f0轮廓已在以往研究中被证明，能够部分从上下文化嵌入（contextualized embeddings，简称CEs）中预测得出。这表明语言模型的嵌入表示在捕捉语音动态特征方面具有潜力。现有证据主要针对连续话语中的Mandarin词（普通话词汇），为后续研究提供了基础。

核心内容

本研究考察上下文化嵌入（CEs）是否同样能够预测Mandarin单音节CV词的口语发音时长（spoken word duration）。实验选取了7470个Mandarin单音节CV词的token，这些样本直接取自一个普通话口语自发话语语料库。

研究首先展示了CEs在类型水平（type level）上高于随机水平的预测能力：通过类型-wise permutation baseline验证，CEs确实能预测时长，且预测结果显著优于纯随机抽样。接着进一步证明了预测能力不仅限于类型层面，在个体token级别同样成立：token-wise permutation baseline同样显示CEs的预测效果显著超出纯随机水平。

更重要的是，研究发现CEs预测的时长精度已足够高，能够实现将[0,1]归一化时间尺度的f0轮廓反向转换至毫秒（ms）时间尺度上的真实轮廓。基于此，研究将CEs预测的时长信息应用于回溯[0,1]归一化的f0轮廓，得到了在ms时间尺度上的预测轮廓。结果显示，这些预测轮廓与实证（empirical）轮廓高度近似，同时也优于permutation baseline的预测效果。

关键要点

CEs在类型级别和token级别的单音节Mandarin词时长预测中均显著优于chance level，token-wise与type-wise permutation baselines均验证了这一点。
CEs预测的时长精度足以将[0,1]归一化的f0轮廓反向转换至ms时间尺度，并得到与实证轮廓接近的预测轮廓。
预测轮廓在ms尺度上优于permutation baseline，表明CEs具有跨尺度预测语音动态特征的潜力。

意义与影响

本研究进一步强化了上下文化嵌入在语音学预测任务中的实用价值，证明它们不仅能捕捉f0轮廓的动态模式，还能精准预测口语发音时长（包括token级精度）。这为后续的Mandarin语音合成、语音识别后处理、情感分析或说话速度调节等应用提供了可操作的工具链。研究还强调了CEs在多尺度语音特征建模中的优势，为语言模型嵌入在低资源或口语对话场景下的应用开辟了新路径，同时为语音数据反归一化与真实时间尺度转换提供了可靠方法。

查看原文 →arxiv.org

利用上下文嵌入预测普通话单音节词时长与音高

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐