技术博客arXiv cs.CL·1 小时前

Reference-Based Prosody and Rhythm Evaluation for Spoken Dialogue Systems

AI 深度解读

背景

随着语音到语音（S2S）AI 代理的迅猛发展，如何客观、准确地评估其生成语音的质量成为了亟待解决的问题。当前的评估体系在感知和用户中心维度已有一定基础，但在语音本身的韵律和节奏等声学特征上，仍缺乏可解释的、原生于语音的度量标准。传统的评估方法往往依赖于将大量人类语音统计数据进行聚合，以此作为基准来衡量 AI 输出。然而，语音的基频（$F_0$）、语速、发音速率和停顿等关键韵律特征，并非一成不变，它们会随着说话人的特质（如性别、年龄）以及交互状态（如情绪、对话语境）的变化而动态波动。这种基于全量数据聚合的评估方式，由于无法精准匹配特定语境下的声学特征分布，导致其在评估特定 S2S 输出时校准度不佳，极易产生误报或漏报。

核心内容

本文针对 S2S AI 代理在韵律和节奏评估上的痛点，提出了一种基于匹配参考的评估方法。研究的核心逻辑与实施步骤如下：

构建匹配参考机制：研究利用了超过 4000 小时的英语双人对话数据（来自 Seamless Interaction 数据集），针对 $F_0$ 均值、$F_0$ 表现力、语速、发音速率、停顿率和平均停顿时长这六大核心指标，构建了“匹配参考机制”。与传统的全量数据聚合不同，该机制能够根据特定的说话人特征和交互状态，提供与之匹配的人类参考基线。
定义百分位评估协议：在获得匹配参考基线后，研究者设计了一套基于百分位的评估协议。该协议首先从 S2S 系统的输出波形中提取上述六大声学指标，随后将其与最接近的匹配人类参考层级进行比对。最终输出两个维度的评估结果：一是百分位偏差，用于量化 AI 输出偏离人类基准的程度；二是第 5 至第 95 百分位的越界标志，用于判定输出是否在合理的人类语音区间内。

查看原文 →arxiv.org

Reference-Based Prosody and Rhythm Evaluation for Spoken Dialogue Systems

AI 深度解读

背景

核心内容

相关推荐