Reference-Based Prosody and Rhythm Evaluation for Spoken Dialogue Systems
AI 深度解读
背景
随着语音到语音(S2S)AI 代理的迅猛发展,如何客观、准确地评估其生成语音的质量成为了亟待解决的问题。当前的评估体系在感知和用户中心维度已有一定基础,但在语音本身的韵律和节奏等声学特征上,仍缺乏可解释的、原生于语音的度量标准。传统的评估方法往往依赖于将大量人类语音统计数据进行聚合,以此作为基准来衡量 AI 输出。然而,语音的基频($F_0$)、语速、发音速率和停顿等关键韵律特征,并非一成不变,它们会随着说话人的特质(如性别、年龄)以及交互状态(如情绪、对话语境)的变化而动态波动。这种基于全量数据聚合的评估方式,由于无法精准匹配特定语境下的声学特征分布,导致其在评估特定 S2S 输出时校准度不佳,极易产生误报或漏报。
核心内容
本文针对 S2S AI 代理在韵律和节奏评估上的痛点,提出了一种基于匹配参考的评估方法。研究的核心逻辑与实施步骤如下:
-
构建匹配参考机制:研究利用了超过 4000 小时的英语双人对话数据(来自 Seamless Interaction 数据集),针对 $F_0$ 均值、$F_0$ 表现力、语速、发音速率、停顿率和平均停顿时长这六大核心指标,构建了“匹配参考机制”。与传统的全量数据聚合不同,该机制能够根据特定的说话人特征和交互状态,提供与之匹配的人类参考基线。
-
定义百分位评估协议:在获得匹配参考基线后,研究者设计了一套基于百分位的评估协议。该协议首先从 S2S 系统的输出波形中提取上述六大声学指标,随后将其与最接近的匹配人类参考层级进行比对。最终输出两个维度的评估结果:一是百分位偏差,用于量化 AI 输出偏离人类基准的程度;二是第 5 至第 95 百分位的越界标志,用于判定输出是否在合理的人类语音区间内。
查看原文 →arxiv.org
