技术博客arXiv cs.CL·2 小时前

TurnNat：自动评估双人对话轮转自然度

原标题：TurnNat: Automatic Evaluation of Turn-Taking Naturalness in Dyadic Spoken Dialogue

速览

TurnNat 是一个因果式轮转预测模型，训练于自然对话数据，能估计未来两说话人语音活跃状态。系统通过观察未来活跃状态的负对数似然（NLL）量化轮转异常性，并从话语开头与结尾提取的轮转边界单元（TBUs）中汇聚帧级 NLL 分数，最终输出对话级自然度评分。研究还构建了经过人工验证的配对自然与扰动对话基准，用于测试异质性轮转故障的识别能力。结果显示，TurnNat 在统一框架内有效区分并评估各种轮转自然度问题，这对提升全双工对话系统的实时交互质量具有重要意义。

AI 深度解读

背景

在全双工语音对话系统中，转折自然性是实现自然流畅交互的核心要素。然而，目前的自动评价方法仍存在明显局限。现有评价方式大多依赖人工判断或针对特定行为的时间度量，这使得难以在统一框架内对比不同类型的时序失败。TurnNat框架正是为解决这一问题而提出，其基于似然性的自动评价方法旨在为双声道语音对话中的转折自然性提供系统化评估手段。

核心内容

TurnNat是一种专为双声道语音对话设计的基于似然性的自动转折自然性评价框架。该框架的核心在于一个因果转折预测模型，该模型在自然对话数据上进行训练，能够估计未来的两说话人语音活动状态（voice-activity states）。通过计算观察到的未来活动状态的负对数似然（negative log-likelihood，简称NLL），可以直接量化时序异常性。具体的实现方式是：首先从话语起始和结束处提取转折边界单元（turn-taking boundary units，简称TBUs），再对每个TBU的帧级NLL进行池化，最终将均值TBU分数和尾部TBU分数聚合，生成对话级自然性得分。

为验证TurnNat的有效性，研究团队构建了一个受控扰动基准数据集，包含成对的自然对话片段和经过人工扰动的对话片段。该基准通过人类自然性判断进行了严格验证，能够有效区分不同类型的时序失败。实验结果表明，TurnNat能够成功识别这些人工扰动的转折自然性异常，同时能够跨不同类型的时序失败进行统一评估。

关键要点

转折自然性是全双工语音对话系统的核心挑战，现有评价依赖人工或特定度量，缺乏统一框架。
TurnNat提出一种因果转折预测模型，训练于自然对话，能估计未来语音活动状态。
NLL直接量化时序异常性，通过TBU（从话语起始偏移处提取）池化帧级NLL得到对话级分数。
构造了成对自然与人工扰动对话的受控基准数据集，并经人类判断验证。
实验证实TurnNat能识别异构时序失败的扰动，实现统一框架下的自动评价。

意义与影响

TurnNat为语音对话系统的开发和评估提供了新的自动工具，显著提升了转折自然性的可量化性和可对比性。该框架不仅能够检测不同类型的时序失败，还为后续模型优化和交互质量提升奠定了基础。其在arXiv cs.CL领域的发布标志着对话系统评价标准的进一步演进，有望推动全双工语音对话技术的实用化与产业化应用。

查看原文 →arxiv.org

TurnNat：自动评估双人对话轮转自然度

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐