← 返回信息流
技术博客arXiv cs.CL·1 小时前

What Counts as an Error? Dual-Reference Benchmarking for Atypical ASR

AI 深度解读

背景

自动语音识别(ASR)技术在近年来取得了显著进展,但在处理非典型语音(Atypical Speech,如口吃、构音障碍等)时仍面临巨大挑战。目前的ASR评估通常假设存在唯一的“真实值(Ground Truth)”,即标准的、流畅的规范文本。然而,对于非典型语音而言,这种假设存在根本性缺陷:说话者实际发出的声音(包含重复、拖音等不流畅现象)与他们意图表达的规范文本之间往往存在差异。这种双重性使得“什么算作错误”成为了一个悬而未决的问题,也直接影响了ASR模型在非典型语音场景下的评估有效性与模型选择。

核心内容

本文针对非典型

查看原文 →arxiv.org