← 返回信息流
技术博客arXiv cs.CL·3 小时前

错误感知TF-IDF检索增强生成用于ASR纠错

原标题:Error-Aware TF-IDF Retrieval-Augmented Generation for ASR Error Correction

速览

针对端到端语音识别系统易产生罕见实体幻觉的问题,提出一种高效、纯词法的错误感知框架。该方法结合对称文本归一化模块与新型错误感知TF-IDF算法,通过历史错误构建稀疏对角惩罚矩阵,优先检索包含高风险误识的纠正文档。在FLEURS数据集波斯语子集上的实验表明,该方法将错误感知命中率从53.7%提升至90.9%,最终词错误率从23.06%降至18.83%,且推理延迟接近零。

AI 深度解读

Error-Aware TF-IDF Retrieval-Augmented Generation for ASR Error Correction

背景

端到端自动语音识别(ASR)系统在处理罕见实体和领域特定术语时,经常会出现“幻觉”现象,即生成不存在的词汇或错误的拼写。这种情况在低资源语言(Low-resource languages)中尤为严重。虽然检索增强生成(RAG)框架利用大语言模型(LLM)来缓解这些错误,但现有的架构面临着显著挑战:

  1. 标准稀疏检索的局限性:传统的检索方法通常忽略语音识别中的音素误识(Phonetic misrecognitions),导致无法准确召回纠正所需的文档。
  2. 重型跨模态嵌入的高延迟:另一种方案是使用复杂的跨模态嵌入技术,但这会引入高昂的计算延迟,难以满足实时性要求。

因此,业界急需一种既能显式解决音素幻觉和循环幻觉(Loop hallucinations),又能保持极低推理延迟的高效框架。

核心内容

本文提出了一种高度高效、纯词汇层面的错误感知(Error-Aware)框架,旨在通过数学方法优化检索过程,从而纠正 ASR 错误。该研究的核心在于将对称文本归一化模块与一种新颖的“错误感知 TF-IDF”算法相结合。

1. 对称文本归一化模块

为了处理语音识别中常见的音素混淆问题,研究引入了对称文本归一化模块。这一模块能够识别并标准化那些在发音上相似但拼写不同的词汇,为后续的检索提供统一且鲁棒的文本表示。

2. 错误感知 TF-IDF 算法

这是本研究的创新核心。传统的 TF-IDF(词频-逆文档频率)算法仅基于词汇出现的频率和分布进行评分,而本文提出的变体引入了“历史错误”的概念:

  • 稀疏对角惩罚矩阵:基于历史识别错误数据,构建一个稀疏的对角惩罚矩阵。
  • 数学优先排序:检索器利用该矩阵,在数学层面优先提升那些包含特定高风险误识(High-risk misrecognitions)的纠正文档的权重。这意味着,如果某个词汇在历史上经常被误识为另一个词,系统会在检索时特别关注包含正确形式或相关纠正信息的文档。

3. 实验评估

该框架在 FLEURS 数据集的波斯语子集上进行了评估。实验结果显示:

  • 错误感知命中率提升:从 53.7% 显著提升至 90.9%。
  • 端到端性能优化:集成该框架后,最终的词错误率(WER)从 23.06% 降低至 18.83%。
  • 效率优势:在实现显著准确率提升的同时,推理延迟几乎为零(Near-zero inference latency),证明了其纯词汇方法的高效性。

关键要点

  • 问题聚焦:针对 ASR 系统在低资源语言中处理罕见实体和领域术语时的幻觉问题,特别是音素误识和循环幻觉。
  • 方法创新:提出了一种基于纯词汇的“错误感知 TF-IDF”检索增强生成框架,避免了重型跨模态嵌入带来的高延迟。
  • 技术机制
    • 集成对称文本归一化模块以处理发音相似性。
    • 利用基于历史错误的稀疏对角惩罚矩阵,对包含高风险误识纠正信息的文档进行数学加权优先检索。
  • 性能突破:在波斯语 FLEURS 子集上,错误感知命中率从 53.7% 跃升至 90.9%。
  • 最终效果:端到端词错误率(WER)从 23.06% 降至 18.83%,且保持近乎零的推理延迟,实现了精度与效率的双重优化。

意义与影响

这项研究为自动语音识别中的错误纠正提供了一个轻量级且高效的解决方案。其核心贡献在于证明了通过改进传统检索算法(TF-IDF)的加权逻辑,而非依赖计算昂贵的深度学习模型,同样可以显著降低 ASR 错误率。

对于低资源语言处理而言,这种“错误感知”的检索机制具有极高的实用价值。它不仅在波斯语上取得了显著成效,其方法论也可推广至其他面临类似音素混淆问题的语言环境。此外,由于该方法几乎不增加推理延迟,它非常适合部署在资源受限的边缘设备或需要实时响应的生产环境中,为构建更鲁棒、更准确的语音交互系统提供了新的技术路径。

查看原文 →arxiv.org