技术博客arXiv cs.CL·3 小时前

Building an ASR Solution for Training and Assessing Children's Reading

AI 深度解读

背景

在低资源语言的教育科技领域，自动语音识别（ASR）技术的应用长期存在显著空白。尽管 ASR 在成人语音识别上已取得长足进步，但针对儿童语音——尤其是非洲语言儿童阅读场景——的 ASR 系统开发严重滞后。以班巴拉语（Bambara）为例，作为西非广泛使用的语言，其儿童阅读评估至今仍缺乏可重复、自动化的技术工具。这种现状不仅限制了读写能力评估的效率，也阻碍了教育资源的公平分配。在此背景下，构建一个专为低资源语言儿童阅读设计的端到端 ASR 解决方案，对于推动教育数字化和语言技术普惠具有重要价值。

核心内容

本文提出并实现了一套用于训练和评估儿童阅读的端到端 ASR 系统，专门针对班巴拉语这一低资源非洲语言。整个系统的构建涵盖了从实地数据收集、基准构建、模型适配到阅读应用开发与课堂验证的完整流程。

数据收集与基准构建：研究团队开发了一款移动端收集与评估应用，在实地采集了 60 名儿童共计 55 小时的原始阅读语音数据。基于此，团队构建并公开发布了首个面向班巴拉语儿童阅读评估的公开基准数据集，为后续研究提供了基础。

模型适配与对比实验：在模型选择上，研究对比了两种不同的 ASR 架构：一是针对班巴拉语适配的 Fast-Conformer 框架 Soloni（结合了 TDT 和 CTC 解码器），二是紧凑的卷积 ASR 架构 QuartzNet。实验结果显示，Soloni 模型在孤立基准上表现显著更优，将词错率（WER）从 0.42 大幅降至 0.22，字错率（CER）从 0.15 降至 0.08，全面超越了 QuartzNet。

训练策略与数据影响：研究进一步探讨了不同训练策略的效果。实验发现，对同一文本的重复阅读在不同架构上表现出差异化的收益：重复阅读为 QuartzNet 带来了显著的性能提升，但对 Soloni 仅产生了边际增益。此外，SpecAugment 数据增强技术能够有效调节训练过程，但其最佳表现仍未超过未增强时的最优配置。

错误分析与课堂验证：通过细分错误来源，研究识别出 10 岁以下儿童是残余错误的主要产生群体，这为未来的数据采集指明了方向——需要更有针对性地收集低龄读者的语音数据。最后，10 次真实的课堂试验验证了该阅读应用的有效性，证明其具备在实际教学场景中持续使用的潜力。

关键要点

端到端系统落地：研究不仅停留在模型层面，而是打通了从移动端数据采集、公开基准构建、模型微调到阅读应用开发和课堂验证的完整链路。
低资源语言突破：针对班巴拉语这一缺乏资源的非洲语言，构建了首个儿童阅读评估的公开基准数据集，填补了该领域的空白。
架构性能差异：适配后的 Fast-Conformer 架构 Soloni 在儿童阅读识别任务上显著优于紧凑

查看原文 →arxiv.org

Building an ASR Solution for Training and Assessing Children's Reading

AI 深度解读

背景

核心内容

关键要点

相关推荐