技术博客arXiv cs.CL·3 小时前

合成音频生成框架提升空管语音识别精度

原标题：Synthetic Audio Generation Framework for Air Traffic Control Speech Recognition

速览

针对空管领域因信道噪声、非母语口音及数据稀缺导致的语音识别难题，研究提出一种合成数据生成管道。该方案结合语音合成、声纹转换及可控口音转换等神经生成技术，模拟真实场景下的口音语音。实验表明，使用合成数据或混合数据微调Whisper模型，能大幅降低词错误率，有效解决数据不足问题。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）