合成音频生成框架提升空管语音识别精度
原标题:Synthetic Audio Generation Framework for Air Traffic Control Speech Recognition
速览
针对空管领域因信道噪声、非母语口音及数据稀缺导致的语音识别难题,研究提出一种合成数据生成管道。该方案结合语音合成、声纹转换及可控口音转换等神经生成技术,模拟真实场景下的口音语音。实验表明,使用合成数据或混合数据微调Whisper模型,能大幅降低词错误率,有效解决数据不足问题。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
