← 返回信息流
技术博客arXiv cs.CL·2 小时前

NAVER LABS欧洲团队夺得IWSLT 2026指令跟随任务全球第一

原标题:NAVER LABS Europe Submission to the Instruction-following 2026 Short Track

速览

NAVER LABS Europe 提交IWSLT 2026指令跟随短轨系统,参与受限设置开发ASR、ST、SQA一体模型,支持英语到中意德。沿用去年全球第一基础,替换语音投影器为仅依赖ASR数据的SpeechMapper,并引入由LLM生成科学演讲的fakACL合成数据集。采用无缝M4T-large-v2合成语音,模型更紧凑、后端LLM更弱,却大幅超越去年最佳短轨系统。最终位居短轨整体第一,证明合成数据与高效投影可显著提升跨语言指令跟随能力。

AI 深度解读

背景

NAVER LABS Europe 今年再次参加 IWSLT 2026 的 instruction-following speech processing 短赛道比赛,并延续去年受限设置的参赛策略。这一短赛道要求系统能从英文语音同时完成自动语音识别(ASR)、语音到文本翻译(ST)和科学问题回答(SQA)三种任务,输出语言为中文、意大利语和德语。去年 NAVER LABS Europe 的系统以第一名的成绩获胜,这次他们在之前多阶段训练管道的基础上进行了改进,试图进一步提升性能并降低系统规模。

核心内容

论文中,作者详细描述了他们针对 IWSLT 2026 instruction-following speech processing 短赛道的参赛系统。系统支持从英文语音中同时执行 ASR、ST 和 SQA 任务,针对中文、意大利语和德语进行输出。在受限设置下,他们沿用去年参赛方案,同时继续优化模型。

构建在去年第一名的基础上,论文重点更新了多阶段训练管道。具体而言,将语音投影器替换为 SpeechMapper。这一方法通过仅使用 ASR 数据来学习语音到 LLM 嵌入投影器,避免依赖其他额外数据源。

此外,作者引入了新的合成 SQA 数据集 fakACL。该数据集由人工生成的科学演讲构成。生成过程包括:提示 LLM 骨干模型生成演讲内容,随后对生成的演讲进行分段,并使用 SeamlessM4T-large-v2 合成语音。fakACL 的构建完全依赖 LLM 提示、分段和语音合成技术。

通过改进的语音投影机制与领域特定的合成数据相结合,系统在保持性能的同时变得更加紧凑,并使用较弱的 LLM 骨干模型。具体来说,论文指出这一组合策略使模型能够超越去年短赛道最佳系统,同时显著减小模型规模。

最终结果显示,今年的系统在整体短赛道排名中与第一名并列,实现第一名位置的稳固。

关键要点

  • 参赛任务要求:从英文语音同时完成 ASR、ST 和 SQA,输出中文、意大利语、德语
  • 参赛设置:受限设置,延续去年第一名成绩的基线
  • 核心改进:将语音投影器替换为 SpeechMapper(仅用 ASR 数据学习语音到 LLM 嵌入投影器)
  • 新增数据:合成 SQA 数据集 fakACL,由 LLM 生成科学演讲、分段后使用 SeamlessM4T-large-v2 合成语音
  • 性能提升:结合 SpeechMapper 与 fakACL 数据,系统超越去年最佳短赛道系统,同时模型更紧凑、LLM 骨干更弱
  • 最终成绩:整体短赛道并列第一名

意义与影响

这次提交充分展示了 NAVER LABS Europe 在受限语音处理数据环境下实现多任务高效建模的能力。SpeechMapper 作为一种仅依赖 ASR 数据即可高效学习语音嵌入投影器的创新方法,降低了数据获取门槛,为后续类似任务提供了可复用的技术范式。fakACL 数据集的构建路径(LLM 生成 + 分段 + 语音合成)则为创建高质量领域特定合成数据提供了一个实用模板,尤其适合科学研究、学术讨论等需要高保真度语音内容的场景。

系统在保持高性能的同时实现显著模型压缩,这对语音 AI 应用部署具有重要实际价值,特别是在资源受限的环境中(如移动设备或边缘计算)。与去年第一名的成绩并列一等,进一步巩固了 NAVER LABS Europe 在 IWSLT 短赛道领域的领先地位,表明该团队的技术迭代已进入成熟稳定阶段。整个工作对后续 instruction-following speech processing 研究和基准测试具有参考意义,为如何在有限数据约束下优化多任务语音模型提供了清晰的优化路径。

查看原文 →arxiv.org