技术博客arXiv cs.CL·3 小时前

FBK提出长语音指令跟随模型，IWSLT 2026任务表现优异

原标题：FBK's Long-form SpeechLLMs for IWSLT 2026 Instruction Following

速览

本文介绍了FBK团队提交至IWSLT 2026指令跟随共享任务的SpeechLLMs模型。该模型针对受限环境下的短长语音指令跟随进行了优化，在短轨MCIF任务中取得2.0708的SIFS高分。针对长轨任务，研究引入HIFS评分以评估生成稳定性，发现固定30秒分段策略能实现最鲁棒的长语音性能，得分达2.0663。分析指出幻觉主要表现为重复插入，但长语音扩展未显著损害短语音能力。

AI 深度解读

FBK 的长语音指令遵循大模型：IWSLT 2026 参赛解析

背景

IWSLT（International Workshop on Spoken Language Translation，国际口语翻译研讨会）是自然语言处理与语音技术领域的顶级会议之一。2026 年的 IWSLT 设立了一个名为“指令遵循”（Instruction Following）的共享任务（Shared Task），旨在评估模型在语音输入下遵循复杂指令的能力。

在此背景下，来自意大利特伦托自由大学（FBK, Fondazione Bruno Kessler）的研究团队提交了他们的解决方案。该方案基于 SpeechLLMs（语音大语言模型），专门针对受限环境下的短形式和长形式语音指令遵循任务进行了优化。这一任务不仅考验模型的翻译或理解能力，更强调模型在处理连续语音流时，能否准确、稳定地执行用户指令，同时抑制幻觉（Hallucination）并保持一致性。

核心内容

FBK 团队的研究主要围绕两个赛道展开：短形式语音指令遵循（Short-track）和长形式语音指令遵循（Long-track）。研究重点在于如何在资源受限的情况下，提升模型对长语音片段的处理能力，并解决长文本生成中常见的稳定性问题。

短形式语音指令遵循

在短形式赛道中，FBK 团队展示了强大的性能。他们针对 MCIF（Multi-turn Conversation Instruction Following，多轮对话指令遵循）任务进行了优化。最终，该模型在 MCIF 任务上取得了 2.0708 的 SIFS（Short-form Instruction Following Score，短形式指令遵循得分）。这一成绩表明，在较短的语音输入片段中，模型能够高度准确地解析并执行指令。

长形式语音指令遵循的挑战与方法

长形式语音指令遵循是本次任务的核心难点。由于语音时长较长，直接处理会导致上下文窗口溢出或注意力分散，因此 FBK 团队探索了三种不同的语音分割（Speech Segmentation）方法，以将长语音切分为模型可处理的片段。

为了更准确地评估长形式生成的质量，团队引入了 HIFS（Hallucination-aware Instruction Following Score，幻觉感知指令遵循得分）。传统的评估指标往往难以捕捉长文本生成中的重复、冗余或不一致问题，而 HIFS 专门用于量化长形式生成中的不稳定性，特别是针对幻觉现象。

实验结果与分析

实验结果表明，固定 30 秒的语音分割策略提供了最稳健的长形式性能。在这种策略下，模型取得了最高的 HIFS 得分 2.0663。

进一步的深入分析揭示了长形式生成中幻觉的主要表现形式：

重复插入（Repetitive Insertions）：幻觉主要体现为生成输出中大量重复的片段插入。
对下游任务的影响：这种重复性幻觉显著影响了自动语音识别（ASR）和语音相似度评估（SSUM, Speech Similarity and Understanding Metric）等下游任务的性能。
能力保留：尽管进行了长形式扩展，但模型在短形式任务上的核心能力在很大程度上得到了保留，未出现严重的灾难性遗忘或性能大幅下滑。

关键要点

双赛道优化：FBK 的 SpeechLLMs 同时针对短形式和长形式语音指令遵循进行了适配，在受限设置下均取得了优异成绩。
短形式高分：在短形式赛道中，模型在 MCIF 任务上达到 SIFS 得分 2.0708，展现了强大的指令解析能力。
长形式评估创新：引入了 HIFS 指标，专门用于解决长形式生成中因不稳定和幻觉导致的评估难题。
最佳分割策略：实验证实，固定 30 秒的语音分割方法是处理长语音指令遵循的最稳健方案，取得了 HIFS 得分 2.0663 的最佳成绩。
幻觉特征明确：长形式生成中的幻觉主要表现为“重复插入”，这对 ASR 和 SSUM 等下游指标有显著负面影响。
能力迁移性：长形式扩展并未显著损害模型原有的短形式指令遵循能力，证明了模型架构的有效性。

意义与影响

FBK 的这项工作为语音大语言模型在长程任务中的应用提供了重要的工程实践参考。

首先，固定时间窗口分割策略的有效性为处理超长语音输入提供了一种简单而高效的基线方案。在复杂的动态分割算法与简单的固定分割之间，固定 30 秒策略在鲁棒性和性能之间取得了最佳平衡，这对于工业界部署具有极高的参考价值。

其次，HIFS 指标的提出填补了长形式语音指令遵循评估的空白。传统的 BLEU 或 CHRF 等指标难以捕捉语音生成中的时序重复和逻辑断裂，HIFS 的引入使得研究人员能够更精准地量化模型的“稳定性”和“真实性”，推动了评估体系的完善。

最后，该研究揭示了长形式生成中幻觉的具体形态（即重复插入）。这一发现有助于后续研究针对性地设计去重机制或注意力约束算法，从而提升长语音交互系统的用户体验。随着 AI 助手处理长音频、长会议记录等场景的需求增加，此类关于长程指令遵循稳定性的研究将具有深远的应用价值。

查看原文 →arxiv.org