前沿语音识别能否应对双语客户?代码切换语音基准测试
速览
本文对前沿自动语音识别(ASR)技术进行了基准测试,重点考察其在处理代码切换语音时的性能。代码切换是指说话者在同一段对话中混合使用两种语言的现象,常见于双语或多语环境。研究结果旨在揭示当前AI模型在应对复杂双语交互场景时的实际能力与局限性。
AI 深度解读
语音智能体能否应对双语客户?前沿 ASR 在代码切换语音上的基准测试
背景
全球超过一半的人口使用两种或多种语言。对于许多双语使用者而言,“代码切换”(Code-switching)——即在同一句话中甚至句子中途无缝地在不同语言之间切换——是日常沟通的自然组成部分。无论是在非正式对话中,还是在企业客服中心或 IT 帮助台,说话者都会根据当下最自然的语言需求灵活调整。
尽管双语使用者遍布全球,但在企业环境中,关于语音智能体(Voice Agents)如何处理代码切换语音的研究却寥寥无几。当 Hugging Face 的一位客户询问其语音智能体在面对经常进行代码切换的双语客户群时的表现时,团队决定构建自己的基准测试(Benchmark)和数据集来评估模型。
研究聚焦于自动语音识别(ASR),因为它是任何语音智能体管线的第一步。转录错误会向前传播并影响下游的所有组件。在企业环境中,一张工单的错误路由或对政策问题的误解会产生真实的运营后果,因此,确保转录准确是语音智能体管线中至关重要的一环。
核心内容
基准测试设计
该基准测试涵盖了与客户群体最相关的四种语言对:西班牙语-英语、法语-英语、加拿大法语-英语和德语-英语。数据以非英语语言为框架(Matrix),英语以不同长度嵌入其中。
数据覆盖了广泛的人力资源(HR)和 IT 服务管理(ITSM)场景,包括员工关于福利或薪水的咨询,以及密码重置、VPN 访问或设备故障排除等支持请求。
为了衡量各种模型的性能,报告了三个指标:
- 词错误率(WER):衡量模型在转录中的精确度。
- 语义词错误率(SWER):衡量模型在保留话语含义方面的能力。
- 答案错误率(AER):直接衡量转录错误是否传播到下游任务的失败中。
该基准测试通过 Hugging Face 的语音模型评估工具 AU-Harness 发布,并提供了七种 ASR 系统的结果,包括大型音频语言模型(LALMs)、前沿 ASR 和开源 ASR。主要发现是:代码切换的成本因语言对和测试模型而异。ElevenLabs Scribe V2、Gemini 3 Flash 和 Assembly AI Universal 3-Pro 在各项指标上均表现最佳。
数据流水线
- 语料库来源:从内部 IT 支持和人力资源交互语料库开始。
- 候选筛选:使用英语和四种非英语语言中的平行用户话语,筛选出良好的代码切换候选项。
- 长度控制在 12 到 40 个单词之间(足够自然且包含切换机会)。
- 排除实体主导的话语(如电子邮件、电话号码、ID 或 URL,这些导致文本半英语是出于必要而非双语选择)。
- 要求至少包含三个可切换的内容词(名词、动词或形容词,非实体或产品名称),以便生成模型有足够的材料产生有意义的代码切换版本。
- 生成策略:测试了多种组合语言策略,最终选择向大型语言模型(LLM,此处原文提及 OpenAI/GPT-5)发送简单的角色提示(Persona Prompt)来生成代码切换文本。
- 语音合成:使用 LLM 进行文本口语化转换,并使用 ElevenLabs Multilingual V2 合成音频。
- 人工审核:由矩阵语言的母语者(AI/NLP 语言学家)审核每段话语;被标记的话语会被排除或重新生成并再次审核。
- 最终数据集规模:
- 西班牙语-英语:259 条记录
- 法语-英语:298 条记录
- 加拿大法语-英语:188 条记录
- 德语-英语:173 条记录
评估方法论
针对每种语言对的每个模型,报告以下三个指标:
- 词错误率(WER):除了每种语言对的总体 WER 外,还报告了按单独语言划分的 WER。这是标准方法,将真实转录与模型输出对齐并量化距离,但无法区分轻微拼写错误和完全错误的单词。
- 语义 WER(SWER):代表被判定为具有语义意义的错误率。该实现主要基于 Pipecat 的 STT 基准测试,并使用 Gemma-4-31B 作为评判模型(Judge)。它提供了话语级别性能的全面视图,但反映的是评判模型的评估而非直接的下游测试。
- 答案错误率(AER):直接捕捉转录错误是否传播到下游失败。这是一种问答指标,遵循 Bhushan 等人(IISc/ARTPARK, arXiv 2507.16456)的方法论。对于每段话语,生成三个下游理解问题,并测量阅读 ASR 转录的 LLM 是否能正确回答。这些问题衡量最关键细节(如案例编号、姓名、日期、请求原因)是否在转录中得到保留。
评估结果
评估了以下七种模型:
- AssemblyAI / Universal 3-Pro
- Deepgram / Nova 3 Multilang
- ElevenLabs / Scribe V2
- Google / Gemini 3 Flash
- Mistral AI / Voxtral Small 24B-2507
- Nvidia / Parakeet TDT 0.6b V3
- OpenAI / Whisper Large V3 Turbo
WER 结果(越低越好)
- 第一名:ElevenLabs/Scribe V2 和 AssemblyAI/Universal-3 Pro 在转录准确性上并列前两名。它们在西班牙语-英语上持平,在其他所有语言对上仅相差 0.02-0.13 个百分点,Scribe 在每个其他语言对上均略微领先。
- 紧随其后:Google/Gemini 3 Flash 在所有语言对上紧随其后。在加拿大法语-英语上落后最多,比 Scribe 低 0.14 分,比 AssemblyAI 低 0.12 分。
- 中游:Deepgram/Nova-3、Mistral/Voxtral 和 Nvidia/Parakeet 占据中间排名,每种模型至少在一种语言对上领先。Parakeet 总体最弱,但在德语-英语上缩小了差距,优于 Nova-3 和 Voxtral。
- 垫底:OpenAI/Whisper Large V3 Turbo 排名最低,WER 范围在 0.16 到 0.61 之间。这反映了 Whisper 的已知局限性:当在未明确指定语言参数的情况下处理代码切换音频时,Whisper 默认将其翻译为英语而非转录,从而未能保留音频中使用的语言。
SWER 和 AER 结果(越低越好)
语义指标讲述的故事与 WER 大致相似,但出现了一些反转:
- Scribe V2 继续保持第一,拥有极低的 SWER 和 AER 分数。
- Gemini 3 Flash 的崛起:虽然 Assembly AI 在 WER 上按语言对排名第一或第二,但 Gemini 3 Flash 在 AER 中一致优于它,并将 AssemblyAI 推至第三位。SWER 中也出现了同样的模式(尽管 AssemblyAI 在西班牙语-英语上优于 Gemini)。作为 LALM,Gemini 针对语言理解和推理进行了优化,这可能在意义敏感的指标上赋予其优势,即使其原始转录准确性稍逊。
- Whisper 的表现:虽然 Whisper 仍然 consistently 排名最后,但在语义指标下,其表现不佳的幅度显著缩小。
关键要点
- 代码切换的复杂性:代码切换是双语沟通的自然部分,但在企业级语音智能体中处理它极具挑战性,因为转录错误会直接导致下游运营错误(如错误的工单路由)。
- 评估指标的多维性:仅依靠 WER 不足以全面评估模型性能。引入 SWER(语义准确性)和
