← 返回信息流
技术博客Hugging Face Blog·2026/5/6

Open ASR 排行榜新增 Benchmaxxer Repellant 基准测试

原标题:Adding Benchmaxxer Repellant to the Open ASR Leaderboard

速览

Open ASR 排行榜近日更新了其评估体系,正式纳入了 Benchmaxxer Repellant 这一新的基准测试工具。该基准测试专注于衡量自动语音识别(ASR)模型在面对对抗性样本时的鲁棒性和安全性。此举有助于更全面地评估 AI 语音模型在复杂环境下的实际表现与防御能力。

AI 深度解读

为 Open ASR 排行榜引入 Benchmaxxer Repellant(防刷榜机制)

TLDR: Appen Inc. 和 DataoceanAI 提供了覆盖多种口音的脚本化及对话式英语 ASR(自动语音识别)高质量数据集。为了防止潜在的“刷榜”(benchmaxxing)或测试集污染风险,我们将把这些数据集设为私有,以在多项任务上更准确地衡量性能。

目前我们并未更新平均 WER(词错误率):默认情况下,排行榜的平均 WER 仅基于公共数据集计算。您可以选择开启开关以包含私有数据集,查看其对排名的影响 👀。

自 2023 年 9 月发布以来,Open ASR Leaderboard 的访问量已超过 71 万次。社区对语音识别技术持续推动的热情令我们印象深刻 🗣️。

维护像 Open ASR Leaderboard 这样的基准测试,可以用两个词来概括其目标(同时也是挑战):

  • 标准化(Standardization): 模型在用法和输出上可能有不同的约定,例如是否包含标点符号和大小写。数据集也面临同样的挑战,结构可能各不相同。为此,所有测试集已整合到 Hub 上的单一数据集中,以便轻松访问和预览。此外,为了标准化模型输出和数据集转录,我们使用了一个归一器(normalizer),它(除其他功能外)会移除标点符号和大小写,并映射到美式拼写。该归一器基于 Whisper 的归一器。
  • 开放性(Openness): UI 代码和评估脚本均已开源。这不仅有助于整合新模型,还通过社区的反馈和贡献提高了评估程序的质量。

标准化和开放性对于有意义的基准测试至关重要,但也使基准测试更容易受到针对基准的优化(即“刷榜”,benchmaxxing)的影响,即模型在排行榜上的表现提升,但现实世界的鲁棒性并未相应提高。随着模型和用例的演变,Open ASR Leaderboard 将继续整合高质量数据集和新的评估设置,以更好地反映现实世界的性能,并提高对针对基准优化的抵抗力。

正如我们在报告中讨论的那样,不存在单一的“全能”ASR 模型:有些模型在美式英语上表现更好,有些在多种口音和多语言设置上表现更好,而另一些则针对速度或对话式音频进行了优化。不同的应用也优先考虑不同的能力,因此在一个维度上表现较差的模型并不一定整体更差。Open ASR Leaderboard 的目标是捕捉这些细微差别,并提供对 ASR 性能更全面视图。

背景

Open ASR Leaderboard 自 2023 年 9 月启动以来,已成为衡量语音识别模型性能的重要社区基准。然而,随着模型数量的增加和竞争的加剧,如何保持基准测试的公正性和真实性成为了核心挑战。

传统的开放基准测试往往面临“数据污染”的风险,即模型开发者可能无意中或故意地使用与测试集相似的数据进行训练,从而获得虚高的分数,这种现象被称为“刷榜”(benchmaxxing)。这种做法虽然能提升排行榜上的排名,但并不能反映模型在真实世界场景中的实际鲁棒性。

为了应对这一挑战,Open ASR Leaderboard 团队引入了新的评估策略,旨在平衡“标准化”与“开放性”,同时通过引入私有数据集来增强基准测试的可信度,确保评估结果更能反映模型在复杂现实环境中的表现。

核心内容

1. 引入高质量私有数据集

为了更全面地评估模型性能,Open ASR Leaderboard 与 Appen Inc.DataoceanAI 合作,策划并引入了高质量的数据集。这些数据集涵盖了多种内容类型,包括脚本化语音、对话式语音、缩写、不流畅表达以及专有名词,并包含多种口音。

尽管引入私有数据集看似与“开放性”精神相悖,但团队认为,这些数据集由于不易被用于“刷榜”(无论是模型开发者明确使用公共测试集,还是试图寻找与特定数据集高度相似的训练数据以提升宏观平均分),将显著提高 Open ASR Leaderboard 的可信度。

2. 细粒度的评估指标

通过引入这些私有数据集,排行榜可以提供更具针对性的指标,以突出受控环境(通常是脚本化、美式口音)与更细微条件(对话式、非美式口音)之间的差距和偏见。

新的评估体系包含以下关键指标列:

  • Average WER(平均 WER): 计算数据提供商平均值的宏观平均(macroaverage),使各提供商权重相等。注意:默认情况下不包含私有数据集。
  • Avg Scripted(平均脚本化): 所有脚本化数据集的宏观平均。
  • Avg Conversational(平均对话式): 所有对话式数据集的宏观平均。
  • Avg US(平均美式): 所有美式口音数据集的宏观平均。
  • Avg non-US(平均非美式): 所有非美式口音数据集的宏观平均。

团队有意不在每个细分领域提供单一分数,以避免模型开发者通过针对特定数据提供商或口音来刷高分数。

3. 用户交互与评估流程

  • 私有数据切换: 用户可以在排行榜界面切换“Private data”(私有数据)开关。默认关闭时,宏观平均不包含私有数据;开启后,则将其纳入计算。
  • 排名变化(Rank Δ): “Rank Δ”列显示了相对于默认宏观平均配置,排名的变化情况。通过包含或排除公共数据集,用户可以定制评估以匹配其应用最相关的数据分布。
  • 模型提交流程:
    1. 在 Open ASR Leaderboard GitHub 上提交 Pull Request。
    2. 模型检查清单出现,开发者需报告在公共数据集上的结果。
    3. 团队验证公共集结果,并计算私有集指标。
    4. 开发者确认结果。
  • 自我报告: 在等待模型加入排行榜期间,开发者可以通过在模型卡片中添加 YAML 文件,在公共集上自我报告指标。这将显示在数据集页面上的(未验证)排行榜中。

4. 应对数据泄露风险

虽然团队已要求 Appen 和 DataoceanAI 不向客户提供这些数据,但类似分布的数据仍可能帮助模型在相应评估集上表现更好。为此,引入多个数据提供商可以平衡模型因使用某一提供商数据而获得的优势。团队也欢迎更多数据提供商加入“Private data”标签页。

5. 数据质量控制

在准备私有评估集时,团队特别注重确保音频和转录质量的一致性,开发了工具来识别低信噪比或转录不匹配等挑战性案例,因为这些因素会显著影响 WER。

关键要点

  • 防刷榜机制: 引入 Appen Inc. 和 DataoceanAI 提供的私有数据集,旨在防止测试集污染和针对基准的过度优化(benchmaxxing)。
  • 默认设置不变: 默认的“Average WER”仅基于公共数据集计算,不包含私有数据,以保持历史排名的连续性。
  • 多维度评估: 新增指标包括按内容类型(脚本化/对话式)和口音(美式/非美式)划分的宏观平均 WER,以揭示模型在不同场景下的性能差异。
  • 用户自定义视角: 通过“Private data”开关和“Rank Δ”列,用户可以灵活查看私有数据对排名的影响,从而更贴合自身应用场景进行评估。
  • 去中心化评估支持: 开发者可通过 YAML 文件在公共集上自我报告指标,实现去中心化的初步评估。
  • 数据多样性与公平性: 通过整合多个数据提供商,平衡单一数据源可能带来的偏差,并鼓励更多数据源加入以提升基准的全面性。
  • 严格的质量控制: 开发了专门工具来识别和处理低信噪比、转录错误等影响 WER 准确性的因素,确保评估数据的可靠性。

意义与影响

Open ASR Leaderboard 的这一更新标志着语音识别基准测试从单纯的“性能排名”向“真实性与鲁棒性评估”的重要转变。

首先,提升了基准测试的可信度。通过引入私有数据集并默认将其排除在主要排名之外,排行榜有效地遏制了“刷榜”行为。这使得排行榜上的高分更能代表模型在未见数据上的泛化能力,而非仅仅是对测试集的过拟合。

其次,**促进了更

查看原文 →huggingface.co