← 返回信息流
技术博客Hugging Face Blog·2026/4/21

QIMMA:以质量为先的阿拉伯语大语言模型排行榜

原标题:QIMMA قِمّة ⛰: A Quality-First Arabic LLM Leaderboard

速览

QIMMA是一个专注于阿拉伯语的大语言模型排行榜,其核心理念是“质量优先”。该榜单旨在评估并展示当前最先进的阿拉伯语AI模型性能。这一举措对于提升阿拉伯语在人工智能领域的地位具有重要意义,有助于推动高质量阿拉伯语AI生态的发展。

AI 深度解读

QIMMA قمّة ⛰:一个以质量为先的阿拉伯语大模型排行榜

背景

在跟踪阿拉伯语大语言模型(LLM)评估的过程中,一个日益明显的张力浮现出来:基准测试(benchmarks)和排行榜的数量正在迅速扩张,但我们真的在测量我们以为在测量的东西吗?

阿拉伯语拥有超过 4 亿使用者,跨越多种方言和文化背景,然而阿拉伯语自然语言处理(NLP)的评估 landscape 依然碎片化。现有的评估体系存在几个关键痛点:

  1. 翻译问题:许多阿拉伯语基准测试是从英语翻译而来的。这引入了分布偏移(distributional shifts),使得在英语中自然的问题在阿拉伯语中变得生硬或文化错位,导致基准数据无法代表阿拉伯语的自然使用方式。
  2. 缺乏质量验证:即使是原生阿拉伯语基准测试,在发布时也往往缺乏严格的质量检查。已建立的资源中记录了标注不一致、错误的答案(gold answers)、编码错误以及地面真值标签中的文化偏见。
  3. 可复现性差距:评估脚本和每个样本的输出很少公开发布,使得审计结果或基于 prior work 构建变得困难。
  4. 覆盖范围碎片化:现有的排行榜仅涵盖孤立的任务和狭窄的领域,使得对模型进行整体评估变得困难。

为了解决这些问题,Hugging Face 团队构建了 QIMMA قمّة(Arabic for "summit",意为“顶峰”)。与简单聚合现有阿拉伯语基准测试并运行模型不同,QIMMA 在任何评估之前应用了严格的质量验证流程。研究发现,即使是广泛使用且备受推崇的阿拉伯语基准测试,也包含可能悄悄破坏评估结果的系统性质量问题。

核心内容

QIMMA 不仅是一个排行榜,更是一个经过严格清洗和验证的评估套件。其核心工作流程包括数据整合、多阶段质量验证管道、标准化评估设置以及最终的排名分析。

1. 数据整合:统一评估套件

QIMMA 将来自 14 个源基准测试的 109 个子集整合为一个统一的评估套件,包含超过 52,000 个样本,涵盖 7 个领域:

  • 教育
  • 治理
  • 医疗
  • 创意表达
  • 软件开发
  • 以及其他通用领域

该设计具有以下显著特点:

  • 99% 原生阿拉伯语内容:唯一的例外是代码评估,因为代码本质上是语言无关的。
  • 首个包含代码评估的阿拉伯语排行榜:QIMMA 集成了经过阿拉伯语适配的 HumanEval+MBPP+,使得使用阿拉伯语问题陈述来评估编码能力成为可能。
  • 领域和任务的多样性:评估涵盖现实世界的胜任力领域。

2. 质量验证管道(The Quality Validation Pipeline)

这是 QIMMA 的方法论核心。在运行任何模型之前,对每个基准测试中的每个样本应用了多阶段验证管道。

第一阶段:多模型自动化评估

每个样本由两个最先进的 LLM 独立评估:

  • Qwen3-235B-A22B-Instruct
  • DeepSeek-V3-671B

选择这两个模型是因为它们具有强大的阿拉伯语能力,但训练数据组成不同,从而使其联合判断比单一模型更稳健。每个模型根据 10 分制的评分标准对样本进行打分,每个标准分为二元分数(0 或 1)。

  • 如果任一模型对样本的评分低于 7/10,该样本将被剔除。
  • 如果两个模型都同意剔除,样本立即被删除。
  • 如果只有一个模型标记样本,该样本将进入第二阶段的人工审查。

第二阶段:人工标注与审查

被标记的样本由具有文化和方言熟悉度的阿拉伯语母语者进行审查。人工标注员对以下方面做出最终决定:

  • 文化背景和区域差异
  • 方言细微差别
  • 主观解释
  • 自动化评估可能遗漏的细微质量问题

对于文化敏感内容,会考虑多种视角,因为“正确性”在阿拉伯地区之间确实可能存在差异。

3. 发现的质量问题

管道揭示了基准测试中反复出现的质量问题,这些不是孤立错误,而是反映了基准测试原始构建中的系统性缺陷。

  • 答案质量:虚假或不匹配的金标准索引、事实错误的答案、缺失或原始文本答案。
  • 文本与格式质量:损坏或不可读的文本、拼写和语法错误、重复样本。
  • 文化敏感性:刻板印象的强化和对多样化社区的单一概括。
  • 金标准答案合规性:金标准答案与评估协议的不一致。

代码基准测试的特殊处理

代码基准测试需要不同的干预。与其丢弃样本,不如对 3LM 的阿拉伯语适配版 HumanEval+MBPP+ 中的阿拉伯语问题陈述进行优化,同时保持任务标识符、参考解决方案和测试套件完全不变。

修改率令人瞩目,修改分为五类:

  1. 语言优化:向自然的现代标准阿拉伯语和一致的祈使风格规范化。
  2. 清晰度改进:修复模糊的指令和不清晰的约束。
  3. 一致性规范化:标准化数学术语、标点符号和示例格式。
  4. 结构修正:修复损坏的三引号字符串、缩进错误、损坏的文本片段。
  5. 语义优化:澄清范围是包含还是排除,保留任务意图。

4. 评估设置

  • 评估框架:QIMMA 使用 LightEvalEvalPlusFannOrFlop 作为其评估框架,选择这些框架是为了保持一致性、多语言社区采用率和可复现性。
  • 提示模板:QIMMA 按问题格式标准化提示,共有六种模板类型。所有提示均为阿拉伯语。对于 MizanQAArabCulture,保留了原始论文中的特定基准系统提示。

5. 排行榜结果(截至 2026 年 4 月)

排行榜涵盖了前 10 名评估的模型,揭示了以下趋势:

  • 规模并不保证最佳性能:前 10 名模型涵盖 32B 到 397B 参数,其中几个中型模型在特定领域优于大型模型。
  • 阿拉伯语专用模型在文化和语言任务上领先
    • Jais-2-70B-Chat 在 ArabicMMLU 和 ArabCulture 上排名最高。
    • Karnak 在 3LM STEM 和 ArabLegalQA 上领先。
  • 代码仍然是阿拉伯语专用模型最难攻克的领域:HumanEval+ 和 MBPP+ 的最高分属于多语言模型,其中 Qwen3.5-397B 在两者中均领先。

规模与性能的关系

在整个排行榜(46 个模型)中,出现了清晰但不完美的规模-性能相关性。然而,存在有趣的例外:

  • 阿拉伯语专用模型通常优于规模匹配的多语言模型。
  • 指令微调模型始终优于其基础模型,Qwen3 除外。
  • 一些较小的阿拉伯语专用模型(如 Fanar-1-9BALLaM-7B)在特定领域优于大得多的多语言模型。

关键要点

  • 质量优先:QIMMA 的核心创新在于“先验证,后评估”。通过多模型自动化筛选和人工审查,剔除了存在系统性质量问题的样本,确保排行榜反映的是真实的阿拉伯语能力,而非数据噪声。
  • 原生内容主导:QIMMA 是首个结合开源、 predominantly 原生阿拉伯语内容、系统性质量验证、代码评估和公开逐样本
查看原文 →huggingface.co