技术博客Hugging Face Blog·2026/4/21

QIMMA：以质量为先的阿拉伯语大语言模型排行榜

原标题：QIMMA قِمّة ⛰: A Quality-First Arabic LLM Leaderboard

速览

QIMMA是一个专注于阿拉伯语的大语言模型排行榜，其核心理念是“质量优先”。该榜单旨在评估并展示当前最先进的阿拉伯语AI模型性能。这一举措对于提升阿拉伯语在人工智能领域的地位具有重要意义，有助于推动高质量阿拉伯语AI生态的发展。

AI 深度解读

QIMMA قمّة ⛰：一个以质量为先的阿拉伯语大模型排行榜

背景

在跟踪阿拉伯语大语言模型（LLM）评估的过程中，一个日益明显的张力浮现出来：基准测试（benchmarks）和排行榜的数量正在迅速扩张，但我们真的在测量我们以为在测量的东西吗？

阿拉伯语拥有超过 4 亿使用者，跨越多种方言和文化背景，然而阿拉伯语自然语言处理（NLP）的评估 landscape 依然碎片化。现有的评估体系存在几个关键痛点：

翻译问题：许多阿拉伯语基准测试是从英语翻译而来的。这引入了分布偏移（distributional shifts），使得在英语中自然的问题在阿拉伯语中变得生硬或文化错位，导致基准数据无法代表阿拉伯语的自然使用方式。
缺乏质量验证：即使是原生阿拉伯语基准测试，在发布时也往往缺乏严格的质量检查。已建立的资源中记录了标注不一致、错误的答案（gold answers）、编码错误以及地面真值标签中的文化偏见。
可复现性差距：评估脚本和每个样本的输出很少公开发布，使得审计结果或基于 prior work 构建变得困难。
覆盖范围碎片化：现有的排行榜仅涵盖孤立的任务和狭窄的领域，使得对模型进行整体评估变得困难。

为了解决这些问题，Hugging Face 团队构建了 QIMMA قمّة（Arabic for "summit"，意为“顶峰”）。与简单聚合现有阿拉伯语基准测试并运行模型不同，QIMMA 在任何评估之前应用了严格的质量验证流程。研究发现，即使是广泛使用且备受推崇的阿拉伯语基准测试，也包含可能悄悄破坏评估结果的系统性质量问题。

核心内容

QIMMA 不仅是一个排行榜，更是一个经过严格清洗和验证的评估套件。其核心工作流程包括数据整合、多阶段质量验证管道、标准化评估设置以及最终的排名分析。

1. 数据整合：统一评估套件

QIMMA 将来自 14 个源基准测试的 109 个子集整合为一个统一的评估套件，包含超过 52,000 个样本，涵盖 7 个领域：

教育
治理
医疗
创意表达
软件开发
以及其他通用领域

该设计具有以下显著特点：

99% 原生阿拉伯语内容：唯一的例外是代码评估，因为代码本质上是语言无关的。
首个包含代码评估的阿拉伯语排行榜：QIMMA 集成了经过阿拉伯语适配的 HumanEval+ 和 MBPP+，使得使用阿拉伯语问题陈述来评估编码能力成为可能。
领域和任务的多样性：评估涵盖现实世界的胜任力领域。

2. 质量验证管道（The Quality Validation Pipeline）

这是 QIMMA 的方法论核心。在运行任何模型之前，对每个基准测试中的每个样本应用了多阶段验证管道。

第一阶段：多模型自动化评估

每个样本由两个最先进的 LLM 独立评估：

Qwen3-235B-A22B-Instruct
DeepSeek-V3-671B

选择这两个模型是因为它们具有强大的阿拉伯语能力，但训练数据组成不同，从而使其联合判断比单一模型更稳健。每个模型根据 10 分制的评分标准对样本进行打分，每个标准分为二元分数（0 或 1）。

如果任一模型对样本的评分低于 7/10，该样本将被剔除。
如果两个模型都同意剔除，样本立即被删除。
如果只有一个模型标记样本，该样本将进入第二阶段的人工审查。

第二阶段：人工标注与审查

被标记的样本由具有文化和方言熟悉度的阿拉伯语母语者进行审查。人工标注员对以下方面做出最终决定：

文化背景和区域差异
方言细微差别
主观解释
自动化评估可能遗漏的细微质量问题

对于文化敏感内容，会考虑多种视角，因为“正确性”在阿拉伯地区之间确实可能存在差异。

3. 发现的质量问题

管道揭示了基准测试中反复出现的质量问题，这些不是孤立错误，而是反映了基准测试原始构建中的系统性缺陷。

答案质量：虚假或不匹配的金标准索引、事实错误的答案、缺失或原始文本答案。
文本与格式质量：损坏或不可读的文本、拼写和语法错误、重复样本。
文化敏感性：刻板印象的强化和对多样化社区的单一概括。
金标准答案合规性：金标准答案与评估协议的不一致。

代码基准测试的特殊处理

代码基准测试需要不同的干预。与其丢弃样本，不如对 3LM 的阿拉伯语适配版 HumanEval+ 和 MBPP+ 中的阿拉伯语问题陈述进行优化，同时保持任务标识符、参考解决方案和测试套件完全不变。

修改率令人瞩目，修改分为五类：

语言优化：向自然的现代标准阿拉伯语和一致的祈使风格规范化。
清晰度改进：修复模糊的指令和不清晰的约束。
一致性规范化：标准化数学术语、标点符号和示例格式。
结构修正：修复损坏的三引号字符串、缩进错误、损坏的文本片段。
语义优化：澄清范围是包含还是排除，保留任务意图。

4. 评估设置

评估框架：QIMMA 使用 LightEval、EvalPlus 和 FannOrFlop 作为其评估框架，选择这些框架是为了保持一致性、多语言社区采用率和可复现性。
提示模板：QIMMA 按问题格式标准化提示，共有六种模板类型。所有提示均为阿拉伯语。对于 MizanQA 和 ArabCulture，保留了原始论文中的特定基准系统提示。

5. 排行榜结果（截至 2026 年 4 月）

排行榜涵盖了前 10 名评估的模型，揭示了以下趋势：

规模并不保证最佳性能：前 10 名模型涵盖 32B 到 397B 参数，其中几个中型模型在特定领域优于大型模型。
阿拉伯语专用模型在文化和语言任务上领先：
- Jais-2-70B-Chat 在 ArabicMMLU 和 ArabCulture 上排名最高。
- Karnak 在 3LM STEM 和 ArabLegalQA 上领先。
代码仍然是阿拉伯语专用模型最难攻克的领域：HumanEval+ 和 MBPP+ 的最高分属于多语言模型，其中 Qwen3.5-397B 在两者中均领先。

规模与性能的关系

在整个排行榜（46 个模型）中，出现了清晰但不完美的规模-性能相关性。然而，存在有趣的例外：

阿拉伯语专用模型通常优于规模匹配的多语言模型。
指令微调模型始终优于其基础模型，Qwen3 除外。
一些较小的阿拉伯语专用模型（如 Fanar-1-9B、ALLaM-7B）在特定领域优于大得多的多语言模型。

关键要点

质量优先：QIMMA 的核心创新在于“先验证，后评估”。通过多模型自动化筛选和人工审查，剔除了存在系统性质量问题的样本，确保排行榜反映的是真实的阿拉伯语能力，而非数据噪声。
原生内容主导：QIMMA 是首个结合开源、 predominantly 原生阿拉伯语内容、系统性质量验证、代码评估和公开逐样本

查看原文 →huggingface.co