技术博客arXiv cs.CL·14 小时前

ParaEval：通过多释义评估消除大模型多选题测试偏差

原标题：Are We Evaluating Knowledge or Phrasing? Mitigating MCQA Sensitivity with ParaEval

速览

多项选择题基准测试因依赖对答案确切措辞的熟悉度，导致评估结果不可靠。研究提出ParaEval框架，通过为每个选项生成多个释义来查询模型，从而消除表面形式带来的评分偏差。该方法在1B至120B参数规模的模型上验证有效，能更准确地反映模型的真实知识掌握能力。

AI 深度解读

我们是在评估知识，还是在评估措辞？——利用 ParaEval 缓解多项选择题（MCQA）的敏感性

背景

在大型语言模型（LLM）的评估领域，多项选择题问答（Multiple-Choice Question Answering, MCQA）基准测试已成为衡量预训练模型性能的标准方法。然而，这种评估方式存在一个根深蒂固的缺陷：它严重依赖对数似然（log-likelihood）评分机制。

这种机制导致评估结果对答案选项的**确切措辞（surface form）**高度敏感。换句话说，模型得分的高低往往取决于它是否“熟悉”某个特定的短语表达，而不是它是否真正掌握了背后的知识。这种混淆使得评估指标难以区分模型的真实能力与对特定表面形式的偏好，从而产生了不可靠的性能评估。

核心内容

为了解决这一评估偏差，研究人员提出了一种名为 ParaEval 的评估框架，并通过一系列受控实验验证了其有效性。

1. 问题揭示：表面形式如何扭曲评估结果

研究团队构建了一个受控测试床，使用在同一知识基础上训练的 1B 至 8B 参数规模的模型进行实验。理论上，这些模型拥有相同的知识储备，因此其真实能力应当是一致的。

然而，当使用标准的 MCQA 评估指标时，结果显示这些模型之间存在超过 2 分的性能差距。这一巨大的差异并非源于知识掌握程度的不同，而是源于模型对答案选项不同措辞的熟悉程度不同。这证明了标准评分机制会将“对特定短语的熟悉度”错误地解读为“实际能力”。

2. 解决方案：ParaEval 框架

为了消除这种由措辞引起的评估偏差，研究团队提出了 ParaEval。其核心逻辑如下：

多释义查询：对于每个答案选项，ParaEval 会生成并使用多个不同的释义（paraphrases）来查询模型。
最佳措辞评分：模型的性能不再基于单一的标准答案形式，而是基于其在所有释义中表现出的最有利的措辞进行评分。

通过这种方式，ParaEval 旨在剥离表面形式对评分的干扰，让模型有机会展示其真正理解的知识，而不是被固定的答案格式所限制。

3. 效果验证

应用 ParaEval 框架后，原本由措辞差异导致的虚假性能差距被显著缩小至 1 分以下。

研究团队进一步在前沿的 70B 和 120B 开源模型上验证了这一方法。结果显示，评估伪影（evaluation artifacts）依然存在，且 ParaEval 带来的改进效果在这些更大规模的模型上同样显著。

关键要点

MCQA 评估的固有缺陷：现有的多项选择题基准测试过度依赖对数似然评分，导致结果对答案的“表面形式”过于敏感，混淆了模型的知识掌握与对特定短语的熟悉度。
实证证据：在控制变量（相同知识基础）的 1B-8B 模型实验中，标准指标错误地报告了超过 2 分的性能差距，证明了评估偏差的存在。
ParaEval 机制：该框架通过为每个答案选项提供多个释义版本，并基于模型在最有利的措辞下的表现进行评分，从而减少表面形式带来的偏差。
显著改进：ParaEval 成功将虚假的性能差距从 2 分以上降低至 1 分以下。
可扩展性：该方法在 70B 和 120B 的大型开源模型上同样有效，证明了其在前沿模型评估中的鲁棒性。
评估目标回归：ParaEval 提供了一种更稳健、高效的评估方式，旨在衡量模型底层的真实能力，而非其对表面形式的适应性。

意义与影响

这项研究对大语言模型的评估体系具有重要的修正意义。

首先，它揭示了当前主流评估基准中的一个系统性偏差。如果评估指标不能区分“知识”与“措辞”，那么模型排名的变化可能仅仅反映了训练数据中短语分布的差异，而非模型智能水平的提升。这对于模型迭代、基准测试的公平性以及行业标准的制定都构成了挑战。

其次，ParaEval 提供了一种低成本且高效的解决方案。通过简单的释义生成和评分策略调整，即可大幅提升评估的准确性。这对于研究人员在开发新模型或新算法时，获得更真实的能力反馈至关重要。

最后，随着模型规模向 70B、120B 甚至更大参数级别发展，模型对细微语言模式的捕捉能力更强，这种由表面形式引起的评估噪声也可能变得更加复杂。ParaEval 的验证表明，无论模型规模如何，这种评估偏差都是普遍存在的，因此采用更鲁棒的评估框架（如 ParaEval）应成为未来 LLM 评估的标准实践。

查看原文 →arxiv.org