技术博客arXiv cs.CL·3 小时前

When Calibration Rankings Reverse: Accuracy-Controlled Evaluation for Fair Comparison of LLMs

AI 深度解读

背景

在大型语言模型（LLM）的评估体系中，校准（Calibration）是衡量模型“自知之明”的重要指标，它评估的是模型对其预测结果的置信度是否与其实际准确率相符。一个完美校准的模型，如果它对某个答案有80%的置信度，那么它应该有80%的概率是正确的。

然而，当前学术界和工业界在比较不同LLM的校准能力时，普遍依赖全局校准指标，如预期校准误差（ECE）和Brier分数。这些指标虽然直观，但在跨模型比较时存在一个根本性的盲区：它们没有剥离模型自身准确率差异带来的影响。这导致我们很难判断，一个模型在校准指标上表现更好，是因为它真的“知道何时该自信”，还是仅仅因为它的准确率本身就不同。

核心内容

本文首先在理论和实证上揭示了一个关键问题：使用ECE和Brier分数等全局指标进行跨模型校准比较，会被模型准确率差异所混杂。这意味着，当前许多关于“某模型校准能力优于另一模型”的结论，可能只是准确率差异带来的假象。

为了解决这一问题，作者提出了ACE（Accuracy-Controlled Evaluation，准确率控制评估）框架，旨在实现更公平的跨模型校准比较。该框架包含三个互补的视角：

实例对齐（Instance-Aligned）：在相同样本上比较模型的校准表现；
分布对齐（Distribution-Aligned）：在模型预测的置信度分布上进行对齐比较；
候选对齐（Candidate-Aligned）：在模型生成的候选答案空间上进行对齐比较。

研究团队在多种基准测试、模型族和置信度引出方法上应用了ACE框架，重点考察了两类极具现实意义的比较轴：小模型与大模型的对比，以及思考型模型（Thinking models）与非思考型模型（Non-thinking models）的对比。

实验结果揭示了两个重要现象：首先，在控制准确率变量后，许多在原始全局指标下被报道的“校准优势”被大幅削弱。这说明过往研究中的校准优势往往依赖于准确率差异。其次，排名反转（Ranking Reversal）现象频繁发生。那些在原始ECE或Brier分数下表现更优的模型，一旦剥离准确率的影响，往往会失去领先地位，甚至被其他模型反超。

本文得出结论：原始的全局校准指标对于跨模型比较并不稳健，公平的校准比较必须引入准确率感知的评估机制。

关键要点

指标混杂问题：ECE和Brier Score等全局校准指标受模型准确率差异的严重混杂，无法独立反映模型的真实校准能力。
ACE框架提出：作者提出准确率控制评估（ACE）框架，通过实例对齐、分布对齐和候选对齐三个维度，剥离准确率对校准评估的干扰。
优势削弱现象：控制准确率后，过往文献中报告的许多模型校准优势显著减弱，证明这些

查看原文 →arxiv.org

When Calibration Rankings Reverse: Accuracy-Controlled Evaluation for Fair Comparison of LLMs

AI 深度解读

背景

核心内容

关键要点

相关推荐