技术博客arXiv cs.AI·2 小时前

推理算力重塑前沿大模型评估

原标题：How Inference Compute Shapes Frontier LLM Evaluation

速览

随着AI评估转向更复杂的工具使用和迭代解题任务，模型性能对推理算力的敏感性日益增强。研究对12个前沿大模型进行测试，发现增加Token预算、上下文压缩和重复尝试能显著提升表现。固定预算评估正逐渐低估前沿模型能力，不同基准测试对算力扩展的响应各异。

AI 深度解读

推理算力如何重塑前沿大模型评估

来源：arXiv cs.AI 提交日期：2026年6月16日作者：Jessica McFadyen 等

背景

随着人工智能评估体系向更具挑战性的任务演进，评估范式正在发生深刻变化。当前的基准测试越来越侧重于需要长轨迹（longer trajectories）的任务，这些任务通常涉及工具使用（tool use）和迭代式问题解决。在这种背景下，模型的性能不再仅仅取决于其静态的知识储备，而是越来越敏感于测试时可用算力的数量及其分配策略，即“推理算力”（inference compute）。

然而，许多现有的评估体系仍然在单一且受限的算力预算下报告模型性能。这种评估方式存在一个严重的缺陷：模型得分较低可能并非因为其底层能力不足，而是由于评估设置（如时间限制、Token 预算限制）过于严苛，导致模型无法充分展现其潜力。为了验证这一假设，研究人员对多达 12 个前沿语言模型（Frontier LLMs）在涵盖软件工程、数学、医学和网络安全的七个高难度基准测试中进行了系统性评估。

核心内容

本研究旨在探究推理算力的规模与分配方式如何影响前沿大模型在复杂任务上的表现。研究团队设计了一个受控实验设置，结合了三种简单的“推理扩展干预措施”（inference-scaling interventions）：

增加 Token 预算：允许模型生成更长的输出。
上下文压缩：优化上下文窗口，以容纳更多信息。
重复提交尝试：允许模型多次尝试解决问题，反馈机制分为两类：由模型自我指导或提供极少量的正确性反馈。

通过对上述变量进行组合测试，研究得出了以下三个主要发现：

1. 更大的 Token 预算显著提升多领域性能

实验数据显示，增加 Token 预算对多个基准测试的性能提升作用显著。这种提升不仅限于单一领域，而是广泛存在于网络安全、FrontierMath（前沿数学）、Humanity's Last Exam（人类最后的考试）以及 TerminalBench 等涵盖不同复杂度的基准中。这表明，在解决复杂问题时，模型需要更多的生成空间来展开推理链条。

2. 固定预算评估日益低估前沿模型能力

随着模型版本的迭代，固定算力预算下的评估结果越来越无法真实反映模型的真实能力。较新的模型在拥有较大算力预算时，能够达到更高的性能水平。这是因为更大的算力允许模型“解锁”更困难的任务，并以更高的可靠性解决这些问题。如果仅在低预算下测试，可能会错误地认为新模型与旧模型差距不大，甚至表现更差，从而掩盖了模型在充分推理下的真实潜力。

3. 不同基准对推理扩展方法的敏感度各异

虽然“重复提交” broadly（广泛地）提升了性能，但其他扩展方法的效果因基准测试而异。例如，更大的 Token 预算、外部反馈以及并行尝试的价值在不同任务中表现不一。这意味着不存在一种通用的“最佳”推理扩展策略，评估协议需要根据具体任务的特性进行定制。

关键要点

评估协议依赖性：基准测试得分高度依赖于评估协议（Protocol-dependent）。同样的模型在不同的推理算力预算和策略下，得分可能差异巨大。
推理算力的重要性：在涉及工具使用和迭代求解的复杂任务中，测试时的推理算力分配比模型静态参数规模更能决定最终表现。
单一预算的局限性：仅报告单一、限制性预算下的性能指标，会导致对前沿模型能力的严重低估，特别是对于新发布的更强大模型。
扩展策略的异质性：
- 重复提交：普遍有效，能广泛提升性能。
- Token 预算/外部反馈/并行尝试：效果取决于具体基准任务，需针对性选择。
建议的评估新标准：
1. 应将模型能力报告为推理时间算力（inference-time compute）的函数，而非单一数值。
2. 必须明确指定评估协议的选择细节。
3. 在比较不同模型时，应在相同的较大算力范围内进行匹配预算的比较，尤其是在涉及安全或政策制定的关键场景中。

意义与影响

这项研究对当前的大模型评估体系提出了根本性的挑战和建议。它指出，随着 AI 系统向更自主、更复杂的代理（Agent）形态发展，传统的“一次性生成”评估模式已不再适用。

对于行业和研究社区而言，这意味着：

评估标准的重构：简单的“准确率”指标可能变得过时，评估报告需要包含算力成本与性能的关系曲线。
安全与政策制定的严谨性：在涉及安全关键领域（如医疗、金融、网络安全）的模型部署中，如果仅基于低算力预算的评估结果，可能会错误地判断模型的安全性或可靠性，从而带来潜在风险。
模型开发的导向：模型开发者可能需要更多地关注模型在长推理轨迹下的稳定性，而不仅仅是预训练阶段的知识注入。

总之，该研究呼吁建立一个更加透明、多维度的评估框架，以真实反映前沿大模型在复杂现实场景中的潜力。

查看原文 →arxiv.org