技术博客arXiv cs.CL·7 小时前

GRACE框架：按难度自适应调整验证粒度以优化推理效率

原标题：Granularity-Regulated Adaptive Computational Efficiency for Optimal Verification in Test-Time Scaling

速览

针对大模型推理时的测试时扩展（TTS）问题，研究验证粒度的最优选择。提出GRACE理论框架，证明细粒度验证在算力充足或难题场景占优，粗粒度则在低预算简单题场景更佳。该策略统一了多种搜索方法，并在MATH-500等基准上显著超越固定粒度基线。

AI 深度解读

Granularity-Regulated Adaptive Computational Efficiency for Optimal Verification in Test-Time Scaling

背景

测试时扩展（Test-Time Scaling, TTS）已成为提升大型语言模型（LLMs）推理性能的强大范式。其核心思想是在推理阶段投入额外的计算资源，以换取更高的准确率。在 TTS 框架中，验证器（Verifier） 扮演着关键角色，负责从候选解中进行选择或评分，从而引导搜索过程。

尽管先前的研究已经证实了验证机制的有效性，但一个根本性问题仍未得到充分探索：在给定的计算预算下，最优的验证粒度（Granularity）究竟是什么？

目前，验证方法主要呈现两极分化：

粗粒度（Coarse-grained）：基于结果奖励模型（Outcome Reward Models, ORMs），仅对最终答案进行评分。
细粒度（Fine-grained）：基于过程奖励模型（Process Reward Models, PRMs），对推理的每一步骤进行评分。

然而，单一维度的验证策略无法在所有场景下实现计算最优性。粗粒度方法计算成本低，但缺乏对推理过程的精细指导；细粒度方法指导性强，但计算开销巨大。如何在不同难度问题和不同计算预算之间找到平衡点，是 TTS 领域亟待解决的难题。

核心内容

本文提出了一种统一的理论框架，名为 GRACE（Granularity-Regulated Adaptive Computational Efficiency，即粒度调节自适应计算效率）。该框架旨在将最优验证粒度表征为问题难度、验证器准确性和计算预算的显式函数。

1. 理论框架与相变现象

GRACE 框架通过理论推导证明，在验证粒度与计算效率之间存在一个**相变（Phase Transition）**现象：

细粒度验证占主导：当计算预算充足（large compute budget）或问题本身较难（hard problem）时，细粒度的过程奖励模型（PRM）能提供更精确的梯度信号，从而显著提升性能。
粗粒度验证更优：当计算预算有限（low-budget）且问题相对简单（easy problem）时，粗粒度的结果奖励模型（ORM）足以区分正确与错误答案，且能大幅节省计算资源。

2. 统一 Pareto 最优框架

GRACE 不仅是一个分类框架，更是一个统一的优化视角。它将以下三种主流的 TTS 策略纳入同一个 Pareto 最优性（Pareto-optimality） 框架中进行考量：

Best-of-N：生成 N 个候选解，通过 ORM 选择最佳结果（典型的粗粒度策略）。
束搜索（Beam Search）：在每一步保留概率最高的 K 个状态，通常结合 PRM 进行剪枝（细粒度策略）。
步骤级蒙特卡洛树搜索（Step-level MCTS）：在推理树的每个节点进行评估和扩展，结合 PRM 进行路径搜索（细粒度策略）。

理论证明表明，存在一种自适应粒度策略（Adaptive Granularity Strategy），能够根据实时情况动态调整验证粒度，从而在理论上达到计算-性能（Compute-Performance）的 Pareto 前沿。

3. 实证验证

研究团队在三个基准数据集上进行了广泛的实验，验证了理论预测的四个主要主张：

MATH-500：数学推理基准。
GSM8K：小学数学应用题基准。
AIME：美国数学邀请赛基准，代表高难度推理任务。

实验结果显示，提出的自适应策略在匹配相同计算预算的情况下，相比固定的粗粒度或细粒度基线方法，准确率最高提升了 3.1%。这一结果有力地支持了 GRACE 框架关于“最优粒度随预算和问题难度动态变化”的理论假设。

关键要点

核心问题重构：TTS 的关键不在于是否使用验证器，而在于验证器的粒度应如何根据计算资源和任务难度进行自适应调节。
GRACE 框架：提出了粒度调节自适应计算效率（GRACE）框架，建立了验证粒度与问题难度、验证器准确性及计算预算之间的显式数学关系。
相变规律：
- 高预算/高难度 $\rightarrow$ 优先使用细粒度验证（PRM/Step-level MCTS）。
- 低预算/低难度 $\rightarrow$ 优先使用粗粒度验证（ORM/Best-of-N）。
理论统一性：Best-of-N、束搜索和步骤级 MCTS 不再是孤立的算法，而是统一在 Pareto 最优框架下的不同特例。
性能提升：自适应策略在 MATH-500、GSM8K 和 AIME 上均优于固定粒度基线，在同等计算开销下准确率提升最高达 3.1%。

意义与影响

1. 为 TTS 提供理论指导

以往关于 TTS 的研究多侧重于工程实现或特定算法的调优，缺乏对“何时使用何种验证粒度”的系统性理论解释。GRACE 框架填补了这一空白，为研究人员和工程师提供了明确的决策依据：不再盲目追求细粒度的 PRM，而是根据实际部署环境的计算约束和任务复杂度，选择最具性价比的验证策略。

2. 优化推理成本与性能的平衡

在大规模部署 LLM 时，推理成本是主要瓶颈。GRACE 提出的自适应策略证明了通过动态调整验证粒度，可以在不增加额外计算预算的前提下提升模型性能，或在保持相同性能的前提下降低计算开销。这对于降低 AI 服务成本、提高推理效率具有重要的工程价值。

3. 推动验证器设计的精细化

该研究强调了验证器准确性与粒度之间的权衡。它暗示了未来验证器设计不应仅关注单一维度的准确率，而应关注其在不同粒度下的边际收益。例如，在低难度任务中，一个稍弱但计算极快的 ORM 可能比一个强大但昂贵的 PRM 更有效。

4. 统一现有算法视角

通过将 Best-of-N、束搜索和 MCTS 统一在一个框架下，GRACE 有助于消除不同算法之间的隔阂，促进跨算法的比较和优化。未来可能出现更多基于 GRACE 原则的混合算法，能够在推理过程中动态切换验证粒度，以实现真正的“自适应”推理。

查看原文 →arxiv.org