← 返回信息流
技术博客arXiv cs.AI·3 小时前

When Does Learning to Stop Help? A Cost-Aware Study of Early Exits in Reasoning Models

AI 深度解读

背景

大语言模型在推理任务中展现出强大的能力,但推理过程往往需要消耗大量计算资源。一个典型的推理模型在处理不同问题时,实际所需的"有用计算量"差异很大——有些问题几步就能想通,有些则需要漫长的思维链。这就引出了一个关键问题:我们能否在模型推理过程中提前判断"答案已经对了",从而节省后续计算?

现有的"早停"(early exit)策略大多依赖简单的标量阈值,比如答案的置信度、熵值或稳定性。但这些方法是否已经足够?什么时候一个学习到的复杂停规则才能真正超越这些简单启发式?这正是本文要回答的核心问题。

核心内容

本文提出了 LearnStop,一种面向推理语言模型的"无隐藏状态检查点停止器"。其核心思想是:在推理过程中,于固定的预算检查点处,从当前的推理前缀(reasoning prefix)中探测一个简短的答案,然后基于在线特征来预测该前缀是否已包含正确答案。

方法机制

LearnStop 不依赖模型的隐藏状态,而是从推理轨迹中提取五类在线特征:

  • 答案置信度(answer confidence):模型对当前答案的确信程度
  • 熵值(entropy):答案分布的不确定性
  • 前缀投票份额(prefix vote share):多次采样中当前答案的占比
  • 答案稳定性(answer stability):答案在连续检查点间的一致性
  • 回溯标记密度(backtracking-marker density):推理过程中出现自我修正/回溯的频率

这些特征被输入到一个学习到的停止规则中,用于判断是否可以在当前检查点终止推理。

实验设置

研究覆盖了 18 个任务-模型组合,包括:

  • 任务:GSM8K、MATH-500、MMLU-Pro、AIME-90、GPQA
  • 模型:Qwen3 系列、DeepSeek-R1 蒸馏模型

核心发现:结果高度依赖任务类型

自由形式数学任务(如 GSM8K):学习到的多特征停止规则显著优于标量阈值方法。以 Qwen3-32B 在 GSM8K 上的表现为例,经验前沿达到了 +0.157 的后验峰值适应增益(post-hoc peak adapt gain),验证集选择的操作点保持了正增益,对标量最强基线的配对增益为 +0.028

选择题任务和极难任务:简单的标量规则(置信度、熵值或稳定性)已经具有竞争力甚至更强。这意味着在这些场景下,复杂的学习停规则并不能带来额外收益。

实践意义

本文将学习到的停止规则定位为一种条件性工具,而非标量退出策略的通用替代品。其价值取决于推理轨迹的结构特征。

研究还提供了丰富的工程细节分析,包括:验证集选择的操作点、配对自助法检验(paired bootstrap tests)、有限网格下的丢失正确风险校准(finite-grid lost-correct risk calibration)、KV-fork 和前缀缓存(prefix-cache)下的成本核算、黑盒服务场景、H100 推理服务性能分析、检查点调度扫描、迁移分析和鲁棒性检验。

核心实用结论

学习到的停止规则在以下场景中有用:大量问题在达到完整预算之前就已经得出正确答案,但不存在单一可靠的标量停止信号。当置信度或答案收敛性已经能够很好地解决停止问题时,学习停规则的收益基本消失。

关键要点

  • LearnStop 是一种无隐藏状态的检查点停止器,仅依赖推理轨迹的在线特征,不访问模型内部隐藏状态
  • 五类核心特征:答案置信度、熵值、前缀投票份额、答案稳定性、回溯标记密度
  • 任务依赖性是关键:自由形式数学任务受益于多特征学习停规则;选择题和极难任务中简单标量规则已足够
  • GSM8K + Qwen3-32B 上的增益显著:后验峰值适应增益 +0.157,对标量最强基线配对增益 +0.028
  • 学习停规则不是万能药:当单一标量信号(如置信度)已经能够有效判断何时停止时,复杂规则的额外价值有限
  • 工程分析全面:涵盖 KV-fork、前缀缓存、黑盒服务、H100 推理性能等实际部署场景

意义与影响

本文对推理模型的实际部署具有重要指导意义。随着推理模型(如 DeepSeek-R1、Qwen3 等)在数学、科学推理等任务中的广泛应用,计算效率成为制约其大规模部署的关键瓶颈。

理论层面,本文首次系统性地刻画了"学习停规则何时有用"的边界条件——不是所有任务都需要复杂的停止策略,任务轨迹的结构特征决定了简单启发式与复杂学习规则之间的优劣。

实践层面,研究提供的验证集操作点选择方法、成本核算框架和 H100 服务性能分析,为工程师在实际系统中实现早停优化提供了可直接参考的蓝图。特别是"当置信度或答案收敛已经解决问题时,学习停规则收益消失"这一结论,帮助开发者避免在不必要的场景上过度工程化。

此外,LearnStop 的"无隐藏状态"设计使其具有广泛的适用性——不仅适用于开源模型,也能在仅提供 API 访问的黑盒模型上部署,这大大扩展了其应用边界。

查看原文 →arxiv.org