技术博客arXiv cs.AI·3 小时前

When Does Learning to Stop Help? A Cost-Aware Study of Early Exits in Reasoning Models

AI 深度解读

背景

大语言模型在推理任务中展现出强大的能力，但推理过程往往需要消耗大量计算资源。一个典型的推理模型在处理不同问题时，实际所需的"有用计算量"差异很大——有些问题几步就能想通，有些则需要漫长的思维链。这就引出了一个关键问题：我们能否在模型推理过程中提前判断"答案已经对了"，从而节省后续计算？

现有的"早停"（early exit）策略大多依赖简单的标量阈值，比如答案的置信度、熵值或稳定性。但这些方法是否已经足够？什么时候一个学习到的复杂停规则才能真正超越这些简单启发式？这正是本文要回答的核心问题。

核心内容

本文提出了 LearnStop，一种面向推理语言模型的"无隐藏状态检查点停止器"。其核心思想是：在推理过程中，于固定的预算检查点处，从当前的推理前缀（reasoning prefix）中探测一个简短的答案，然后基于在线特征来预测该前缀是否已包含正确答案。

方法机制

LearnStop 不依赖模型的隐藏状态，而是从推理轨迹中提取五类在线特征：

答案置信度（answer confidence）：模型对当前答案的确信程度
熵值（entropy）：答案分布的不确定性
前缀投票份额（prefix vote share）：多次采样中当前答案的占比
答案稳定性（answer stability）：答案在连续检查点间的一致性
回溯标记密度（backtracking-marker density）：推理过程中出现自我修正/回溯的频率

这些特征被输入到一个学习到的停止规则中，用于判断是否可以在当前检查点终止推理。

实验设置

研究覆盖了 18 个任务-模型组合，包括：

任务：GSM8K、MATH-500、MMLU-Pro、AIME-90、GPQA
模型：Qwen3 系列、DeepSeek-R1 蒸馏模型

核心发现：结果高度依赖任务类型

自由形式数学任务（如 GSM8K）：学习到的多特征停止规则显著优于标量阈值方法。以 Qwen3-32B 在 GSM8K 上的表现为例，经验前沿达到了 +0.157 的后验峰值适应增益（post-hoc peak adapt gain），验证集选择的操作点保持了正增益，对标量最强基线的配对增益为 +0.028。

选择题任务和极难任务：简单的标量规则（置信度、熵值或稳定性）已经具有竞争力甚至更强。这意味着在这些场景下，复杂的学习停规则并不能带来额外收益。

实践意义

本文将学习到的停止规则定位为一种条件性工具，而非标量退出策略的通用替代品。其价值取决于推理轨迹的结构特征。

研究还提供了丰富的工程细节分析，包括：验证集选择的操作点、配对自助法检验（paired bootstrap tests）、有限网格下的丢失正确风险校准（finite-grid lost-correct risk calibration）、KV-fork 和前缀缓存（prefix-cache）下的成本核算、黑盒服务场景、H100 推理服务性能分析、检查点调度扫描、迁移分析和鲁棒性检验。

核心实用结论

学习到的停止规则在以下场景中有用：大量问题在达到完整预算之前就已经得出正确答案，但不存在单一可靠的标量停止信号。当置信度或答案收敛性已经能够很好地解决停止问题时，学习停规则的收益基本消失。

关键要点

LearnStop 是一种无隐藏状态的检查点停止器，仅依赖推理轨迹的在线特征，不访问模型内部隐藏状态
五类核心特征：答案置信度、熵值、前缀投票份额、答案稳定性、回溯标记密度
任务依赖性是关键：自由形式数学任务受益于多特征学习停规则；选择题和极难任务中简单标量规则已足够
GSM8K + Qwen3-32B 上的增益显著：后验峰值适应增益 +0.157，对标量最强基线配对增益 +0.028
学习停规则不是万能药：当单一标量信号（如置信度）已经能够有效判断何时停止时，复杂规则的额外价值有限
工程分析全面：涵盖 KV-fork、前缀缓存、黑盒服务、H100 推理性能等实际部署场景

意义与影响

本文对推理模型的实际部署具有重要指导意义。随着推理模型（如 DeepSeek-R1、Qwen3 等）在数学、科学推理等任务中的广泛应用，计算效率成为制约其大规模部署的关键瓶颈。

理论层面，本文首次系统性地刻画了"学习停规则何时有用"的边界条件——不是所有任务都需要复杂的停止策略，任务轨迹的结构特征决定了简单启发式与复杂学习规则之间的优劣。

实践层面，研究提供的验证集操作点选择方法、成本核算框架和 H100 服务性能分析，为工程师在实际系统中实现早停优化提供了可直接参考的蓝图。特别是"当置信度或答案收敛已经解决问题时，学习停规则收益消失"这一结论，帮助开发者避免在不必要的场景上过度工程化。

此外，LearnStop 的"无隐藏状态"设计使其具有广泛的适用性——不仅适用于开源模型，也能在仅提供 API 访问的黑盒模型上部署，这大大扩展了其应用边界。

查看原文 →arxiv.org