技术博客arXiv cs.AI·3 小时前

Cliff Tokens：识别大模型数学推理中导致失败的关键单Token

原标题：Cliff Tokens: Identifying Single-Token Failure Triggers in LLM Mathematical Reasoning

速览

研究提出Cliff Tokens概念，指代那些在自适应阈值下潜在值骤降、触发大模型数学推理失败的关键单Token。实验显示，删除首个Cliff Token并重采样可使通过率恢复至1.0，而保留它则限制恢复效果。此外，研究构建了Cliff分类体系并通过Cliff-DPO优化验证，在不确定和采样偏离的Cliff位置进行优化可显著提升模型推理能力。

AI 深度解读

Cliff Tokens: 识别大语言模型数学推理中导致失败的单令牌触发器

背景

大型语言模型（LLMs）在数学推理任务上已经取得了极高的准确率。然而，在实际运行中，针对同一个问题，模型的推理轨迹往往存在显著差异：部分轨迹能得出正确答案，而另一些则走向失败。这种“同题不同果”的现象揭示了模型推理过程中的不稳定性。

现有的研究多从步骤（step）、片段（chunk）或句子（sentence）层面分析失败原因，或者聚焦于失败已经发生后的令牌（token）。然而，这些方法未能精确定位那个导致推理方向发生根本性偏移、从而触发失败的精确令牌。为了填补这一空白，研究人员引入了“悬崖令牌”（Cliff Tokens）的概念，旨在识别那些在自适应阈值下，潜在概率发生显著下降的关键单令牌。

核心内容

本研究提出了一种名为“悬崖令牌”（Cliff Token）的新概念，用于识别大语言模型在数学推理中导致失败的单点触发器。

1. 定义与检测方法

悬崖令牌被定义为：在局部令牌级潜在概率（token-wise potential）的自适应阈值下，其潜在概率出现显著下降的令牌。该自适应阈值基于单侧双比例 Z 检验（one-sided two-proportion z-test）构建，能够动态适应不同上下文中的概率分布变化。

2. 实验验证与因果性证明

研究者在七个不同的模型和三个数学推理基准测试（GSM1K, MATH500, AIME 2025）上进行了广泛验证。实验结果证实，悬崖令牌确实是失败的触发器：

删除实验：如果删除第一个出现的悬崖令牌并重新采样，模型的通过率（pass@64）可以恢复至 1.0。
保留实验：如果保留该令牌，恢复效果受限，通过率仅在 0.71 到 1.00 之间波动。这一对比强有力地证明了悬崖令牌在导致推理失败中的因果作用。

3. 悬崖分类学（Cliff Taxonomy）

研究进一步根据贪婪选择（greedy choice）和令牌熵（token entropy），将悬崖令牌分为三类，构成了“悬崖分类学”：

确定性悬崖（Deterministic Cliffs）：模型以高置信度选择了错误路径。
不确定悬崖（Uncertain Cliffs）：模型在该处的概率分布较为分散，决策具有不确定性。
采样偏离悬崖（Sampled-off Cliffs）：模型本应选择高概率路径，但因采样随机性而偏离。

这种分类法具有跨模型规模的通用性，且每种类型的悬崖具有独特的概率特征。

4. 优化验证：Cliff-DPO

为了验证该分类学的有效性，研究者基于 GSM8K 数据集，在悬崖位置进行了单令牌偏好优化（Single-Token Preference Optimization），即 Cliff-DPO。

整体效果：Cliff-DPO 在多个基准测试中将准确率提高了最多 +6.6%。
分类优化差异：优化“不确定悬崖”和“采样偏离悬崖”能显著改善推理能力；然而，优化“确定性悬崖”并未带来显著效果。这表明确定性错误可能源于更深层的逻辑结构问题，而非单令牌层面的概率偏差。

关键要点

精准定位失败根源：传统方法关注失败后的状态或宏观步骤，而“悬崖令牌”定位了导致推理轨迹从正确转向失败的那个精确单令牌。
因果性验证：通过“删除即恢复，保留即受限”的实验设计，证明了悬崖令牌是数学推理失败的关键触发器。
自适应检测机制：采用基于单侧双比例 Z 检验的自适应阈值，而非固定阈值，使得检测更贴合局部上下文动态。
三类悬崖分类：
- 确定性悬崖：高置信度的错误选择。
- 不确定悬崖：概率分布模糊，决策困难。
- 采样偏离悬崖：高概率路径未被采样选中。
优化策略的有效性：
- 在悬崖位置进行偏好优化（Cliff-DPO）可提升最高 +6.6% 的准确率。
- 不确定悬崖和采样偏离悬崖是优化的主要受益者。
- 确定性悬崖的优化效果不明显，暗示其错误机制更为复杂。
通用性：该分类学和检测方法在多种模型规模和三个主流数学基准（GSM1K, MATH500, AIME 2025）上均表现一致。

意义与影响

这项研究为理解和改进大语言模型的数学推理能力提供了新的微观视角。

从宏观到微观的归因分析：以往对 LLM 失败的分析往往停留在步骤或句子级别，难以指导具体的模型微调。Cliff Tokens 将归因精度提升到了单令牌级别，为模型调试提供了更细粒度的抓手。
指导高效的模型优化：研究指出，并非所有错误令牌都值得同等对待。通过区分悬崖类型，资源可以集中在“不确定”和“采样偏离”的令牌上进行偏好优化，从而以更小的计算成本获得最大的性能提升。这为后续的单令牌偏好优化（Single-Token DPO）提供了理论依据和实践路径。
揭示推理的不稳定性本质：研究证实了即使是高准确率的模型，其推理过程也依赖于特定的关键令牌。这些“悬崖”的存在解释了为何同一问题会有不同的推理轨迹，强调了在关键决策点引入确定性机制或增强采样策略的重要性。
推动可解释性 AI 发展：通过识别导致失败的关键节点，研究人员可以更好地理解模型内部的“思维链”（Chain-of-Thought）是如何构建和崩溃的，从而促进更可靠、更可解释的 AI 系统开发。

总之，Cliff Tokens 不仅是一个新的检测工具，更是一种理解 LLM 推理脆弱性的新范式，为未来构建更稳健的数学推理模型指明了方向。

查看原文 →arxiv.org