技术博客arXiv cs.AI·7 小时前

超越熵：利用Token级分布偏差优化大模型推理

原标题：Beyond Entropy: Learning from Token-Level Distributional Deviations for LLM Reasoning

速览

针对大语言模型推理中强化学习面临的熵坍缩与爆炸困境，研究提出独立组合Token（ICT）框架。该框架利用Jensen-Shannon散度识别关键分支点，通过选择性更新调节策略集中度。实验显示，该方法在多个基准测试中显著优于GRPO等基线，有效提升了模型推理性能。

AI 深度解读

Beyond Entropy: Learning from Token-Level Distributional Deviations for LLM Reasoning

背景

可验证奖励强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）在提升大语言模型（LLM）推理能力方面取得了显著进展。然而，该领域面临一个根本性的优化不稳定性问题，主要体现在熵（Entropy）管理的两难困境上：

熵坍缩（Entropy Collapse）：如果对所有 token 进行均匀更新，会导致策略分布过早收敛于次优策略，表现为模型探索能力不足，陷入局部最优。
熵爆炸（Entropy Explosion）：如果过度最大化香农熵（Shannon Entropy），会导致分布过于分散，驱动模型进行盲目的探索，生成逻辑连贯性差的推理链。

现有的基线方法如 GRPO、20-Entropy 和 STAPO 在处理这一平衡时往往顾此失彼。为了解决这一二元对立，研究提出了从标量不确定性转向 token 级别分布特性的优化思路。

核心内容

本文提出了 独立组合 Token（Independent Combinatorial Tokens, ICT） 框架。该框架的核心思想是将优化焦点从单一的标量不确定性度量，转移到 token logits（对数几率）的分布特性上。

1. 基于 JS 散度的关键分支点识别

ICT 利用 token logits 分布之间的 Jensen-Shannon (JS) 散度 来识别具有独特分布模式的 token。这些被识别出的 token 被视为推理过程中的关键分支点（critical branching points）。通过聚焦于这些关键节点，模型能够更有效地引导探索过程，而不是在整个词汇表上进行无差别的随机更新。

2. 双重熵控制的理论分析

基于香农熵和二阶 Rényi 熵的理论分析证明，ICT 方法通过有选择地更新这些关键 token，实现了对策略集中度的调节：

降低整体不确定性：通过减少由香农熵测量的整体分布不确定性，防止模型发散。
控制概率集中度：通过控制由二阶 Rényi 熵捕捉的概率集中度，防止模型过早固化。

这种双重效应既防止了过度集中的 token 生成削弱探索能力，又有效地稳定了训练景观（training landscape）。

3. 实验验证

在 Qwen2.5（0.5B/1.5B/7B）模型上进行的实证研究表明，仅更新最具独特性的前 10% token，在涵盖数学、常识和奥林匹克级别问题的七个基准测试中，取得了显著的性能提升。与 GRPO、20-Entropy 和 STAPO 等基线方法相比，平均 pass@4 提升了 4.58%，最大增益达到 14.9%。

关键要点

问题重构：将 RLVR 中的优化不稳定问题重新定义为熵管理的平衡问题，指出均匀更新导致熵坍缩，而过度最大化香农熵导致熵爆炸。
方法论创新：引入 ICT 框架，不再依赖全局标量熵，而是利用 Jensen-Shannon (JS) 散度分析 token logits 分布，识别关键推理分支点。
理论支撑：结合香农熵和二阶 Rényi 熵，证明了选择性更新关键 token 可以同时调节分布的不确定性和集中度，从而稳定训练过程。
高效性：无需更新所有 token，仅需关注最具分布独特性的前 10% token 即可显著提升性能。
性能提升：在 Qwen2.5 系列模型上，相比主流基线（GRPO, 20-Entropy, STAPO），在多个复杂推理任务中实现了平均 4.58% 的 pass@4 提升，最高提升达 14.9%。

意义与影响

这项研究为 LLM 的强化学习训练提供了新的视角，即从“全局熵控制”转向“局部分布特征利用”。

解决训练稳定性难题：通过识别关键分支点，ICT 框架有效地缓解了 RLVR 中常见的探索与利用（Exploration vs. Exploitation）之间的冲突，使得模型能够在保持推理连贯性的同时，更有效地探索潜在的高价值策略路径。
计算效率优化：仅更新前 10% 的独特 token 意味着在计算资源有限的情况下，可以大幅减少不必要的梯度更新，提高训练效率，同时保持甚至超越全量更新的效果。
通用性潜力：该方法在 Qwen2.5 不同规模模型上的成功应用，表明其具有跨模型规模的泛化能力，为未来更大规模语言模型的推理能力优化提供了可复用的技术路径。
推动推理算法发展：通过引入二阶 Rényi 熵等更精细的统计度量，丰富了强化学习在 NLP 领域的应用工具箱，为后续研究如何更精细地控制模型输出分布提供了理论基础。

查看原文 →arxiv.org