← 返回信息流
技术博客arXiv cs.AI·7 小时前

超越熵:利用Token级分布偏差优化大模型推理

原标题:Beyond Entropy: Learning from Token-Level Distributional Deviations for LLM Reasoning

速览

针对大语言模型推理中强化学习面临的熵坍缩与爆炸困境,研究提出独立组合Token(ICT)框架。该框架利用Jensen-Shannon散度识别关键分支点,通过选择性更新调节策略集中度。实验显示,该方法在多个基准测试中显著优于GRPO等基线,有效提升了模型推理性能。

AI 深度解读

Beyond Entropy: Learning from Token-Level Distributional Deviations for LLM Reasoning

背景

可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大语言模型(LLM)推理能力方面取得了显著进展。然而,该领域面临一个根本性的优化不稳定性问题,主要体现在熵(Entropy)管理的两难困境上:

  1. 熵坍缩(Entropy Collapse):如果对所有 token 进行均匀更新,会导致策略分布过早收敛于次优策略,表现为模型探索能力不足,陷入局部最优。
  2. 熵爆炸(Entropy Explosion):如果过度最大化香农熵(Shannon Entropy),会导致分布过于分散,驱动模型进行盲目的探索,生成逻辑连贯性差的推理链。

现有的基线方法如 GRPO、20-Entropy 和 STAPO 在处理这一平衡时往往顾此失彼。为了解决这一二元对立,研究提出了从标量不确定性转向 token 级别分布特性的优化思路。

核心内容

本文提出了 独立组合 Token(Independent Combinatorial Tokens, ICT) 框架。该框架的核心思想是将优化焦点从单一的标量不确定性度量,转移到 token logits(对数几率)的分布特性上。

1. 基于 JS 散度的关键分支点识别

ICT 利用 token logits 分布之间的 Jensen-Shannon (JS) 散度 来识别具有独特分布模式的 token。这些被识别出的 token 被视为推理过程中的关键分支点(critical branching points)。通过聚焦于这些关键节点,模型能够更有效地引导探索过程,而不是在整个词汇表上进行无差别的随机更新。

2. 双重熵控制的理论分析

基于香农熵和二阶 Rényi 熵的理论分析证明,ICT 方法通过有选择地更新这些关键 token,实现了对策略集中度的调节:

  • 降低整体不确定性:通过减少由香农熵测量的整体分布不确定性,防止模型发散。
  • 控制概率集中度:通过控制由二阶 Rényi 熵捕捉的概率集中度,防止模型过早固化。

这种双重效应既防止了过度集中的 token 生成削弱探索能力,又有效地稳定了训练景观(training landscape)。

3. 实验验证

在 Qwen2.5(0.5B/1.5B/7B)模型上进行的实证研究表明,仅更新最具独特性的前 10% token,在涵盖数学、常识和奥林匹克级别问题的七个基准测试中,取得了显著的性能提升。与 GRPO、20-Entropy 和 STAPO 等基线方法相比,平均 pass@4 提升了 4.58%,最大增益达到 14.9%。

关键要点

  • 问题重构:将 RLVR 中的优化不稳定问题重新定义为熵管理的平衡问题,指出均匀更新导致熵坍缩,而过度最大化香农熵导致熵爆炸。
  • 方法论创新:引入 ICT 框架,不再依赖全局标量熵,而是利用 Jensen-Shannon (JS) 散度分析 token logits 分布,识别关键推理分支点。
  • 理论支撑:结合香农熵和二阶 Rényi 熵,证明了选择性更新关键 token 可以同时调节分布的不确定性和集中度,从而稳定训练过程。
  • 高效性:无需更新所有 token,仅需关注最具分布独特性的前 10% token 即可显著提升性能。
  • 性能提升:在 Qwen2.5 系列模型上,相比主流基线(GRPO, 20-Entropy, STAPO),在多个复杂推理任务中实现了平均 4.58% 的 pass@4 提升,最高提升达 14.9%。

意义与影响

这项研究为 LLM 的强化学习训练提供了新的视角,即从“全局熵控制”转向“局部分布特征利用”。

  1. 解决训练稳定性难题:通过识别关键分支点,ICT 框架有效地缓解了 RLVR 中常见的探索与利用(Exploration vs. Exploitation)之间的冲突,使得模型能够在保持推理连贯性的同时,更有效地探索潜在的高价值策略路径。
  2. 计算效率优化:仅更新前 10% 的独特 token 意味着在计算资源有限的情况下,可以大幅减少不必要的梯度更新,提高训练效率,同时保持甚至超越全量更新的效果。
  3. 通用性潜力:该方法在 Qwen2.5 不同规模模型上的成功应用,表明其具有跨模型规模的泛化能力,为未来更大规模语言模型的推理能力优化提供了可复用的技术路径。
  4. 推动推理算法发展:通过引入二阶 Rényi 熵等更精细的统计度量,丰富了强化学习在 NLP 领域的应用工具箱,为后续研究如何更精细地控制模型输出分布提供了理论基础。
查看原文 →arxiv.org