技术博客arXiv cs.AI·2 小时前

E3RL突破自回归诅咒，赋予大模型长程推理自愈能力

原标题：Shattering the Autoregressive Curse: Dynamic Epistemic Entropy Orchestrated Erasable Reinforcement Learning for LLMs

速览

针对大语言模型在长程逻辑推理中因早期微小扰动导致错误级联的自回归诅咒，研究提出动态认知熵编排的可擦除强化学习（E3RL）。该方法利用模型内生交叉熵作为认知不确定性坐标，通过分段自适应阈值和优势分配，实现局部逻辑缺陷的精准剔除与KV缓存复用，赋予推理过程自愈能力。在DeepMath-103k数据集上的实验显示，该方法在AIME等数学推理基准上显著提升性能，4B和8B模型分别超越此前SOTA结果5.349%和6.514%。

AI 深度解读

打破自回归诅咒：动态认知熵编排的可擦除强化学习（E³RL）深度解读

背景

尽管强化学习（Reinforcement Learning, RL）极大地拓展了大语言模型（LLMs）的认知边界，但在处理长程逻辑推理任务时，模型往往仍受制于“自回归诅咒”（Autoregressive Curse）。

自回归生成的本质决定了模型是一个马尔可夫决策过程（Markov Decision Process, MDP）中的序列生成器。在这一过程中，早期生成的微小认知扰动（Epistemic Perturbations）会沿着生成流程不可逆地传播。这种误差的累积效应会引发级联失败（Cascading Failures），导致推理轨迹迅速偏离正确路径并最终崩溃。简而言之，在长序列推理中，一个早期的微小错误足以破坏后续所有的推理步骤，使得模型难以自我修正。

核心内容

为克服这种由单一早期错误导致全局推理失败的自回归级联效应，研究团队提出了一种名为 动态认知熵编排的可擦除强化学习（Dynamic Epistemic Entropy Orchestrated Erasable Reinforcement Learning，简称 $\text{E}^3\text{RL}$）的新方法。

1. 内生不确定性坐标：无需外部信号

$\text{E}^3\text{RL}$ 的核心创新在于消除了对外部信号（如人工标注或复杂奖励模型）的依赖。该方法将模型内部的局部自回归交叉熵（Local Autoregressive Cross-Entropy）作为认知不确定性的内生坐标。通过监控模型在生成过程中的内部置信度变化，系统能够实时感知推理过程中的“认知迷雾”区域。

2. 动态阈值与优势分配

为了实现精准的错误修正，$\text{E}^3\text{RL}$ 引入了两个关键机制：

分段级自适应动态阈值：模型根据当前生成片段的认知熵水平，动态调整判断逻辑缺陷的阈值，而非使用固定标准。
优势分配（Advantage Allocation）：在强化学习框架中，更精确地分配每一步动作的价值优势，确保修正动作能得到足够的梯度反馈。

3. 可擦除机制与 KV Cache 复用

这是 $\text{E}^3\text{RL}$ 最具系统级创新的部分。当检测到局部逻辑缺陷时，模型能够精准地“切除”（Excise）这些缺陷片段。与传统方法不同，$\text{E}^3\text{RL}$ 允许模型复用历史的关键值（Key-Value, KV）缓存流。这意味着模型在修正错误后，无需从头重新计算所有前置状态的嵌入，从而实现了推理过程的“自愈”能力（Self-healing Capability）。这种机制既保留了正确推理的历史上下文，又剔除了错误分支，极大地提高了长序列推理的鲁棒性。

4. 实验验证与性能突破

研究团队在 DeepMath-103k 数据集上对 $\text{E}^3\text{RL}$ 进行了训练。实验结果表明：

效率提升：$\text{E}^3\text{RL}$ 重塑了长序列推理的探索效率，在保持线性内存开销（Linear Memory Overhead）的同时，显著提高了样本效率（Sample Efficiency）。
基准测试优异表现：在 AIME（美国数学邀请赛）等数学推理基准测试中，$\text{E}^3\text{RL}$ 取得了显著的性能增益。具体而言，参数量为 4B 和 8B 的模型分别超越了此前最先进（SOTA）结果 5.349% 和 6.514%。

关键要点

解决核心痛点：$\text{E}^3\text{RL}$ 旨在解决长程逻辑推理中因早期微小错误导致后续推理全面崩溃的“自回归级联失败”问题。
内生信号驱动：完全依赖模型内部的局部自回归交叉熵作为认知不确定性的度量，无需依赖外部奖励信号或人工干预。
动态自适应机制：通过分段级自适应动态阈值和优势分配，实现对局部逻辑缺陷的精准识别与定位。
KV Cache 复用技术：创新性地允许在修正错误时复用历史 KV 缓存，实现了推理过程的“可擦除”与“自愈”，避免了全量重计算。
线性内存开销：尽管引入了复杂的动态调整机制，但该方法在系统层面保持了线性内存复杂度，具备工程落地可行性。
显著的性能提升：在 AIME 数学推理任务中，4B 和 8B 模型的性能分别超越 SOTA 5.349% 和 6.514%，证明了其在中小规模模型上的巨大潜力。

意义与影响

$\text{E}^3\text{RL}$ 的提出不仅在工程实践上提升了大语言模型在复杂逻辑推理任务中的表现，更在理论层面具有重要意义。

首先，它打破了长期以来被视为大模型固有缺陷的“自回归诅咒”，证明了通过内生不确定性监控和缓存复用技术，可以有效缓解误差传播问题。其次，该方法为构建下一代具备“自愈”能力的通用人工智能（AGI）奠定了理论和系统级基础。具备自我纠错和动态调整能力的模型，将更接近人类在复杂推理中“边想边改”的认知模式，从而在数学证明、代码生成及科学发现等高可靠性要求的领域展现出更大的应用价值。

查看原文 →arxiv.org