技术博客arXiv cs.AI·3 小时前

突破残差流局限：持久记忆助力连续潜空间推理

原标题：Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning

速览

针对CoCoNuT范式在连续潜空间推理中因中间状态被覆盖而导致的“概念瓶颈”问题，研究者提出了AGCLR（自适应门控连续潜空间推理）方法。该方法引入持久残差记忆和三个学习门控（写入、读取、遗忘），有效保留了早期推理的关键事实。在GSM8K、HotpotQA等数据集上的实验表明，AGCLR能显著提升模型性能，且随着推理深度增加优势愈发明显。

AI 深度解读

为什么限制残差流只在层之间？持续记忆用于连续潜在推理

背景

大型语言模型（LLMs）在数学推理和多跳规划任务上展现出了卓越的能力。为了进一步提升这种推理能力，研究者提出了 CoCoNuT（Chain of Continuous Thought，连续思维链）范式。与传统的思维链（Chain of Thought, CoT）不同，CoCoNuT 允许模型在潜在空间（latent space）中进行推理，这意味着模型可以同时探索多条推理路径，而不是过早地锁定单一的答案路径。

然而，尽管 CoCoNuT 在理论上具有优势，但在实际应用中却遇到了瓶颈。研究发现，随着推理深度的增加，模型在每一步推理过程中都会覆盖中间隐藏状态（intermediate hidden states）。这种机制导致模型在深入推理时，丢失了早期步骤中计算出的关键事实。我们将这一现象称为概念瓶颈（Concept Bottleneck）。

实证数据显示，在 HotpotQA 数据集上，原始的 CoCoNuT 模型（期望匹配率 EM 为 10.4%）甚至未能超越传统的 CoT 基线（EM 为 11.0%）；而在 GSM8K 数据集上，随着课程深度（curriculum depth）的增加，性能反而出现下降。这表明，现有的连续推理机制缺乏对关键信息的持久记忆能力。

核心内容

为了解决上述“概念瓶颈”问题，研究人员提出了 AGCLR（Adaptive Gated Continuous Latent Reasoning，自适应门控连续潜在推理）。AGCLR 是对 CoCoNuT 范式的增强，其核心创新在于引入了一种门控概念流（Gated Concept Stream）。

1. 持续残差记忆机制

AGCLR 引入了一个在所有推理步骤之间保持持久的残差记忆（Persistent Residual Memory）。这个记忆机制旨在保留推理过程中产生的关键信息，防止其被后续步骤覆盖。

2. 三个学习到的门控机制

该记忆流由三个可学习的门控（Gates）进行精细控制，分别负责信息的写入、读取和遗忘：

写入门（Write Gate）：负责将中间步骤计算出的事实提交（commit）到持久记忆中。这确保了重要的推理节点被保存下来，供后续步骤使用。
读取门（Read Gate）：负责从持久记忆中检索相关的先前状态。这使得模型在当前推理步骤中能够访问早期得出的关键结论，从而保持推理的一致性。
遗忘门（Forget Gate）：负责修剪（prune）不相关的上下文信息。通过清除无关或过时的信息，模型可以减少噪声干扰，提高推理效率。

3. 实验验证

研究团队以 GPT-2 作为基础模型，在 GSM8K、HotpotQA 和 ProsQA 等多个数据集上对 AGCLR 进行了评估。实验结果表明，AGCLR 在所有类型的数据集上均实现了稳定的性能提升。

值得注意的是，随着课程深度的增加，AGCLR 与基线模型之间的性能差距逐渐扩大。这一现象直接证明了 AGCLR 有效解决了 CoCoNuT 中的概念瓶颈问题，使得更深层、更复杂的推理成为可能。

关键要点

问题识别：现有的连续推理范式（如 CoCoNuT）存在“概念瓶颈”，即在多步推理中，中间隐藏状态被覆盖，导致早期关键事实丢失，进而造成性能随推理深度增加而下降。
解决方案：提出 AGCLR 框架，通过引入“门控概念流”来增强 CoCoNuT。
核心机制：
- 建立跨所有推理步骤的持久残差记忆。
- 利用写入门保存关键事实。
- 利用读取门检索相关历史状态。
- 利用遗忘门清理无关上下文。
实验结果：在 GPT-2 基础模型上，AGCLR 在 GSM8K、HotpotQA 和 ProsQA 数据集上均优于基线，且性能优势随推理深度增加而显著扩大。
代码开源：相关代码已公开，便于社区复现和进一步研究。

意义与影响

AGCLR 的提出对于推动大语言模型的复杂推理能力具有重要意义：

突破推理深度限制：通过解决概念瓶颈，AGCLR 证明了模型可以在不丢失关键信息的前提下进行更深层次的推理。这对于需要多跳逻辑、长程依赖的复杂任务（如复杂数学证明、多步规划）至关重要。
优化潜在空间计算：传统的 CoT 依赖于显式的文本输出作为中间步骤，而 CoCoNuT 及其改进版 AGCLR 探索了潜在空间的连续推理。AGCLR 通过持久记忆机制，使得这种隐式推理更加稳健和高效，为未来模型架构设计提供了新的思路。
动态信息管理机制：引入类似 RNN 中 LSTM/GRU 的门控机制到 Transformer 的残差流中，是一种创新的架构设计。它展示了如何通过自适应地管理记忆状态来平衡信息的保留与更新，这对构建具备长期记忆能力的 AI 系统具有借鉴意义。
实证有效性：在多个基准数据集上的成功验证，表明这一方法并非理论空想，而是具有实际落地价值的技术改进，有望被集成到更先进的推理模型中。

查看原文 →arxiv.org