DiscoLoop 创新循环架构解决多跳推理瓶颈
速览
本文提出 DiscoLoop 架构,通过引入离散嵌入和连续隐状态的双通道循环设计,解决了 Transformer 在两跳推理中的深度存储问题和对齐瓶颈。该模型在符号及合成语言多跳任务中表现优异,训练步骤大幅减少。应用于真实世界预训练后,DiscoLoop 获得更低训练损失和更强基准性能,显示其混合通道设计具有实用价值,推动大模型推理能力的进一步提升。
AI 深度解读
背景
大型语言模型在允许外部化中间步骤(作为 Chain-of-Thought,CoT)时,能够在众多推理任务上取得强劲表现。然而,许多问题要求模型在单个前向传播中内部化多步推理过程,而非外部化步骤。研究者通过两跳推理(two-hop reasoning)这一代表性任务来探讨这一挑战:该任务要求模型在单个前向传播中组合多个参数化的知识片段。
标准非循环 Transformer 存在深度局部存储问题:早期的层中习得的事实在第二跳检索发生的位置不可用。研究发现,循环 Transformer 通过重用同一记忆来缓解此问题,但泛化仍存在缺陷。研究进一步指出,剩余瓶颈在于表征层面。在两跳推理任务中,第一轮循环通常使正确的桥接实体(bridge entity)几乎完美可解码,但相应的隐藏状态与桥接标记嵌入的对齐程度较差。令人惊讶的是,一种简单的训练-free 实对齐干预方法几乎能够完全填补泛化差距。
基于这一洞见,研究者提出了 DiscoLoop 架构,其循环机制同时携带离散嵌入通道和连续隐藏状态通道。DiscoLoop 在符号推理和合成语言多跳推理任务中实现接近完美的准确率,且训练步骤大幅减少。当应用于实际预训练时,DiscoLoop 相比循环 Transformer 基线,实现了更低的训练损失和更强的基准性能,表明混合通道设计能够迁移到实际语言建模中。
核心内容
计算机科学领域 > 计算与语言类别下,于 2026 年 7 月 1 日提交的论文标题为《DiscoLoop: Looping Discrete Embeddings and Continuous Hidden States for Multi-hop Reasoning》。
摘要
大型语言模型在允许将中间步骤外部化为链式思考(Chain-of-Thought,CoT)时,在许多推理任务上表现强劲。然而,许多问题要求模型在单个前向传播中内部化多步推理过程。我们通过两跳推理(two-hop reasoning)这一代表性任务来研究这一挑战:该任务要求模型在单个前向传播中组合多个参数化的知识片段。
标准非循环 Transformer 存在深度局部存储问题:事实在早期的层中被习得,但在第二跳检索发生的位置上,这些事实不可用。我们发现,循环 Transformer 通过重用同一记忆缓解了这一问题,但泛化仍不完美。我们发现,剩余瓶颈在于表征层面。在两跳推理任务中,第一轮循环往往使正确的桥接实体(bridge entity)几乎完美可解码,但相应的隐藏状态与桥接标记嵌入的对齐程度较差。令人惊讶的是,一种简单的训练-free 实对齐干预方法几乎能完全填补泛化差距。
基于这一洞见,我们提出了 DiscoLoop 架构,其循环机制同时携带离散嵌入通道和连续隐藏状态通道。DiscoLoop 在符号推理和合成语言多跳推理任务中实现接近完美的准确率,且训练步骤大幅减少。当应用于实际预训练时,DiscoLoop 相比循环 Transformer 基线,实现了更低的训练损失和更强的基准性能,表明混合通道设计能够迁移到实际语言建模中。
关键要点
- 大型语言模型通过外部化链式思考(CoT)在推理任务上表现强劲,但许多问题要求在单个前向传播中内部化多步推理。
- 两跳推理任务代表此类场景,要求模型在单个前向传播中组合多个参数化知识片段。
- 标准非循环 Transformer 存在深度局部存储问题:早期层习得的事实在第二跳检索位置不可用。
- 循环 Transformer 通过重用同一记忆缓解了存储问题,但泛化仍不完美。
- 剩余瓶颈在于表征层面:第一轮循环使桥接实体几乎完美可解码,但隐藏状态与桥接标记嵌入对齐差。
- 简单的训练-free 实对齐干预方法可填补泛化差距。
- DiscoLoop 提出同时携带离散嵌入通道和连续隐藏状态通道的循环架构。
- 在符号推理和合成语言多跳推理任务中,DiscoLoop 实现接近完美准确率,训练步骤大幅减少。
- 应用于实际预训练时,DiscoLoop 实现更低训练损失和更强基准性能,混合通道设计成功迁移到语言建模。
意义与影响
该论文揭示了循环架构在多跳推理中的关键表征瓶颈,并通过引入混合离散-连续通道的 DiscoLoop 架构,成功缓解了深度局部存储问题和对齐不匹配。这一创新不仅在符号和合成语言任务上实现了接近完美的泛化,且在实际预训练中表现出色,表明循环 Transformer 的不足并非根本性限制,而是可通过表征设计优化的。
论文的结果对语言模型架构设计具有深远影响。它证明了在预训练和推理阶段整合离散嵌入与连续隐藏状态的混合循环机制,能够显著提升多步推理能力,并降低训练成本。未来研究或可扩展至更复杂的多跳任务、实际大型语言模型的持续训练,以及与其他循环架构(如记忆增强 Transformer)的结合,从而推动更高效、更可靠的通用推理系统。
