← 返回信息流
技术博客arXiv cs.CL·3 小时前

Erase-then-Delta Attention解耦擦除与写入地址

原标题:Erase-then-Delta Attention: Decoupling Erase and Write Addresses in Delta-Rule Linear Attention

速览

Delta-rule线性注意力在写入新内容前会修正当前地址的存储,但无法主动清除其他地址的过时信息。Erase-then-Delta Attention (EDA) 通过解耦擦除和写入地址,先沿学习到的方向针对性擦除,再进行标准的delta式修正写入。实验显示,该机制在2.5B密集模型和25B-MoE模型中均表现最佳,尤其在80B-token长上下文微调后,在4k至128k上下文长度评估中优势持续。

AI 深度解读

Erase-then-Delta Attention:解耦 Delta 规则线性注意力中的擦除与写入地址

背景

在大型语言模型(LLM)的发展进程中,注意力机制是核心组件。传统的 Transformer 架构使用全注意力机制(Full Attention),虽然性能卓越,但其计算复杂度随序列长度呈二次方增长,限制了处理长上下文的能力。为了突破这一瓶颈,研究人员提出了线性注意力(Linear Attention)及其变体,旨在将计算复杂度降低至线性级别。

其中,Delta 规则线性注意力(Delta-rule Linear Attention) 是一种基于递归记忆更新的机制。它通过修正当前写入地址上已存储的信息,再写入新内容,从而优化记忆更新过程。这种机制类似于一种“增量式”的记忆管理:它不直接覆盖旧记忆,而是根据新信息对现有记忆进行微调。

然而,现有的 Delta 规则线性注意力存在一个关键缺陷:“主动修正”仍然锚定在当前的写入地址上。这意味着,当模型需要在某个新地址写入新内容时,它只能修正该新地址上可能存在的陈旧信息,而无法主动移除存储在其他不同地址中的过时信息。这种局限性导致模型在处理长序列时,难以有效地清理不再相关的“噪音”记忆,从而影响了长上下文的理解能力。

核心内容

为了解决上述问题,研究团队提出了 Erase-then-Delta Attention (EDA),即“先擦除后 Delta 注意力”。这是一种新的记忆更新规则,其核心创新在于解耦了“擦除地址”和“写入地址”

1. 核心洞察

递归记忆模型不应仅仅关注如何修正当前的写入操作,还应该有选择性地抑制那些位于独立选定地址上的过时记忆。换句话说,模型不仅要决定“写什么”,还要决定“擦除什么”以及“在哪里擦除”。

2. 工作机制

EDA 方法将记忆更新过程分为两个步骤:

  1. 目标擦除步骤(Targeted Erase Step):首先,沿着一个学习到的“擦除方向”(erase direction),在特定的地址执行擦除操作。这一步旨在主动清理那些不再相关或过时的记忆信息。
  2. 标准 Delta 修正写入(Standard Delta-style Corrective Write):随后,沿着当前的“写入方向”(write direction),执行标准的 Delta 风格修正写入。这一步保留了 Delta 规则原有的修正行为,确保新信息能够准确、增量地融入记忆。

3. 优势

这种设计既保留了 Delta 规则更新的高效修正特性,又极大地扩展了其记忆管理能力。通过引入独立的擦除路径,模型能够在写入新信息之前,主动清除其他位置上的陈旧数据,从而保持记忆状态的清洁和高效。

关键要点

  • 问题定义:现有的 Delta 规则线性注意力无法主动移除存储在不同地址的过时信息,限制了长上下文处理能力。
  • 方法创新:提出 EDA(Erase-then-Delta Attention),解耦了擦除和写入的地址选择,允许模型独立决定“在哪里擦除”和“在哪里写入”。
  • 执行流程
    • 第一步:沿学习到的擦除方向执行目标擦除。
    • 第二步:沿当前写入方向执行标准的 Delta 修正写入。
  • 实验设置
    • 模型家族:密集参数 2.5B 模型和混合专家(MoE)25B-A2.8B 模型。
    • 训练阶段:包括预训练和 MoE 模型的 800 亿 token 长上下文中期训练(midtraining)。
    • 评估范围:上下文长度从 4k 到 128k。
  • 实验结果
    • 在密集模型和 MoE 模型中,EDA 均表现最佳。
    • 在 800 亿 token 长上下文中期训练后,EDA 在 4k 至 128k 的长上下文评估中依然保持最佳性能。
  • 机制分析
    • 紧凑的更新分析和记忆状态探针表明,EDA 在被动衰减(passive decay)较弱时,会分配最强的额外清理路径。
    • 这证明了递归记忆模型需要同时决策“写入内容”和“擦除过时信息及其位置”。

意义与影响

EDA 的提出标志着线性注意力机制在记忆管理方面的重大进步。通过解耦擦除和写入操作,该研究为递归记忆模型提供了一种更精细的控制手段,使其能够像人类记忆一样,不仅记录新信息,还能主动遗忘无关或过时的信息。

这一改进对于提升大型语言模型的长上下文处理能力具有重要意义。实验证明,EDA 在从 4k 到 128k 的广泛上下文长度范围内均能保持优越性能,特别是在长上下文中期训练后,其优势更加明显。这表明 EDA 能够有效缓解长序列中的信息干扰问题,提高模型对长文档、长对话等复杂场景的理解和生成能力。

此外,EDA 的设计思路也为未来的递归记忆模型研究提供了新的方向:即记忆更新不应仅仅是被动的衰减或修正,而应包含主动的、基于地址选择的清理机制。这对于构建更高效、更智能的长上下文 AI 系统具有深远的理论和实践价值。

查看原文 →arxiv.org