技术博客arXiv cs.CL·3 小时前

Erase-then-Delta Attention解耦擦除与写入地址

原标题：Erase-then-Delta Attention: Decoupling Erase and Write Addresses in Delta-Rule Linear Attention

速览

Delta-rule线性注意力在写入新内容前会修正当前地址的存储，但无法主动清除其他地址的过时信息。Erase-then-Delta Attention (EDA) 通过解耦擦除和写入地址，先沿学习到的方向针对性擦除，再进行标准的delta式修正写入。实验显示，该机制在2.5B密集模型和25B-MoE模型中均表现最佳，尤其在80B-token长上下文微调后，在4k至128k上下文长度评估中优势持续。

AI 深度解读

Erase-then-Delta Attention：解耦 Delta 规则线性注意力中的擦除与写入地址

背景

在大型语言模型（LLM）的发展进程中，注意力机制是核心组件。传统的 Transformer 架构使用全注意力机制（Full Attention），虽然性能卓越，但其计算复杂度随序列长度呈二次方增长，限制了处理长上下文的能力。为了突破这一瓶颈，研究人员提出了线性注意力（Linear Attention）及其变体，旨在将计算复杂度降低至线性级别。

其中，Delta 规则线性注意力（Delta-rule Linear Attention） 是一种基于递归记忆更新的机制。它通过修正当前写入地址上已存储的信息，再写入新内容，从而优化记忆更新过程。这种机制类似于一种“增量式”的记忆管理：它不直接覆盖旧记忆，而是根据新信息对现有记忆进行微调。

然而，现有的 Delta 规则线性注意力存在一个关键缺陷：“主动修正”仍然锚定在当前的写入地址上。这意味着，当模型需要在某个新地址写入新内容时，它只能修正该新地址上可能存在的陈旧信息，而无法主动移除存储在其他不同地址中的过时信息。这种局限性导致模型在处理长序列时，难以有效地清理不再相关的“噪音”记忆，从而影响了长上下文的理解能力。

核心内容

为了解决上述问题，研究团队提出了 Erase-then-Delta Attention (EDA)，即“先擦除后 Delta 注意力”。这是一种新的记忆更新规则，其核心创新在于解耦了“擦除地址”和“写入地址”。

1. 核心洞察

递归记忆模型不应仅仅关注如何修正当前的写入操作，还应该有选择性地抑制那些位于独立选定地址上的过时记忆。换句话说，模型不仅要决定“写什么”，还要决定“擦除什么”以及“在哪里擦除”。

2. 工作机制

EDA 方法将记忆更新过程分为两个步骤：

目标擦除步骤（Targeted Erase Step）：首先，沿着一个学习到的“擦除方向”（erase direction），在特定的地址执行擦除操作。这一步旨在主动清理那些不再相关或过时的记忆信息。
标准 Delta 修正写入（Standard Delta-style Corrective Write）：随后，沿着当前的“写入方向”（write direction），执行标准的 Delta 风格修正写入。这一步保留了 Delta 规则原有的修正行为，确保新信息能够准确、增量地融入记忆。

3. 优势

这种设计既保留了 Delta 规则更新的高效修正特性，又极大地扩展了其记忆管理能力。通过引入独立的擦除路径，模型能够在写入新信息之前，主动清除其他位置上的陈旧数据，从而保持记忆状态的清洁和高效。

关键要点

问题定义：现有的 Delta 规则线性注意力无法主动移除存储在不同地址的过时信息，限制了长上下文处理能力。
方法创新：提出 EDA（Erase-then-Delta Attention），解耦了擦除和写入的地址选择，允许模型独立决定“在哪里擦除”和“在哪里写入”。
执行流程：
- 第一步：沿学习到的擦除方向执行目标擦除。
- 第二步：沿当前写入方向执行标准的 Delta 修正写入。
实验设置：
- 模型家族：密集参数 2.5B 模型和混合专家（MoE）25B-A2.8B 模型。
- 训练阶段：包括预训练和 MoE 模型的 800 亿 token 长上下文中期训练（midtraining）。
- 评估范围：上下文长度从 4k 到 128k。
实验结果：
- 在密集模型和 MoE 模型中，EDA 均表现最佳。
- 在 800 亿 token 长上下文中期训练后，EDA 在 4k 至 128k 的长上下文评估中依然保持最佳性能。
机制分析：
- 紧凑的更新分析和记忆状态探针表明，EDA 在被动衰减（passive decay）较弱时，会分配最强的额外清理路径。
- 这证明了递归记忆模型需要同时决策“写入内容”和“擦除过时信息及其位置”。

意义与影响

EDA 的提出标志着线性注意力机制在记忆管理方面的重大进步。通过解耦擦除和写入操作，该研究为递归记忆模型提供了一种更精细的控制手段，使其能够像人类记忆一样，不仅记录新信息，还能主动遗忘无关或过时的信息。

这一改进对于提升大型语言模型的长上下文处理能力具有重要意义。实验证明，EDA 在从 4k 到 128k 的广泛上下文长度范围内均能保持优越性能，特别是在长上下文中期训练后，其优势更加明显。这表明 EDA 能够有效缓解长序列中的信息干扰问题，提高模型对长文档、长对话等复杂场景的理解和生成能力。

此外，EDA 的设计思路也为未来的递归记忆模型研究提供了新的方向：即记忆更新不应仅仅是被动的衰减或修正，而应包含主动的、基于地址选择的清理机制。这对于构建更高效、更智能的长上下文 AI 系统具有深远的理论和实践价值。

查看原文 →arxiv.org