技术博客arXiv cs.AI·2 小时前

内存蒸馏技术让语言模型在线自省并自我改进

原标题：Procedural Memory Distillation: Online Reflection for Self-Improving Language Models

速览

Procedural Memory Distillation (PMD) 是一种新方法，将模型在多回合中的轨迹信号转化为可复用的记忆，并通过共生机制在训练中蒸馏到模型权重中。最终模型在推理时无需存储记忆，却能利用积累的策略经验和模式。实验显示PMD在SCI-KNOWEVAL和LIVECODEBENCH基准上显著优于SDPO，证明记忆与策略的共同进化是提升语言模型自我改进的关键所在。

AI 深度解读

背景

强化学习与可验证奖励（RLVR）是近年来强化学习在语言模型训练中的重要方法，最近的自我蒸馏变体如 SDPO（Self-Distillation from Preference Optimization）等，都通过评估每一次 rollout（生成序列）与验证器（verifier）之间的符合程度来获得 episode-level 信号，并以此更新策略（policy）。这种方式有效，但往往只利用 rollout 中最基本的、最简单的信号，忽略了 rollout 本身所包含的更丰富过程性信息（procedural information）。

在多个 episode 和多个 epoch 之间，模型在不断变化的策略下反复遇到相关问题，产生了跨 episode 的信号：哪些策略能够持续通过验证、哪些失败模式反复出现、哪些模式会反复出现。这些跨 episode 的信号，正是 episode-local 更新无法捕捉到的。

现有方法难以保留或复用这些跨 episode 的过程性知识，这限制了模型进一步自我提升的能力。

核心内容

我们提出 Procedural Memory Distillation（简称 PMD），即过程性记忆蒸馏方法。该方法将跨 episode 的信号转化为可复用的过程性记忆（procedural memory），并在训练过程中将这些记忆蒸馏到策略的权重参数中。

这一过程性记忆在训练阶段充当训练支架（training scaffold），最终会完全吸收进策略本身，使得模型在推理时成为一个无记忆（memory-free）的模型。

PMD 将记忆组织在三个抽象层次：

原始轨迹（raw trajectories）；
自反思的策略与教训（self-reflected strategies and lessons）；
更高层级的跨问题反复出现的行为模式（higher-level behavioral patterns that recur across problems）。

这些记忆元素都是在线（online）从模型自身轨迹中提取的。

此外，PMD 设计了一个记忆条件自教师（memory-conditioned self-teacher），该教师利用积累的经验，对学生模型在自身 rollout 上的输出进行监督，使得学生能够逐步将过程性知识内化为自身参数中。

PMD 的核心设计原则是共进化（co-evolution）：策略生成 rollout 来更新记忆，而记忆则以条件方式引导监督信号来更新策略，实现双向迭代。

关键要点

PMD 将跨 episode 的过程性信号转化为可复用的记忆，并以记忆条件自教师的方式进行蒸馏，学生模型在推理时无内存依赖。
记忆分为三个层次：原始轨迹、自反思策略与教训、高层级跨问题行为模式，在线从自身轨迹提取。
核心是共进化机制：策略更新记忆，记忆指导策略监督，实现策略与记忆的同步迭代。
实验在 Qwen3-8B 和 OLMo3-Instruct-7B 模型上验证，PMD 相比 SDPO 在 SCIKNOWEVAL 上提升 3.8-5.5%，在 LIVECODEBENCH 上提升 7.9-13.6%。
共进化是关键：冻结记忆或策略的变体相比原 PMD 在 SCIKNOWEVAL 多个领域下降超过 10%。

意义与影响

PMD 为语言模型提供了一种在线、内存高效的自我改进机制，有效弥补了 RLVR 和 SDPO 等方法在过程性知识利用上的不足。研究表明，模型通过吸收过程性记忆后，其生成能力显著提升，验证成功率和代码生成质量均有稳定进步。

这一工作为后续大模型的持续训练、在线优化以及跨任务模式挖掘开辟了新路径，体现了强化学习与监督学习的深度融合潜力。未来，PMD 的思想有望被扩展到更多任务场景，推动语言模型实现真正的自主进化。

查看原文 →arxiv.org

内存蒸馏技术让语言模型在线自省并自我改进

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐