← 返回信息流
技术博客arXiv cs.AI·2 小时前

内存蒸馏技术让语言模型在线自省并自我改进

原标题:Procedural Memory Distillation: Online Reflection for Self-Improving Language Models

速览

Procedural Memory Distillation (PMD) 是一种新方法,将模型在多回合中的轨迹信号转化为可复用的记忆,并通过共生机制在训练中蒸馏到模型权重中。最终模型在推理时无需存储记忆,却能利用积累的策略经验和模式。实验显示PMD在SCI-KNOWEVAL和LIVECODEBENCH基准上显著优于SDPO,证明记忆与策略的共同进化是提升语言模型自我改进的关键所在。

AI 深度解读

背景

强化学习与可验证奖励(RLVR)是近年来强化学习在语言模型训练中的重要方法,最近的自我蒸馏变体如 SDPO(Self-Distillation from Preference Optimization)等,都通过评估每一次 rollout(生成序列)与验证器(verifier)之间的符合程度来获得 episode-level 信号,并以此更新策略(policy)。这种方式有效,但往往只利用 rollout 中最基本的、最简单的信号,忽略了 rollout 本身所包含的更丰富过程性信息(procedural information)。

在多个 episode 和多个 epoch 之间,模型在不断变化的策略下反复遇到相关问题,产生了跨 episode 的信号:哪些策略能够持续通过验证、哪些失败模式反复出现、哪些模式会反复出现。这些跨 episode 的信号,正是 episode-local 更新无法捕捉到的。

现有方法难以保留或复用这些跨 episode 的过程性知识,这限制了模型进一步自我提升的能力。

核心内容

我们提出 Procedural Memory Distillation(简称 PMD),即过程性记忆蒸馏方法。该方法将跨 episode 的信号转化为可复用的过程性记忆(procedural memory),并在训练过程中将这些记忆蒸馏到策略的权重参数中。

这一过程性记忆在训练阶段充当训练支架(training scaffold),最终会完全吸收进策略本身,使得模型在推理时成为一个无记忆(memory-free)的模型。

PMD 将记忆组织在三个抽象层次:

  1. 原始轨迹(raw trajectories);
  2. 自反思的策略与教训(self-reflected strategies and lessons);
  3. 更高层级的跨问题反复出现的行为模式(higher-level behavioral patterns that recur across problems)。

这些记忆元素都是在线(online)从模型自身轨迹中提取的。

此外,PMD 设计了一个记忆条件自教师(memory-conditioned self-teacher),该教师利用积累的经验,对学生模型在自身 rollout 上的输出进行监督,使得学生能够逐步将过程性知识内化为自身参数中。

PMD 的核心设计原则是共进化(co-evolution):策略生成 rollout 来更新记忆,而记忆则以条件方式引导监督信号来更新策略,实现双向迭代。

关键要点

  • PMD 将跨 episode 的过程性信号转化为可复用的记忆,并以记忆条件自教师的方式进行蒸馏,学生模型在推理时无内存依赖。
  • 记忆分为三个层次:原始轨迹、自反思策略与教训、高层级跨问题行为模式,在线从自身轨迹提取。
  • 核心是共进化机制:策略更新记忆,记忆指导策略监督,实现策略与记忆的同步迭代。
  • 实验在 Qwen3-8B 和 OLMo3-Instruct-7B 模型上验证,PMD 相比 SDPO 在 SCIKNOWEVAL 上提升 3.8-5.5%,在 LIVECODEBENCH 上提升 7.9-13.6%。
  • 共进化是关键:冻结记忆或策略的变体相比原 PMD 在 SCIKNOWEVAL 多个领域下降超过 10%。

意义与影响

PMD 为语言模型提供了一种在线、内存高效的自我改进机制,有效弥补了 RLVR 和 SDPO 等方法在过程性知识利用上的不足。研究表明,模型通过吸收过程性记忆后,其生成能力显著提升,验证成功率和代码生成质量均有稳定进步。

这一工作为后续大模型的持续训练、在线优化以及跨任务模式挖掘开辟了新路径,体现了强化学习与监督学习的深度融合潜力。未来,PMD 的思想有望被扩展到更多任务场景,推动语言模型实现真正的自主进化。

查看原文 →arxiv.org