技术博客arXiv cs.AI·14 小时前

强化学习新框架DiRL：引导大模型探索推理而非记忆

原标题：Reasoning or Memorization? Direction-Aware Diversity Exploration in LLM Reinforcement Learning

速览

现有大模型强化学习方法难以区分探索行为源于真实推理还是模式记忆，可能导致模型走向记忆捷径。为此，研究提出DiRL框架，通过提取策略内部的推理-记忆方向，重塑奖励以放大推理相关的探索并抑制记忆相关的变异。该方法无缝集成于GRPO，在数学和通用推理基准测试中显著优于现有方法。

AI 深度解读

Reasoning or Memorization? Direction-Aware Diversity Exploration in LLM Reinforcement Learning

背景

强化学习（Reinforcement Learning, RL）已成为激发大语言模型（LLM）推理能力的关键范式。在这一过程中，探索（Exploration）对于发现有效的解题轨迹至关重要。然而，现有的探索方法通常侧重于在语义空间或梯度空间中鼓励多样性，却未能深入区分这种多样性背后的驱动因素。

在实际应用中，一条轨迹之所以显得“新颖”，可能源于它遵循了全新的推理过程，也可能仅仅是因为模型变化了记忆中的模式或捷径。如果对这些情况给予同等的奖励，可能会误导探索方向，使模型倾向于通过记忆而非真正的推理能力来提升性能。这一痛点促使研究者重新审视 LLM 强化学习中的探索机制，旨在区分“真正的推理改进”与“记忆模式的变异”。

核心内容

本文提出了一种名为 DiRL（Direction-Aware Reinforcement Learning，方向感知强化学习）的新框架。DiRL 的核心思想是将探索锚定在策略（Policy）内部的一个“推理-记忆方向”上。

具体而言，DiRL 的工作流程包含以下关键步骤：

提取方向向量：从模型表示（Model Representations）中提取出表征“推理”与“记忆”倾向的内部方向。
构建加权梯度特征：利用上述方向构建方向加权的梯度特征，用于表征 rollout（ rollout 通常指在强化学习中从当前状态出发生成的轨迹序列）更新。
重塑奖励机制：通过重塑奖励函数，放大与推理对齐的探索行为，同时抑制与记忆对齐的变异。

DiRL 设计为可与标准的 Group Relative Policy Optimization (GRPO) 算法无缝集成。GRPO 是一种近期流行的强化学习算法，旨在通过组内相对优势估计来稳定训练过程。DiRL 的加入旨在优化 GRPO 中的探索策略，使其更专注于发现具有真正推理价值的轨迹，而非仅仅是在记忆库中寻找变体。

关键要点

问题定义：现有的 LLM 强化学习探索方法缺乏对多样性来源的区分，可能导致模型通过记忆捷径而非推理能力提升表现。
方法论创新：提出 DiRL 框架，引入“方向感知”机制，从模型内部表示中识别推理与记忆的潜在方向。
技术实现：
- 从模型表示中提取推理-记忆方向。
- 构造方向加权的梯度特征以量化轨迹更新的性质。
- 调整奖励信号，奖励推理导向的探索，惩罚记忆导向的变异。
兼容性：DiRL 可直接集成到标准的 GRPO 框架中，无需对基础架构进行大规模重构。
实验验证：在数学推理和通用推理基准测试中进行了广泛实验。
性能提升：结果显示，DiRL 显著优于多种现有的探索方法，证明了其在促进真正推理能力方面的有效性。

意义与影响

DiRL 的提出为 LLM 强化学习中的探索机制提供了一个新的视角。它不仅仅是一个算法优化，更是对“什么是有效的探索”这一根本问题的回答。

提升推理真实性：通过抑制记忆模式的变异，DiRL 有助于确保模型的性能提升源于其逻辑推理能力的增强，而非对训练数据中常见模式的过度拟合或简单变体。
优化资源利用：在强化学习训练中，探索效率至关重要。DiRL 通过引导探索方向，减少了在低价值记忆变异上的计算浪费，使模型能更快速地收敛到高质量的推理策略。
推动基准测试可靠性：随着 LLM 在数学和逻辑任务上的表现日益接近人类水平，区分“推理”与“记忆”变得愈发重要。DiRL 提供的评估和训练框架有助于更准确地衡量模型的真实推理能力，为后续研究提供更可靠的基准。

总之，DiRL 通过引入方向感知的探索机制，解决了现有强化学习范式中的关键缺陷，为构建更具通用性和鲁棒性的大语言模型推理能力提供了有力的技术支撑。

查看原文 →arxiv.org