技术博客arXiv cs.CL·1 天前

SLIM-RL: 无轨迹切片的风险预算随机掩码强化学习提升扩散大模型

原标题：SLIM-RL: Risk-Budgeted Random-Masking RL for Diffusion LLMs Without Trajectory Slicing

速览

SLIM-RL针对轨迹感知型训练方法的不足，提出风险预算化随机掩码方法，采用tau预算解码器控制每步commit风险，避免轨迹重构成本。训练时结合序列级重要性采样与确定性求积积分，在引入的均值保持单调递减掩码调度下优化无轨迹随机掩码目标。实验显示，在SDAR-4B上，SLIM-RL仅用TraceRL 46%训练样本即达同等最佳MATH500准确率，并在多个基准上大幅超越LLaDA-8B、Dream-7B及TraceRL，同时代码任务也表现优异。该方法在LLaDA、Dream和SDAR间可无缝迁移，降低大模型训练门槛。

AI 深度解读

背景

强化学习（RL）在扩散大语言模型（dLLMs）领域的应用长期以来主要依赖轨迹感知方法。当前最先进的方法TraceRL指出，随机掩码与模型的推理轨迹不匹配，因此通过将每个回合（rollout）切片成最多K/s个轨迹对齐的训练样本来重建轨迹，这种代价随着块大小K的增加而线性增长。

核心内容

我们证明了这种不匹配可以通过不重建轨迹的方式来缓解。我们的方法SLIM-RL为每个回合步骤的提交风险设定一个tau预算解码器，从而降低训练数据中的总体提交风险。在优化过程中，SLIM-RL在这些风险受控的回合上训练，采用无轨迹随机掩码目标，并结合序列级重要性采样和确定性四分法来降低方差。新提出的均保持、单调递减的每块掩码调度使四分法能直接应用于掩码水平。

在SDAR-4B模型上，SLIM-RL仅使用TraceRL训练样本的0.46倍（块大小为16）就实现了相同的MATH500精度。在动态采样匹配条件下，SLIM-RL在MATH500上优于TraceRL 6.32%，在GSM8K上优于6.32%。在块大小为4时，4B参数的SLIM-RL超过了更大的LLaDA-8B和Dream-7B dLLM模型在数学任务上的表现，在MATH500上超过LLaDA-8B 10.76%，同时仍低于自回归模型Qwen2.5-7B。在代码任务上，SLIM-RL在MBPP上优于TraceRL 4.20%，在HumanEval上优于3.65%。tau预算解码器可以跨LLaDA、Dream和SDAR模型无训练迁移使用。源码已公开发布。

关键要点

随机掩码与dLLM推理轨迹天然不匹配，导致TraceRL必须通过轨迹切片重建轨迹，训练成本随块大小K线性增长。
SLIM-RL通过tau预算解码器为每个回合步骤绑定提交风险上限，降低整体训练数据提交风险，实现轨迹无关优化。
引入均保持且单调递减的每块掩码调度，结合序列级重要性采样和确定性四分法，可直接在掩码水平上进行方差降低，无需轨迹重建。
在SDAR-4B上，SLIM-RL使用TraceRL仅0.46倍样本即可达到同等MATH500精度，并分别提升MATH500 6.32%、GSM8K 11.05%。
块大小4时，4B SLIM-RL数学性能超越LLaDA-8B（+10.76% MATH500），代码性能优于TraceRL（MBPP +4.20%、HumanEval +3.65%），仍低于Qwen2.5-7B。
tau预算解码器可在LLaDA、Dream、SDAR模型间零训练迁移，源码已开源。

意义与影响

SLIM-RL将扩散LLM的强化学习从轨迹重建的“成本陷阱”中解脱出来，显著降低了训练效率门槛与内存开销，使研究者能够在大规模dLLM上更快地探索更优的RL策略。其在数学和代码基准上的领先表现，以及跨模型的无训练迁移能力，标志着轨迹无关优化范式在扩散语言模型中的成熟，为后续工作提供了更轻量、更可扩展的训练范式。

查看原文 →arxiv.org

SLIM-RL: 无轨迹切片的风险预算随机掩码强化学习提升扩散大模型

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐