SLIM-RL: 无轨迹切片的风险预算随机掩码强化学习提升扩散大模型
速览
SLIM-RL针对轨迹感知型训练方法的不足,提出风险预算化随机掩码方法,采用tau预算解码器控制每步commit风险,避免轨迹重构成本。训练时结合序列级重要性采样与确定性求积积分,在引入的均值保持单调递减掩码调度下优化无轨迹随机掩码目标。实验显示,在SDAR-4B上,SLIM-RL仅用TraceRL 46%训练样本即达同等最佳MATH500准确率,并在多个基准上大幅超越LLaDA-8B、Dream-7B及TraceRL,同时代码任务也表现优异。该方法在LLaDA、Dream和SDAR间可无缝迁移,降低大模型训练门槛。
AI 深度解读
背景
强化学习(RL)在扩散大语言模型(dLLMs)领域的应用长期以来主要依赖轨迹感知方法。当前最先进的方法TraceRL指出,随机掩码与模型的推理轨迹不匹配,因此通过将每个回合(rollout)切片成最多K/s个轨迹对齐的训练样本来重建轨迹,这种代价随着块大小K的增加而线性增长。
核心内容
我们证明了这种不匹配可以通过不重建轨迹的方式来缓解。我们的方法SLIM-RL为每个回合步骤的提交风险设定一个tau预算解码器,从而降低训练数据中的总体提交风险。在优化过程中,SLIM-RL在这些风险受控的回合上训练,采用无轨迹随机掩码目标,并结合序列级重要性采样和确定性四分法来降低方差。新提出的均保持、单调递减的每块掩码调度使四分法能直接应用于掩码水平。
在SDAR-4B模型上,SLIM-RL仅使用TraceRL训练样本的0.46倍(块大小为16)就实现了相同的MATH500精度。在动态采样匹配条件下,SLIM-RL在MATH500上优于TraceRL 6.32%,在GSM8K上优于6.32%。在块大小为4时,4B参数的SLIM-RL超过了更大的LLaDA-8B和Dream-7B dLLM模型在数学任务上的表现,在MATH500上超过LLaDA-8B 10.76%,同时仍低于自回归模型Qwen2.5-7B。在代码任务上,SLIM-RL在MBPP上优于TraceRL 4.20%,在HumanEval上优于3.65%。tau预算解码器可以跨LLaDA、Dream和SDAR模型无训练迁移使用。源码已公开发布。
关键要点
- 随机掩码与dLLM推理轨迹天然不匹配,导致TraceRL必须通过轨迹切片重建轨迹,训练成本随块大小K线性增长。
- SLIM-RL通过tau预算解码器为每个回合步骤绑定提交风险上限,降低整体训练数据提交风险,实现轨迹无关优化。
- 引入均保持且单调递减的每块掩码调度,结合序列级重要性采样和确定性四分法,可直接在掩码水平上进行方差降低,无需轨迹重建。
- 在SDAR-4B上,SLIM-RL使用TraceRL仅0.46倍样本即可达到同等MATH500精度,并分别提升MATH500 6.32%、GSM8K 11.05%。
- 块大小4时,4B SLIM-RL数学性能超越LLaDA-8B(+10.76% MATH500),代码性能优于TraceRL(MBPP +4.20%、HumanEval +3.65%),仍低于Qwen2.5-7B。
- tau预算解码器可在LLaDA、Dream、SDAR模型间零训练迁移,源码已开源。
意义与影响
SLIM-RL将扩散LLM的强化学习从轨迹重建的“成本陷阱”中解脱出来,显著降低了训练效率门槛与内存开销,使研究者能够在大规模dLLM上更快地探索更优的RL策略。其在数学和代码基准上的领先表现,以及跨模型的无训练迁移能力,标志着轨迹无关优化范式在扩散语言模型中的成熟,为后续工作提供了更轻量、更可扩展的训练范式。
