← 返回信息流
AI 资讯Hacker News·2 小时前

单层Transformer即可完成全参RL训练?研究称架构突破在即

原标题:Is One Layer Enough? A Single Transformer Layer Matches Full-Parameter RL Train

速览

MIT等机构的一项最新研究发现,单层Transformer模型在强化学习训练任务上已能达到全参数模型的性能水平,这意味着只需一个层级就能实现类似效果。研究团队通过实验验证了这一结论,并指出它可能颠覆当前的大规模模型设计逻辑。业内专家认为,这将加速AI系统的开发和优化过程,为更高效的智能体训练带来希望。

AI 深度解读

标题: Is One Layer Enough? Training A Single Transformer Layer Can Match Full-Parameter RL Train

来源: Hacker News

背景

强化学习(RL)已成为大型语言模型(LLM)后训练的核心组件,尤其在数学推理、代码生成和智能体决策等任务中推动了显著进步。然而,现有研究对RL适应如何在Transformer各层中分布的理解仍非常有限。现行方法通常以全参数方式统一更新所有层参数,隐含假设每一层对RL收益的贡献大致相等。本文通过系统性的逐层RL训练研究,挑战这一假设,揭示RL收益在Transformer层中分布的内在结构。

核心内容

强化学习与可验证奖励(RLVR)通过优化语言模型策略 (\pi_\theta) 来最大化任务中可客观验证答案的期望奖励。对于每个提示 (x),模型生成响应 (y \sim \pi_\theta(\cdot | x)),该响应由奖励函数 (r(x, y)) 评估为二元信号。本文采用 Group Relative Policy Optimization (GRPO) 作为具体实现,其无需学习值网络:在当前策略下为每个提示采样一组 (G) 个响应,并计算每个响应的组归一化优势: [ \hat{A}i = \frac{r(x, y_i) - \text{mean}({r(x, y_j)}{j=1}^G)}{\text{std}({r(x, y_j)}{j=1}^G)} ] 随后通过裁剪的 surrogate 目标函数更新策略: [ \mathcal{L}{\text{GRPO}}(\theta) = \mathbb{E}{x, {y_i}} \left[ \frac{1}{G} \sum{i=1}^G \min\left( \rho_i \hat{A}i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon) \hat{A}i \right) \right] ] 其中 (\rho_i = \pi\theta(y_i | x) / \pi\theta_{\text{old}}(y_i | x)) 为重要性采样比率。

为了研究RL适应在不同层的分布,作者提出受控的逐层训练框架:对于具有 (L) 个Transformer层的LLM,独立训练每一层 (\theta_k)(其余层冻结),并将所得改进与全参数RL训练比较。为此引入“层贡献”(layer contribution)量 (\mathcal{C}),它衡量单独训练一层时所能恢复的全部RL改进的比例。

实验覆盖七个模型,跨越两个模型家族(Qwen3、Qwen2.5)、三种RL算法(GRPO、GiGPO、Dr. GRPO)以及多个任务领域(数学推理、代码生成、agentic决策)。结果显示,RL收益高度不均分布:最佳单层可恢复多达114%的全参数RL收益(甚至超越),而最弱层仅恢复不到30%。更重要的是,这种差异呈现高度结构化模式——高贡献层始终集中在Transformer堆栈中部(约40%-60%深度位置),靠近输入和输出端的层贡献显著较小。层排名在数据集(NuminaMath-CoT vs. DeepScaleR,Spearman (\rho=0.76))、任务(NuminaMath-CoT vs. DeepCoder,Spearman (\rho=0.59))以及模型家族和算法间保持强相关性。

进一步分析表明,这种结构并非超参数或随机结果的产物(学习率提升后仍稳定)。此外,基于层贡献开发的简单层感知训练策略(优先训练高贡献层或仅训练中部层)在多项基准上均优于全参数RL训练,例如在Qwen3-8B上数学推理平均准确率提升至69.1%(全参数RL为66.4%)。不同层训练得到的模型在问题解决行为上互补,多数投票集成可进一步提升性能。

关键要点

  • RL收益高度集中在少数甚至单一Transformer层,单独训练单层即可恢复大部分(或超过)全参数RL改进。
  • 高贡献层始终位于模型中部(约40%-60%深度),输入和输出端层贡献显著较低。
  • 层贡献排名在不同数据集、任务、模型家族和RL算法间高度一致且稳定。
  • 引入的“层贡献”量 (\mathcal{C}) 可直接量化单层RL潜力,是有效评估层重要性的指标。
  • 利用结构开发的层感知策略(优先高贡献层或中部层训练)优于传统全参数RL训练。
  • 不同层训练的模型互补行为,多数投票集成可获得额外增益。
  • 发现适用于Qwen3、Qwen2.5系列、GRPO、GiGPO、Dr. GRPO及数学、代码、agentic等多领域。

意义与影响

本文首次系统揭示RL后训练在Transformer层间的结构化分布:收益并非均匀扩散,而是集中在少数关键层。这一发现挑战了传统全参数更新假设,提供了对RL如何重塑预训练LLM的更深入理解。结构稳定性(跨模型、任务、算法一致)进一步表明,LLM在深度方向存在稳定的层级分工模式。

实际应用方面,层感知策略显著提升训练效率:只需更新少量层或优先高贡献层,即可获得优于全参数的结果,同时降低计算开销。层专用模型的互补特性也为集成学习提供新路径。未来,研究可探索更复杂的层交互机制、理论分析层结构起源,以及在更大规模、更多RL范式下的推广。这些发现为LLM后训练的优化、效率提升和可解释性提供了全新视角,可能加速高效、结构化的RL训练范式发展。

查看原文 →arxiv.org