AI 资讯Hacker News·2 小时前

单层Transformer即可完成全参RL训练？研究称架构突破在即

原标题：Is One Layer Enough? A Single Transformer Layer Matches Full-Parameter RL Train

速览

MIT等机构的一项最新研究发现，单层Transformer模型在强化学习训练任务上已能达到全参数模型的性能水平，这意味着只需一个层级就能实现类似效果。研究团队通过实验验证了这一结论，并指出它可能颠覆当前的大规模模型设计逻辑。业内专家认为，这将加速AI系统的开发和优化过程，为更高效的智能体训练带来希望。

AI 深度解读

标题： Is One Layer Enough? Training A Single Transformer Layer Can Match Full-Parameter RL Train

来源： Hacker News

背景

强化学习（RL）已成为大型语言模型（LLM）后训练的核心组件，尤其在数学推理、代码生成和智能体决策等任务中推动了显著进步。然而，现有研究对RL适应如何在Transformer各层中分布的理解仍非常有限。现行方法通常以全参数方式统一更新所有层参数，隐含假设每一层对RL收益的贡献大致相等。本文通过系统性的逐层RL训练研究，挑战这一假设，揭示RL收益在Transformer层中分布的内在结构。

核心内容

强化学习与可验证奖励（RLVR）通过优化语言模型策略 (\pi_\theta) 来最大化任务中可客观验证答案的期望奖励。对于每个提示 (x)，模型生成响应 (y \sim \pi_\theta(\cdot | x))，该响应由奖励函数 (r(x, y)) 评估为二元信号。本文采用 Group Relative Policy Optimization (GRPO) 作为具体实现，其无需学习值网络：在当前策略下为每个提示采样一组 (G) 个响应，并计算每个响应的组归一化优势： [ \hat{A}i = \frac{r(x, y_i) - \text{mean}({r(x, y_j)}{j=1}^G)}{\text{std}({r(x, y_j)}{j=1}^G)} ] 随后通过裁剪的 surrogate 目标函数更新策略： [ \mathcal{L}{\text{GRPO}}(\theta) = \mathbb{E}{x, {y_i}} \left[ \frac{1}{G} \sum{i=1}^G \min\left( \rho_i \hat{A}i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon) \hat{A}i \right) \right] ] 其中 (\rho_i = \pi\theta(y_i | x) / \pi\theta_{\text{old}}(y_i | x)) 为重要性采样比率。

为了研究RL适应在不同层的分布，作者提出受控的逐层训练框架：对于具有 (L) 个Transformer层的LLM，独立训练每一层 (\theta_k)（其余层冻结），并将所得改进与全参数RL训练比较。为此引入“层贡献”（layer contribution）量 (\mathcal{C})，它衡量单独训练一层时所能恢复的全部RL改进的比例。

实验覆盖七个模型，跨越两个模型家族（Qwen3、Qwen2.5）、三种RL算法（GRPO、GiGPO、Dr. GRPO）以及多个任务领域（数学推理、代码生成、agentic决策）。结果显示，RL收益高度不均分布：最佳单层可恢复多达114%的全参数RL收益（甚至超越），而最弱层仅恢复不到30%。更重要的是，这种差异呈现高度结构化模式——高贡献层始终集中在Transformer堆栈中部（约40%-60%深度位置），靠近输入和输出端的层贡献显著较小。层排名在数据集（NuminaMath-CoT vs. DeepScaleR，Spearman (\rho=0.76)）、任务（NuminaMath-CoT vs. DeepCoder，Spearman (\rho=0.59)）以及模型家族和算法间保持强相关性。

进一步分析表明，这种结构并非超参数或随机结果的产物（学习率提升后仍稳定）。此外，基于层贡献开发的简单层感知训练策略（优先训练高贡献层或仅训练中部层）在多项基准上均优于全参数RL训练，例如在Qwen3-8B上数学推理平均准确率提升至69.1%（全参数RL为66.4%）。不同层训练得到的模型在问题解决行为上互补，多数投票集成可进一步提升性能。

关键要点

RL收益高度集中在少数甚至单一Transformer层，单独训练单层即可恢复大部分（或超过）全参数RL改进。
高贡献层始终位于模型中部（约40%-60%深度），输入和输出端层贡献显著较低。
层贡献排名在不同数据集、任务、模型家族和RL算法间高度一致且稳定。
引入的“层贡献”量 (\mathcal{C}) 可直接量化单层RL潜力，是有效评估层重要性的指标。
利用结构开发的层感知策略（优先高贡献层或中部层训练）优于传统全参数RL训练。
不同层训练的模型互补行为，多数投票集成可获得额外增益。
发现适用于Qwen3、Qwen2.5系列、GRPO、GiGPO、Dr. GRPO及数学、代码、agentic等多领域。

意义与影响

本文首次系统揭示RL后训练在Transformer层间的结构化分布：收益并非均匀扩散，而是集中在少数关键层。这一发现挑战了传统全参数更新假设，提供了对RL如何重塑预训练LLM的更深入理解。结构稳定性（跨模型、任务、算法一致）进一步表明，LLM在深度方向存在稳定的层级分工模式。

实际应用方面，层感知策略显著提升训练效率：只需更新少量层或优先高贡献层，即可获得优于全参数的结果，同时降低计算开销。层专用模型的互补特性也为集成学习提供新路径。未来，研究可探索更复杂的层交互机制、理论分析层结构起源，以及在更大规模、更多RL范式下的推广。这些发现为LLM后训练的优化、效率提升和可解释性提供了全新视角，可能加速高效、结构化的RL训练范式发展。

查看原文 →arxiv.org

单层Transformer即可完成全参RL训练？研究称架构突破在即

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐