超越层重要性:基于层间扰动吸收视角的稀疏性研究
速览
针对大语言模型层间冗余,研究指出除局部层重要性外,网络后续的补偿能力同样关键。通过受控扰动实验发现,不同层对剪枝扰动的响应具有异质性,深层主要吸收扰动而非放大。基于此提出的吸收感知校正方法,在70%稀疏度下有效提升了模型性能。
AI 深度解读
超越层重要性:从层间扰动吸收视角看层稀疏剪枝
背景
在大语言模型(LLMs)的高效压缩领域,非均匀稀疏性分配(non-uniform sparsity allocation)已成为标准做法。这一策略的核心逻辑在于利用模型不同层级存在的显著冗余差异,对每一层分配不同的稀疏度。
现有的层稀疏性分配方法主要依赖于“局部信号”来估算分配策略,例如激活值异常值(activation outliers)或权重谱(weight spectra)。这些方法本质上是在评估局部层重要性(local layer importance),即认为某一层如果权重或激活值分布稀疏,就应当被更大幅度地剪枝。
然而,这种视角存在一个明显的盲区:它忽略了模型作为一个整体网络的后续补偿能力。最终剪枝后的模型性能,不仅取决于被剪枝层本身的“重要性”,更取决于网络中其他层能否在后续计算中吸收由剪枝引入的误差或扰动。如果仅基于局部重要性进行剪枝,可能会导致误差在深层网络中累积放大,从而损害整体性能。
核心内容
本文提出了一种全新的视角——层间扰动吸收(Inter-Layer Perturbation-Absorption),通过受控的扰动实验直接表征模型对剪枝误差的补偿能力,并据此优化稀疏性分配策略。
1. 实验发现:层级响应的异质性与吸收机制
通过对不同层施加与剪枝规模相当的扰动,研究团队观察到了以下关键现象:
-
早期层放大扰动,中后期层吸收扰动: 在大多数情况下,模型的早期层倾向于放大由剪枝引起的扰动;而中间层和后期层则表现出主动吸收扰动的能力。随着网络深度的增加,相对 L2 漂移(relative L2 drift)单调递减,且方向重新对齐至未扰动隐藏状态轨迹(unperturbed hidden-state trajectory)。这意味着深层网络具有更强的纠错和稳定能力。
-
吸收是大扰动现象: 在微小扰动下,网络所有层均表现出扰动放大效应。只有当扰动幅度增长到剪枝尺度(pruning scale)时,网络才会平滑地过渡到吸收状态。这一发现丰富了相关工作中基于线性化累积理论的理解,表明“吸收”并非线性叠加的结果,而是特定阈值下的非线性动力学行为。
2. 方法论:吸收系数与吸收感知校正
基于上述实证发现,本文提出了两个核心贡献:
-
定义吸收系数(Absorption Coefficient): 为每一层定义一个量化的“吸收系数”,用于衡量该层在面临剪枝扰动时吸收误差的能力,而非仅仅衡量其参数重要性。
-
提出吸收感知校正(Absorption-Aware Correction): 这是一种正交增强(orthogonal augmentation)方法,旨在修正仅基于局部重要性的剪枝策略。该方法不改变原有的剪枝框架,而是作为后处理或辅助校正步骤,利用吸收系数调整最终的稀疏性分配。
3. 实验结果
在 70% 的稀疏度下,将“吸收感知校正”应用于现有的主流剪枝算法(如 OWL 和 AlphaPruning),在多模型家族中取得了显著的性能提升:
- 困惑度(Perplexity)降低 7.13%:表明模型生成的文本流畅度和准确性显著提升。
- 零样本准确率(Zero-shot Accuracy)提升 1.02%:证明模型在未见任务上的泛化能力得到增强。
关键要点
- 范式转移:从关注“局部层重要性”转向关注“全局网络补偿能力”。剪枝策略不应仅看单层冗余,更应看该层误差对后续层的影响及后续层的吸收能力。
- 层级功能分化:LLM 的早期层主要起特征提取和扰动放大作用,而中后期层主要起误差吸收和轨迹校正作用。
- 非线性阈值效应:网络的吸收能力并非在所有扰动强度下都有效,仅在扰动达到剪枝尺度时才显现,这解释了为何简单的线性误差传播理论不足以指导剪枝。
- 即插即用的优化:提出的“吸收感知校正”是一种正交增强方法,可无缝集成到 OWL、AlphaPruning 等现有先进剪枝算法中,无需重新训练模型即可提升性能。
- 显著的性能增益:在保持 70% 高稀疏度的前提下,通过引入吸收视角,显著降低了困惑度并提升了零样本任务表现。
意义与影响
这项工作对大语言模型的高效部署具有重要的理论和实践意义:
- 修正剪枝理论基石:现有的层稀疏性剪枝方法大多基于局部统计特征(如激活值分布),本文通过实证研究揭示了层间动态交互(扰动吸收)的关键作用,为理解 LLM 内部误差传播机制提供了新的理论支撑。
- 提升压缩效率上限:通过利用深层网络的吸收能力,可以在不牺牲甚至提升性能的前提下,实现更激进的模型压缩。这对于资源受限环境下的 LLM 部署(如边缘计算、移动端)至关重要。
- 通用性强:由于“吸收感知校正”是正交增强方法,它不依赖于特定的模型架构或剪枝算法,具有广泛的适用性,可快速提升现有剪枝工具包的性能表现。
- 指导未来模型设计:这一发现暗示,未来的模型架构设计或预训练策略可以考虑显式地增强中后期层的误差吸收能力,从而天然地支持更高程度的稀疏化。
