技术博客arXiv cs.CL·4 小时前

校准引导LLM压缩中输出空间分配成本的实证研究

原标题：Output-Space Allocation Costs for Calibration-Guided LLM Compression: An Empirical Study

速览

该研究探讨了在ROCKET等无训练压缩方法中，将分配成本与输出空间重建目标对齐的效果。实验显示，在Qwen3-8B模型上，该方法虽提升了零样本基准准确率，却显著增加了WikiText困惑度，揭示了不同目标对下游指标的影响差异。由于权重空间与输出空间误差高度相关，分配策略的改进效果有限。

AI 深度解读

Output-Space Allocation Costs for Calibration-Guided LLM Compression: An Empirical Study

背景

大型语言模型（LLMs）的压缩技术对于降低部署成本和提升推理效率至关重要。在无需重新训练（Training-free）的压缩方法中，校准数据（Calibration Data）常被用来指导压缩决策，以评估模型各层或各组件在压缩后的性能损失。

ROCKET 是一种近期提出的压缩方法，它结合了稀疏字典分解（Sparse-Dictionary Factorization）与多选择背包问题（Multi-choice Knapsack Problem, MCKP）的资源分配策略。ROCKET 的核心逻辑在于：

分解目标：其每层的因子分解是基于输出空间的重建目标（Output Reconstruction Objective）推导出来的，旨在最小化模型输出与原始输出的差异。
分配成本：然而，在执行 MCKP 资源分配时，它使用的是权重空间的 Frobenius 误差（Weight-Space Frobenius Error）作为代价函数（Cost Function）。

这种“目标”与“代价”在空间上的不一致（即一个在输出空间，一个在权重空间）引发了一个关键的研究问题：如果将分配代价与输出空间的目标对齐，是否能提高压缩模型的保真度？

核心内容

本研究通过实证分析，探讨了在 ROCKET 框架中，将 MCKP 的分配代价从权重空间误差调整为输出空间误差（即本文提出的 ROCKET-ActCost 方法）对压缩模型性能的影响。研究主要关注精度（Accuracy）与困惑度（Perplexity, PPL）之间的权衡，并分析了不同压缩比率下的效果差异。

1. Qwen3-8B 模型实验结果（50% 压缩率）

在 Qwen3-8B 模型上进行 50% 压缩率的测试，对比了原始 ROCKET 方法与新的 ROCKET-ActCost 方法：

零样本基准测试精度：ROCKET-ActCost 在 8 个零样本基准测试上的平均准确率提升了 0.8 个百分点（53.1% vs 原始方法的 52.3%）。这表明在任务导向的离散指标上，输出空间代价确实带来了性能增益。
WikiText 困惑度：然而，在 WikiText 数据集上，ROCKET-ActCost 的困惑度增加了 16%（61.46 vs 原始方法的 52.98）。困惑度的显著恶化表明模型在语言建模的连续性指标上表现下降。

这一结果揭示了一个关键的精度-困惑度权衡（Accuracy-PPL Tradeoff）：不同的分配目标倾向于优化不同的下游指标。输出空间代价更有利于分类或判别性任务（如零样本基准），但可能损害生成任务的流畅性或概率校准（如 WikiText PPL）。

2. 误差相关性分析

研究进一步分析了权重空间误差与输出空间误差之间的关系。发现两者之间存在极高的相关性（相关系数 > 0.99）。

解释：这种高度的相关性限制了分配策略的分歧（Allocation Divergence）。也就是说，无论使用哪种误差作为代价，MCKP 算法选出的“最优”组件组合往往是非常相似的。
结论：这解释了为什么尽管目标函数不同，但整体性能提升幅度有限（Modest Effect Size）。因为代价函数本身并没有提供足够多的差异化信息来引导模型走向完全不同的结构配置。

3. Llama-3.2-1B 模型实验结果（20% 压缩率）

为了验证压缩率对结果的影响，研究在 Llama-3.2-1B 模型上进行了 20% 压缩率的测试：

结果一致性：两种方法产生的结果几乎完全相同。
- 准确率：53.3% vs 53.5%
- 困惑度（PPL）：14.45 vs 14.66
结论：在较低的压缩比率下，代价函数的选择对最终性能的影响微乎其微。这暗示在高压缩率（信息瓶颈更紧）的情况下，代价函数的细微差别才更有可能产生可观测的影响，但在本研究的 50% 压缩率下，这种影响依然受到误差高相关性的制约。

关键要点

目标与代价的对齐尝试：研究提出并验证了将 MCKP 分配代价从权重空间 Frobenius 误差改为输出空间误差（ROCKET-ActCost）的可行性。
性能权衡现象：
- 在 Qwen3-8B（50% 压缩）下，ROCKET-ActCost 提升了零样本基准准确率（+0.8%），但显著增加了 WikiText 困惑度（+16%）。
- 这表明优化输出空间代价有助于判别性任务，但可能损害生成质量。
高误差相关性限制效果：权重空间误差与输出空间误差的相关性超过 0.99，导致两种分配策略的选择高度重合，从而限制了性能提升的幅度。
压缩率的影响：在 Llama-3.2-1B（20% 压缩）的低压缩率场景下，两种方法的性能差异可以忽略不计，说明代价函数的影响在低压缩比下并不显著。
实证结论：虽然理论上对齐目标与代价可能有益，但由于底层误差的高度相关性，实际增益有限且存在指标间的权衡。

意义与影响

这项研究为理解基于校准的 LLM 压缩方法提供了重要的实证见解：

挑战直觉假设：通常认为，如果分解目标是在输出空间定义的，那么分配代价也应在输出空间定义以保持一致性。本研究证实了这种直觉在提升整体保真度方面效果有限，因为权重空间和输出空间的误差在统计上高度耦合。
指导压缩策略选择：对于应用开发者而言，如果下游任务更关注分类或判别性准确率（如零样本基准），使用输出空间代价可能略有优势；但如果关注语言建模质量（如 PPL），则需谨慎权衡，因为可能会带来显著的 PPL 恶化。
未来研究方向：由于高相关性限制了分配分歧，未来的研究可能需要探索能够打破这种相关性的新指标，或者在更极端的压缩率下测试此类方法，以寻找更大的性能优化空间。此外，如何独立优化精度和困惑度，避免此消彼长的权衡，仍是压缩领域的一个开放问题。

查看原文 →arxiv.org