技术博客arXiv cs.AI·3 小时前

联合结构剪枝与混合精度量化压缩大模型

原标题：Joint Structural Pruning and Mixed-Precision Quantization for LLM Compression

速览

针对现有大模型压缩技术中量化误差逐层优化及剪枝量化分离导致的次优问题，研究提出一种端到端联合优化框架。该框架通过最小化全局误差传播的混合精度PTQ策略，并在统一搜索空间中同步学习结构剪枝与量化策略。实验表明，在1-3比特超低位宽下，该方法在WikiText和C4数据集上的困惑度显著优于现有最先进基线。

AI 深度解读

联合结构剪枝与混合精度量化：大语言模型压缩的新范式

背景

随着大型语言模型（LLMs）在各类实际应用中的部署日益普及，其计算效率与资源消耗已成为关键瓶颈。尽管后训练量化（Post-Training Quantization, PTQ）和结构剪枝（Structural Pruning）是降低模型内存占用和推理延迟的成熟技术，但现有的主流方法仍存在显著的局限性。

目前，大多数 PTQ 方法倾向于逐层优化量化误差，这种局部视角忽视了误差在网络中累积和传播的全局效应，往往导致次优的解决方案。此外，传统的优化流程通常将剪枝和量化隔离开来，或按顺序依次执行，这种割裂的处理方式进一步加剧了性能损失，难以在极低比特（如 1-3 bits）下保持模型的推理能力。因此，亟需一种能够统一处理这两种压缩技术、并全局优化误差传播的新框架。

核心内容

本文提出了一种新颖的端到端框架，旨在解决上述局限性。该框架通过两个关键创新点实现了大语言模型的高效压缩：

首先，作者提出了一种新的混合精度后训练量化（Mixed-Precision PTQ）策略。与传统方法不同，该策略不再孤立地优化每一层的量化误差，而是直接最小化整个模型范围内的全局误差传播。这意味着量化精度的分配是基于其对整体模型性能影响的综合考量，而非单层的局部最优。

其次，基于上述量化策略，作者开发了一种联合优化方法。该方法在一个统一的搜索空间内，同时学习结构剪枝决策和混合精度量化策略。通过联合搜索，模型能够动态地决定哪些权重需要被剪枝，以及剩余权重应采用何种精度进行量化，从而在压缩率和模型精度之间找到最佳平衡点。

实验结果表明，在极低精度（1-3 bits）设置下，该方法展现了卓越的性能：

与最先进的（SoTA）权重-激活量化基线相比，该方法在 WikiText 数据集上将困惑度（Perplexity, PPL）降低了高达 21%。
与领先的仅权重量化（Weight-only）方法相比，该方法在 WikiText 和 C4 数据集上分别实现了高达 59% 和 85% 的困惑度降低。
与现有的 SoTA 联合剪枝与量化技术相比，该方法在极低比特下提供了更优的困惑度和推理性能。

关键要点

全局误差最小化：摒弃逐层优化，转而直接最小化整个模型的全局误差传播，解决了传统 PTQ 方法中误差累积导致的性能下降问题。
联合搜索空间：将结构剪枝和混合精度量化置于同一个优化框架内，同时学习两者的策略，避免了传统串行处理带来的次优解。
混合精度策略：并非所有权重都采用相同的低精度，而是根据网络结构的重要性动态分配不同的量化精度，以保留关键信息。
极致的压缩效果：在 1-3 bits 的极端低精度条件下，依然能保持极高的模型质量，显著优于现有的单独量化或联合压缩技术。
广泛的性能提升：在 WikiText 和 C4 等基准测试中，相比 SoTA 基线，困惑度大幅降低，证明了该方法在通用语言建模和推理任务中的有效性。

意义与影响

这项研究为大语言模型的边缘部署和低成本推理提供了强有力的技术支撑。通过联合优化剪枝和量化，该方法不仅大幅降低了模型的存储需求和计算开销，还最大限度地保留了模型的语义理解和推理能力。

对于工业界而言，这意味着可以在资源受限的设备（如移动端、边缘服务器）上运行更强大的语言模型，或者在同等硬件条件下支持更高并发和更低延迟的服务。对于学术界而言，该框架提供了一种新的思路，即通过端到端的联合优化来打破传统压缩技术之间的壁垒，为后续研究如何更高效地压缩深度学习模型开辟了新的方向。随着模型规模不断膨胀，此类高效压缩技术将成为实现 AI 普惠化的关键基础设施。

查看原文 →arxiv.org