SAGE-PTQ:图引导超低比特量化大幅降低大模型部署成本
原标题:Minimizing the Hidden Cost of Scales: Graph-Guided Ultra-Low-Bit Quantization for Large Language Models
速览
SAGE-PTQ是一种针对大语言模型的超低比特后训练量化框架,旨在最小化扩展的隐藏成本。该方法利用分布统计分离显著权重,并通过稀疏图模型优化分组,对显著权重采用多位精度,对非显著权重进行二值化。实验显示,该方法在LLaMA-3-8B上显著降低困惑度并节省一半以上GPU内存,在LLaMA-2-70B上实现1.5倍解码加速。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
