技术博客arXiv cs.AI·3 小时前

SAGE-PTQ：图引导超低比特量化大幅降低大模型部署成本

原标题：Minimizing the Hidden Cost of Scales: Graph-Guided Ultra-Low-Bit Quantization for Large Language Models

速览

SAGE-PTQ是一种针对大语言模型的超低比特后训练量化框架，旨在最小化扩展的隐藏成本。该方法利用分布统计分离显著权重，并通过稀疏图模型优化分组，对显著权重采用多位精度，对非显著权重进行二值化。实验显示，该方法在LLaMA-3-8B上显著降低困惑度并节省一半以上GPU内存，在LLaMA-2-70B上实现1.5倍解码加速。

AI 深度解读

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）

查看原文 →arxiv.org

SAGE-PTQ：图引导超低比特量化大幅降低大模型部署成本

速览

AI 深度解读

相关推荐