技术博客arXiv cs.CL·3 小时前

Intel发布CAT-Q：高效精准的LLM三元量化方案

原标题：CAT-Q: Cost-efficient and Accurate Ternary Quantization for LLMs

速览

Intel发布了CAT-Q，一种用于压缩和加速大语言模型的高效三元量化方案。该方法采用可学习调制和软化三元化技术，仅需512个校准样本即可实现高精度量化，无需昂贵的量化感知训练。实验表明，CAT-Q在1.7B至235B参数规模的模型上均表现优异，训练Token消耗较BitNet减少约10万倍，显著降低了大模型部署成本。

AI 深度解读

CAT-Q：面向大语言模型的高效且高精度的三元量化方案

背景

随着大语言模型（LLMs）参数规模的爆炸式增长，如何在不显著牺牲性能的前提下压缩模型并加速推理，成为工业界和学术界共同面临的挑战。量化（Quantization）技术通过将高精度的浮点权重转换为低比特格式，从而减少内存占用并提升计算效率，是模型部署的关键环节。

在众多量化策略中，三元量化（Ternary Quantization，即权重仅取 -1, 0, 1 或类似三个值）因其极致的压缩率而备受关注。然而，现有的最先进三元量化方法通常存在一个巨大的痛点：它们严重依赖数据密集且成本高昂的量化感知训练（Quantization-Aware Training, QAT）。这种训练方式需要大量的计算资源和标记数据（tokens），导致许多研究人员和开发者望而却步，尤其是在面对拥有数十亿甚至数千亿参数的大型预训练模型时。

此外，现有的后训练量化（Post-Training Quantization, PTQ）方法在处理三元量化时，往往难以缓解因量化带来的严重性能下降问题。因此，开发一种既简单有效、又无需大规模重新训练，且能保持高精度的三元量化方案，具有极高的研究价值和实际应用意义。

核心内容

本文提出了 CAT-Q（Cost-efficient and Accurate Ternary Quantization，高效且高精度的三元量化），这是一种专为压缩和加速 LLMs 设计的后训练量化方案。与依赖昂贵 QAT 的现有方法不同，CAT-Q 能够直接应用于具有不同架构和模型规模的预训练 LLMs，无需重新训练即可实现高效的三元量化。

CAT-Q 的核心创新在于两个关键组件的耦合优化：可学习调制（Learnable Modulation, LM） 和 软化三元化（Softened Ternarization, ST）。

1. 可学习调制 (LM)

LM 组件通过组合一系列可学习的因子，对预训练高精度权重的分布以及三元阈值进行调制。其目的是使权重分布和阈值对三元化过程不那么敏感。简单来说，LM 通过调整权重的统计特性，使得将连续权重映射到离散的三元值（-1, 0, 1）时，信息损失最小化。

2. 软化三元化 (ST)

ST 组件引入了一个可微分的过渡函数（differentiable transition function）。在传统的三元化过程中，从浮点到整数的映射通常是不可微的，这阻碍了基于梯度的优化。ST 通过引入平滑的过渡函数，引导三元化过程向稳定的收敛状态发展，从而在优化过程中更准确地逼近理想的三元权重分布。

3. 实验结果与性能优势

CAT-Q 在多个维度上展现了显著优势：

极低的校准数据需求：对于参数规模在 1.7B 到 8B 之间的预训练 LLMs，CAT-Q 仅需 512 个校准样本 即可将其高效量化为三元模型。
超越 BitNet 的性能：在性能表现上，CAT-Q 优于开创性的 BitNet 1.58-bit v1 和 v2 系列模型（参数规模 1.3B 到 7B）。值得注意的是，BitNet 系列模型是在 100B tokens 的数据上经过训练得到的，而 CAT-Q 无需训练，仅靠后处理即可达到甚至超越其性能。这意味着 CAT-Q 节省了约 100,000 倍 的训练 token 成本。
大规模模型的可扩展性：这是首次展示 CAT-Q 能够量化更大规模的预训练 LLMs。对于参数规模在 14B 到 235B 之间的大型模型，CAT-Q 能够在 8 到 60 小时 内（使用 8 块 A100-80GB GPU），将其量化为领先的三元模型。

关键要点

无需重新训练：CAT-Q 是一种后训练量化（PTQ）方案，直接应用于预训练模型，避免了量化感知训练（QAT）所需的高昂计算成本和大量数据。
双组件耦合优化：通过结合“可学习调制（LM）”和“软化三元化（ST）”，从优化角度解决了三元量化中权重分布敏感性和收敛不稳定的问题。
极低的数据依赖：仅需 512 个校准样本即可完成 1.7B-8B 规模模型的量化校准，极大地降低了数据准备门槛。
性能超越 BitNet：在 1.7B-8B 参数范围内，CAT-Q 的性能优于经过 100B tokens 训练的 BitNet 1.58-bit 模型，实现了约 100,000 倍的训练效率提升。
支持超大模型量化：成功将 14B 至 235B 参数的大模型量化为三元模型，证明了该方法在超大规模模型上的可扩展性。
硬件友好：在 8 块 A100-80GB GPU 上，量化 14B-235B 模型仅需 8-60 小时，具备实际落地可行性。

意义与影响

CAT-Q 的提出填补了高效三元量化领域的一个重要空白。长期以来，三元量化虽然理论上具有极高的压缩潜力，但由于对训练数据和计算资源的极高要求，一直难以在大规模预训练模型中普及。CAT-Q 通过创新的 PTQ 方法，打破了这一瓶颈。

首先，大幅降低了部署门槛。对于拥有 14B 到 235B 参数的大型模型，以往进行三元量化几乎是不切实际的，因为重新训练的成本过高。CAT-Q 使得即使是资源有限的团队，也能通过相对较短的时间（几小时到几天）和少量的校准数据，将超大模型转化为高效的三元模型。

其次，提升了推理效率与经济性。三元量化将权重简化为极少数的离散值，这不仅减少了内存带宽需求，还允许使用专门的硬件加速指令进行极速推理。结合 CAT-Q 的高精度保持能力，这意味着用户可以在几乎不损失模型智能的情况下，显著降低推理延迟和硬件成本。

最后，推动了模型轻量化技术的发展。CAT-Q 证明了通过巧妙的优化技巧（如可学习调制和软化过渡），可以在不改变模型架构和预训练权重的情况下，实现极致的量化效果。这为后续研究其他低比特量化方法（如二值量化、四值量化等）提供了新的思路，即通过优化后训练过程中的分布适配，而非依赖大规模重训练，来实现模型压缩。

随着开源代码的发布，CAT-Q 有望成为大模型部署和优化领域的一个基准工具，加速 AI 应用从云端向边缘端、从高性能服务器向消费级设备的普及。

查看原文 →arxiv.org