技术博客arXiv cs.AI·3 小时前

量化推理模型引发Token通胀：低比特推理的隐藏成本

原标题：Quantization Inflates Reasoning: Token Inflation as a Hidden Cost of Low-Bit Reasoning Models

速览

研究发现低比特后训练量化在保持大模型推理准确率的同时，会显著增加思维链长度，产生隐藏的测试时计算成本。这种Token通胀伴随中间步骤增多和语义重复，导致端到端服务性能下降。研究建议评估量化推理模型时，除准确率外还应报告推理Token使用情况。

AI 深度解读

量化膨胀推理：低比特推理模型的隐藏成本——Token 通胀

背景

随着大语言模型（LLM）在推理任务（如数学解题、代码生成、科学问答及智能体工具使用）中的广泛应用，模型的计算成本和部署延迟成为制约其落地的关键瓶颈。量化（Quantization），特别是将模型权重从全精度（如 FP16/BF16）降低到低比特（如 INT4/INT3），被广泛视为降低推理成本、提升吞吐量的有效手段。

然而，现有的评估体系往往过于关注最终答案的准确率（Accuracy）或单个 Token 的生成延迟（Per-token latency）。这种评估视角忽略了一个关键现象：量化不仅影响模型的数值精度，还可能改变模型的推理行为模式。特别是对于依赖“思维链”（Chain of Thought, CoT）的推理模型，量化是否会导致模型在生成正确结果的同时，产生更长、更冗余的推理过程，从而抵消量化带来的速度优势，目前尚缺乏系统的量化研究和深入理解。

核心内容

本文深入探讨了低比特后训练量化（Post-training Quantization, PTQ）对推理模型产生的隐性计算成本，即“Token 通胀”（Token Inflation）。研究指出，虽然量化模型在保持最终答案准确率的同时，往往会生成更长的思维链，这种长度的增加直接导致了测试时计算量（Test-time Compute）的上升，进而抵消了预期的每 Token 速度提升。

1. 现象发现：量化导致推理长度增加

研究人员在多个基准测试中观察到了这一现象，涵盖数学推理、代码生成、科学问答以及智能体工具使用（Agentic Tool-use）。实验结果显示，经过 INT4 或 INT3 量化后的推理模型，即便在最终答案正确的情况下，其生成的思维链长度也显著高于全精度模型。这意味着，虽然模型“算对了”，但它花了更多的“步数”才到达终点。

2. 量化指标：CoT Token Inflation Ratio

为了量化这一效应，本文引入了 CoT Token Inflation Ratio（思维链 Token 通胀比率）。该指标通过比较量化模型与全精度模型在所有评估基准上的平均推理长度来衡量通胀程度。研究发现，这种通胀并非偶然，而是量化带来的系统性偏差。

3. 行为分析：推理轨迹的结构性变化

Token 通胀并非简单的随机冗余，而是伴随着推理轨迹（Reasoning Trace）的行为变化：

中间步骤增多：量化模型倾向于分解出更多细碎的中间步骤。
语义重复增加：模型在推理过程中出现更多的语义重复和循环论证，导致信息密度降低。这些变化使得推理过程变得冗长且低效。

4. 实际影响：端到端服务惩罚

Token 通胀直接转化为可测量的端到端（End-to-End）服务惩罚。尽管单个 Token 的生成速度可能因量化而加快，但由于总 Token 数量的大幅增加，整体推理耗时并未如预期般缩短，甚至在某些场景下反而增加。这揭示了仅关注单 Token 延迟的局限性。

5. 缓解策略评估

研究进一步评估了多种缓解策略的效果：

提示工程（Prompting）与解码时采样（Decoding-time Sampling）：这两种方法在准确率与推理长度之间的权衡上表现不一致，无法稳定地解决通胀问题。
量化感知训练（Quantization-Aware Training, QAT）：相比之下，QAT 在减少准确率下降和抑制 Token 通胀方面展现出更大的潜力。通过让模型在训练阶段适应量化的噪声，QAT 能够引导模型生成更紧凑、更高效的推理路径。

关键要点

隐性成本揭示：低比特量化（INT4/INT3）在推理模型中引入了“测试时计算成本”的隐藏代价，即 Token 通胀。
准确率与效率的背离：量化模型可能保持高准确率，但通过生成更长的思维链来实现，从而抵消了量化带来的单 Token 速度优势。
新评估指标：提出 CoT Token Inflation Ratio，用于量化比较量化模型与全精度模型的推理长度差异。
行为特征：量化导致的推理膨胀表现为中间步骤增多和语义重复增加，而非单纯的随机噪声。
服务性能影响：Token 通胀导致端到端推理延迟增加，形成实际的服务性能惩罚。
最佳实践建议：
- 在评估量化推理模型时，应同时报告准确率与推理 Token 使用量。
- 提示工程和解码采样策略效果不稳定。
- 量化感知训练（QAT） 是减少准确率下降和 Token 通胀的有效途径。

意义与影响

这项研究对大语言模型的部署和优化具有深远的影响。首先，它挑战了业界普遍认为“量化仅影响精度，不影响推理长度”的假设，指出在推理密集型任务中，推理长度本身就是一个关键的优化目标。

其次，对于模型服务提供商和开发者而言，仅关注单 Token 延迟或最终准确率可能导致错误的性能评估。如果忽略 Token 通胀，实际部署中的计算成本和响应时间可能远高于预期。因此，建立包含推理长度、Token 效率在内的多维评估体系变得至关重要。

最后，研究结果指向了 量化感知训练（QAT） 作为解决这一问题的关键路径。这表明，简单的后训练量化（PTQ）可能不足以应对推理模型的复杂性，需要在训练阶段就引入对推理效率的约束。未来，针对推理模型的量化算法设计，应更加注重压缩推理路径，而不仅仅是压缩权重数值，这将有助于推动高效、低延迟的推理模型在实际生产环境中的大规模应用。

查看原文 →arxiv.org