技术博客arXiv cs.CL·1 小时前

大模型压缩输入输出：省成本还是增开销？

原标题：CAVEWOMAN: How Large Language Models Behave Under Linguistic Input and Output Compression

速览

CAVEWAN协议评估了语言压缩对大模型的影响。结果显示，压缩输出能显著降低API和开源模型成本，但压缩输入会导致准确率下降且总成本上升。此外，压缩后的文本表面形式常偏离模型原始生成内容。

AI 深度解读

CAVEWOMAN：大语言模型在语言输入与输出压缩下的行为研究

背景

在利用大语言模型（LLM）进行推理时，降低计算成本一直是业界关注的核心议题。Token 消耗直接决定了 API 调用的费用以及本地部署的硬件开销。为了应对这一挑战，一种被称为“Caveman”（穴居人风格）的提示工程技巧在开发者社区中广泛流传。这种风格主张用户通过“简短说话、省略语法、节省 Token”的方式与模型交互，旨在通过压缩输入端的语言复杂度来减少推理成本。

然而，这种直觉性的优化策略是否真的有效？现有的讨论往往缺乏系统性的实证支持，且大多只关注单一维度（如仅看输入或仅看输出）。事实上，语言压缩可能同时作用于两个通道：用户的提示（Input）和模型的响应（Output）。如果压缩导致模型为了弥补信息缺失而生成更长的回答，或者导致准确率大幅下降从而需要多次重试，那么所谓的“节省”可能反而变成成本的增加。

基于此，本研究提出了一种名为 CAVEWOMAN 的双通道评估协议，旨在全面量化语言压缩对 LLM 在任务准确性、实际成本以及与无约束参考文本一致性方面的影响。

核心内容

1. 研究方法与评估协议

研究者设计了 CAVEWOMAN 协议，对八个不同的语言模型在五个数据集上进行了评估。实验设置了五个不同程度的压缩级别，并同时对输入通道（用户提示）和输出通道（模型响应）进行测量。评估指标包括：

任务准确性（Task Accuracy）：模型回答是否正确。
实际每项成本（Realized Per-Item Cost）：考虑输入和输出 Token 总数后的实际费用。
参考文本一致性（Reference-Text Agreement）：模型生成的文本与模型在无约束情况下的基线生成文本之间的语义一致性。

2. 输出压缩：显著降低成本

研究结果显示，对模型输出进行压缩（即要求模型生成简短、无语法结构的回答）是有效的成本优化手段。

商业 API 模型：在大多数 API 模型中，输出压缩将实际成本降低了 1.4 到 2.4 倍，在最佳情况下甚至可达 3 倍。
开源模型：在公共层级定价（public-tier pricing）下，所有四个被测试的开源权重模型（open-weight models）均表现出成本降低。

这表明，如果用户能够接受模型以“穴居人风格”输出，且该风格不影响任务的核心准确性，那么这是一种切实可行的降本策略。

3. 输入压缩：适得其反的“双输”局面

与输出压缩形成鲜明对比的是，对用户输入进行压缩（即使用简短、无语法的提示）导致了严重的负面后果，表现为严格的“双输”（lose-lose）：

成本增加：输入压缩不仅没有降低净成本，反而使其上升。平均而言，成本增加了约 1.15 倍；在最差的数据集上增加了 1.8 倍；在更强压缩力度下，成本甚至飙升至 2.7 倍。
原因分析：当输入信息被过度压缩时，模型的准确性急剧崩溃。为了弥补信息缺失或尝试理解模糊的提示，模型倾向于生成更长的响应来“猜测”用户意图或进行自我修正。这种“补偿性长响应”抵消了输入端节省的 Token，导致总成本上升。

4. 表面文本与语义一致性的背离

研究还发现，在相同的压缩设置下，模型生成的表面文本（surface text）与其无约束基线生成文本之间存在显著差异：

非推理模型的表现：在非推理类（non-reasoning）模型中，尽管大约有一半的生成结果在任务层面上是正确的，但其表面文本不再蕴含（entail）模型在无约束基线下生成的完整逻辑。
稳健性验证：这种差异在经过长度控制的重新评分、多重比较校正以及互补语义度量的复现后依然存在。这意味着，虽然答案可能“蒙对”了，但模型的推理过程或表达形式已经发生了本质改变，且这种改变是不可控的。

关键要点

双通道评估的重要性：不能孤立地看待输入或输出的压缩。必须同时衡量输入提示和模型响应的 Token 消耗，才能得出真实的成本结论。
输出压缩是有效的降本手段：要求模型以简短、无语法风格（Caveman style）输出，可以在保持任务准确性的前提下，显著降低 API 调用成本（最高可达 3 倍）。
输入压缩是昂贵的陷阱：试图通过简化用户提示来节省成本是无效甚至有害的。由于模型需要生成更长的响应来应对模糊输入，且准确率下降可能导致重试，最终导致总成本增加（最高增加 2.7 倍）。
准确性不等于语义一致性：即使模型给出了正确的答案，其生成的文本结构可能与正常模式下的逻辑推导完全不同。对于需要可解释性或严格逻辑链的任务，这种表面文本的背离是一个潜在风险。
模型类型差异：研究特别指出，非推理模型在压缩下的行为模式与推理模型可能存在差异，需根据具体模型类型制定策略。

意义与影响

这项研究为 LLM 应用中的提示工程提供了重要的实证依据，纠正了社区中关于“简化输入即可省钱”的普遍误解。

优化 API 成本控制：对于依赖 API 调用的应用开发者，研究明确建议应将优化重点放在输出端。通过系统提示（System Prompt）强制模型使用简短、无冗余的语言风格，可以在不牺牲核心任务性能的前提下，实现显著的成本节约。
避免输入端的过度简化：开发者应避免为了节省少量输入 Token 而过度简化用户提示。保持清晰、完整的输入对于维持模型的推理能力和响应效率至关重要。
理解模型行为的局限性：研究揭示了“正确性”与“生成形式”之间的解耦现象。这意味着在自动化评估或日志分析中，仅检查最终答案的正确性可能不足以反映模型内部的推理质量。对于高可靠性要求的场景，需要引入更复杂的语义一致性度量。
开源与商业模型的普适性：结论在商业 API 模型和开源权重模型中均得到验证，表明这一现象是 LLM 架构和训练方式的共性，而非特定模型的缺陷。

总之，CAVEWOMAN 研究提供了一个严谨的框架，帮助从业者在追求效率的同时，理性评估语言压缩策略的真实代价，从而做出更明智的技术选型和系统设计。

查看原文 →arxiv.org