技术博客arXiv cs.CL·23 小时前

剪枝大模型多选能过但生成失败，基准测试存在幻觉

原标题：The Benchmark Illusion: Pruned LLMs Can Pass Multiple Choice but Fail to Answer

速览

压缩大模型虽能降低成本，但标准基准测试可能掩盖其生成缺陷。研究指出，在高稀疏剪枝下，模型虽能在多选题中选出正确答案，却在开放生成任务中失败。这表明正确答案并未消失，而是排名下降，通过束搜索或采样即可恢复。该发现揭示了多选择基准测试对压缩模型可用性的夸大，呼吁测试应关注模型的实际生成能力。

AI 深度解读

基准测试的幻觉：剪枝大模型能答对选择题，却写不出答案

背景

随着大语言模型（LLM）规模的不断扩大，其推理成本和内存占用成为部署落地的主要瓶颈。模型压缩技术，特别是结构化剪枝（Pruning），成为降低资源消耗的关键手段。然而，现有的评估体系主要依赖于标准基准测试（Benchmarks），这些测试大多采用多项选择题（Multiple Choice）的形式来衡量模型的知识保留程度。

这种评估方式存在一个潜在的盲区：它假设“识别正确答案”等同于“能够生成正确答案”。事实上，模型可能在面对选项时能选出正确项，但在开放生成（Open Generation）模式下却无法主动输出该答案。本文旨在揭示这一现象，即“基准测试的幻觉”（Benchmark Illusion），并探讨剪枝操作究竟是如何影响模型能力的——是彻底抹去了知识，还是仅仅让正确回答变得难以作为首选输出被生成。

核心内容

本研究通过多语言问答任务，追踪同一组问题在模型剪枝前后的表现变化，深入分析了高稀疏度剪枝对模型输出行为的影响。

1. 剪枝后的“识别-生成”鸿沟 研究发现，在应用高稀疏度剪枝（尤其是 Wanda 算法）后，模型在多项选择题评估中依然能保持较高的准确率。然而，当面对相同的开放生成任务时，模型往往会失败。这种现象被称为“仅识别错误”（Recognition-only errors）。

2. 答案并未消失，而是被“降级” 通过深入分析发现，剪枝并没有完全擦除模型对正确答案的知识。在贪婪解码（Greedy Decoding，即每次选择概率最高的下一个 token）模式下，正确答案往往不是被删除，而是被“降级”（Demoted）。这意味着正确答案在概率分布中仍然存在，但不再是最高概率的选项，导致贪婪解码无法选中它。

3. 恢复正确性的方法 当改变解码策略时，被降级的正确答案往往会重新出现：

束搜索（Beam Search）：通过保留多个候选路径，能够捕捉到那些在贪婪路径中被忽略的正确答案。
采样（Sampling）：引入随机性有助于跳出局部最优，从而生成正确答案。
上下文示例（One in-context example）：提供少量的示例提示，也能帮助模型激活正确的生成路径。

4. 评估盲点 多项选择题基准测试主要衡量的是模型的“识别能力”（Recognition），即模型能否在给定选项中判断对错。然而，实际应用场景更看重模型的“生成能力”（Generation），即模型能否主动构造出正确的回答。由于剪枝模型在识别任务上表现良好，多项选择基准测试严重高估了压缩后 LLM 的实际可用性，造成了评估上的盲点。

关键要点

基准测试的局限性：标准的多项选择题基准测试无法全面反映剪枝大模型的真实能力，因为它忽略了生成过程中的概率分布变化。
Wanda 剪枝的影响：在高稀疏度下，Wanda 等剪枝算法会导致模型在贪婪解码时失败，尽管其在多项选择评分中表现尚可。
知识保留机制：剪枝通常不会彻底抹去知识，而是将正确答案从“首选输出”降级为“次选输出”。
解码策略的重要性：对于经过剪枝的模型，使用束搜索、采样或提供上下文示例等更复杂的解码策略，可以显著恢复其生成正确答案的能力。
评估建议：在评估压缩后的 LLM 时，不应仅依赖多项选择题，必须引入开放生成任务（Open Generation Tasks）来测试模型实际“能写出什么”，而不仅仅是“能认出什么”。

意义与影响

这项研究对大模型压缩技术的评估和应用具有深远的影响：

重新定义压缩模型的评估标准：业界需要超越传统的多项选择题基准，建立包含开放生成能力的综合评估体系。仅看选择题准确率会误导开发者，使其误以为剪枝模型已经可以无缝替换原始模型。
指导推理优化策略：对于部署在资源受限环境下的剪枝模型，简单的贪婪解码可能不足以发挥其全部潜力。开发者可能需要权衡计算成本，适当引入束搜索或采样策略，以换取更高的生成准确率。
揭示模型内部表征的变化：研究指出剪枝主要影响的是输出的“显著性”而非“存在性”。这提示我们在进行模型压缩时，应关注如何维持关键知识在概率分布中的相对高位，而不仅仅是保留参数。
实际应用的风险提示：在医疗、法律等对准确性要求极高的领域，如果仅依据多项选择题基准来部署剪枝模型，可能会导致严重的实际故障，因为模型在自由生成文本时可能会遗漏关键信息或产生幻觉。

查看原文 →arxiv.org