← 返回信息流
技术博客arXiv cs.CL·23 小时前

剪枝大模型多选能过但生成失败,基准测试存在幻觉

原标题:The Benchmark Illusion: Pruned LLMs Can Pass Multiple Choice but Fail to Answer

速览

压缩大模型虽能降低成本,但标准基准测试可能掩盖其生成缺陷。研究指出,在高稀疏剪枝下,模型虽能在多选题中选出正确答案,却在开放生成任务中失败。这表明正确答案并未消失,而是排名下降,通过束搜索或采样即可恢复。该发现揭示了多选择基准测试对压缩模型可用性的夸大,呼吁测试应关注模型的实际生成能力。

AI 深度解读

基准测试的幻觉:剪枝大模型能答对选择题,却写不出答案

背景

随着大语言模型(LLM)规模的不断扩大,其推理成本和内存占用成为部署落地的主要瓶颈。模型压缩技术,特别是结构化剪枝(Pruning),成为降低资源消耗的关键手段。然而,现有的评估体系主要依赖于标准基准测试(Benchmarks),这些测试大多采用多项选择题(Multiple Choice)的形式来衡量模型的知识保留程度。

这种评估方式存在一个潜在的盲区:它假设“识别正确答案”等同于“能够生成正确答案”。事实上,模型可能在面对选项时能选出正确项,但在开放生成(Open Generation)模式下却无法主动输出该答案。本文旨在揭示这一现象,即“基准测试的幻觉”(Benchmark Illusion),并探讨剪枝操作究竟是如何影响模型能力的——是彻底抹去了知识,还是仅仅让正确回答变得难以作为首选输出被生成。

核心内容

本研究通过多语言问答任务,追踪同一组问题在模型剪枝前后的表现变化,深入分析了高稀疏度剪枝对模型输出行为的影响。

1. 剪枝后的“识别-生成”鸿沟 研究发现,在应用高稀疏度剪枝(尤其是 Wanda 算法)后,模型在多项选择题评估中依然能保持较高的准确率。然而,当面对相同的开放生成任务时,模型往往会失败。这种现象被称为“仅识别错误”(Recognition-only errors)。

2. 答案并未消失,而是被“降级” 通过深入分析发现,剪枝并没有完全擦除模型对正确答案的知识。在贪婪解码(Greedy Decoding,即每次选择概率最高的下一个 token)模式下,正确答案往往不是被删除,而是被“降级”(Demoted)。这意味着正确答案在概率分布中仍然存在,但不再是最高概率的选项,导致贪婪解码无法选中它。

3. 恢复正确性的方法 当改变解码策略时,被降级的正确答案往往会重新出现:

  • 束搜索(Beam Search):通过保留多个候选路径,能够捕捉到那些在贪婪路径中被忽略的正确答案。
  • 采样(Sampling):引入随机性有助于跳出局部最优,从而生成正确答案。
  • 上下文示例(One in-context example):提供少量的示例提示,也能帮助模型激活正确的生成路径。

4. 评估盲点 多项选择题基准测试主要衡量的是模型的“识别能力”(Recognition),即模型能否在给定选项中判断对错。然而,实际应用场景更看重模型的“生成能力”(Generation),即模型能否主动构造出正确的回答。由于剪枝模型在识别任务上表现良好,多项选择基准测试严重高估了压缩后 LLM 的实际可用性,造成了评估上的盲点。

关键要点

  • 基准测试的局限性:标准的多项选择题基准测试无法全面反映剪枝大模型的真实能力,因为它忽略了生成过程中的概率分布变化。
  • Wanda 剪枝的影响:在高稀疏度下,Wanda 等剪枝算法会导致模型在贪婪解码时失败,尽管其在多项选择评分中表现尚可。
  • 知识保留机制:剪枝通常不会彻底抹去知识,而是将正确答案从“首选输出”降级为“次选输出”。
  • 解码策略的重要性:对于经过剪枝的模型,使用束搜索、采样或提供上下文示例等更复杂的解码策略,可以显著恢复其生成正确答案的能力。
  • 评估建议:在评估压缩后的 LLM 时,不应仅依赖多项选择题,必须引入开放生成任务(Open Generation Tasks)来测试模型实际“能写出什么”,而不仅仅是“能认出什么”。

意义与影响

这项研究对大模型压缩技术的评估和应用具有深远的影响:

  1. 重新定义压缩模型的评估标准:业界需要超越传统的多项选择题基准,建立包含开放生成能力的综合评估体系。仅看选择题准确率会误导开发者,使其误以为剪枝模型已经可以无缝替换原始模型。
  2. 指导推理优化策略:对于部署在资源受限环境下的剪枝模型,简单的贪婪解码可能不足以发挥其全部潜力。开发者可能需要权衡计算成本,适当引入束搜索或采样策略,以换取更高的生成准确率。
  3. 揭示模型内部表征的变化:研究指出剪枝主要影响的是输出的“显著性”而非“存在性”。这提示我们在进行模型压缩时,应关注如何维持关键知识在概率分布中的相对高位,而不仅仅是保留参数。
  4. 实际应用的风险提示:在医疗、法律等对准确性要求极高的领域,如果仅依据多项选择题基准来部署剪枝模型,可能会导致严重的实际故障,因为模型在自由生成文本时可能会遗漏关键信息或产生幻觉。
查看原文 →arxiv.org