← 返回信息流
技术博客arXiv cs.CL·3 小时前

Know2Guess:评估大模型知识边界与防数据污染的多区域基准

原标题:Know2Guess: A Contamination-Aware Multi-Zone Benchmark for Knowledge-Boundary Evaluation in Large Language Models

速览

该研究提出Know2Guess,这是一个感知数据污染的多区域基准测试,旨在分离大模型的支持性回答与无支持的猜测,避免将两者与数据污染或提示词特性混淆。基准涵盖1200个样本,评估了FLAN-T5、Qwen2.5和Llama-3等模型在锁定提示下的表现。结果显示,尽管Qwen2.5-3B-Instruct整体可靠性最佳,但模型在知识边界处的校准仍较差,且存在良性项目被拒绝的现象。该基准为审计大模型的可回答性、拒答、拒绝行为和数据污染提供了可复现的协议。

AI 深度解读

Know2Guess:大语言模型知识边界评估的污染感知多区域基准

背景

在评估大型语言模型(LLMs)时,一个核心挑战是如何可靠地区分“基于支持的回答”与“无支持的猜测”,同时避免将这两种行为与数据污染(data contamination)、提示词特异性(prompt idiosyncrasy)或通用的拒绝行为(generic refusal behavior)混淆。

现有的评估基准往往难以精确衡量模型从“已知可答知识”过渡到“预期弃权未知知识”的边界。特别是在冻结构建时标签(frozen build-time labels)的情况下,如何确保评估结果不受训练数据泄露的影响,并准确反映模型在面临未知问题时的真实能力,是当前研究亟待解决的痛点。

核心内容

本文介绍了 Know2Guess,这是一个具有污染感知能力(contamination-aware)的多区域(multi-zone)基准测试,旨在衡量大语言模型在知识边界上的表现。该基准测试通过以下设计解决了上述挑战:

  1. 数据构成与结构

    • 包含来自五个不同领域的 1,200 个项目。
    • 明确设定了“预期弃权”(abstention-expected)的未知项,即模型应当承认自己不知道答案。
    • 提供了污染风险元数据(contamination-risk metadata),用于标识哪些项可能存在于训练数据中。
    • 采用双重解析机制:包括一个官方的严格解析器(strict parser)和一个标准化的鲁棒性解析器(normalized robustness parser),以确保评估的准确性。
  2. 评估对象与方法

    • 评估了 FLAN-T5Qwen2.5-InstructLlama-3-Instruct 等模型。
    • 测试条件包括:锁定“回答或弃权”的提示词(answer-or-abstain prompts)、仅回答的控制组(answer-only controls)以及不同的提示词模板变体。
  3. 主要发现

    • 通用非回答行为无法解决基准测试:简单的“不回答”策略并不能有效通过测试。
    • FLAN 基线模型表现较弱:在“生产性弃权”(productive abstention,即主动且正确地表示不知道)方面表现不佳。
    • 指令微调模型的局限性:更强的指令微调模型虽然展示了从回答向弃权过渡的选择性能力,但这种过渡是不完整的。
    • Qwen2.5-3B-Instruct 表现最佳:在整体可靠性方面得分最高,但在“预期回答区域”(answer-expected zones)仍面临困难,校准效果(calibration)较差,且存在对良性项目(benign items)的持续拒绝现象。
    • 鲁棒性验证:对提示词和解析器的鲁棒性分析表明,主要的排名顺序和定性结论保持不变。
  4. 资源可用性

    • 该基准测试提供了一个可复现的协议,用于审计可答性、弃权、拒绝和污染这四个既独立又相互作用的维度。
    • 数据集已公开可用。

关键要点

  • 多维度评估框架:Know2Guess 不仅仅测试模型是否知道答案,还重点评估模型在不知道答案时是否正确地选择“弃权”,并将这一行为与数据污染和提示词偏差区分开来。
  • 污染感知机制:通过引入污染风险元数据,该基准能够识别并控制训练数据泄露对评估结果的干扰,确保评估的是模型的泛化能力而非记忆能力。
  • 双重解析器设计:结合严格解析器和标准化鲁棒性解析器,提高了评估结果的可靠性和对模型输出格式变化的容忍度。
  • 模型表现差异
    • FLAN-T5:在主动弃权方面能力不足。
    • Qwen2.5-3B-Instruct:整体可靠性最佳,但在校准和避免过度拒绝方面仍有改进空间。
    • Llama-3-Instruct:作为对比基准,其表现介于两者之间,展示了指令微调模型在知识边界判断上的选择性但非完全的能力。
  • 可复现性与透明度:数据集和评估协议完全公开,为社区提供了一个标准化的工具,用于审计 LLM 在知识边界、拒绝行为和污染方面的表现。

意义与影响

Know2Guess 基准测试的提出,为大语言模型的评估提供了一个新的视角。它强调了在评估模型性能时,必须将“知道什么”和“不知道什么”分开考量,并特别关注“不知道”时的行为是否合理。

  1. 提升评估的可靠性:通过区分数据污染和真实能力,Know2Guess 有助于更准确地衡量模型在开放域任务中的实际泛化能力,避免高估模型性能。
  2. 促进模型安全与对齐:研究模型在面临未知问题时的弃权行为,对于开发更安全、更可靠的 AI 系统至关重要。它有助于减少模型产生幻觉(hallucination)或不当拒绝的风险。
  3. 推动基准测试的发展:Know2Guess 的多区域设计和污染感知机制为未来的基准测试提供了参考,鼓励研究者开发更复杂、更细致的评估工具,以应对 LLM 日益增长的能力复杂性。
  4. 社区贡献:公开的数据集和评估协议促进了学术界的合作与复现,有助于建立更统一的 LLM 评估标准。

总之,Know2Guess 不仅是一个评估工具,更是一种方法论上的进步,它提醒我们,评估 LLM 的关键不仅在于其回答的正确率,更在于其对自身知识边界的清晰认知和诚实表达。

查看原文 →arxiv.org