技术博客arXiv cs.CL·3 小时前

Know2Guess：评估大模型知识边界与防数据污染的多区域基准

原标题：Know2Guess: A Contamination-Aware Multi-Zone Benchmark for Knowledge-Boundary Evaluation in Large Language Models

速览

该研究提出Know2Guess，这是一个感知数据污染的多区域基准测试，旨在分离大模型的支持性回答与无支持的猜测，避免将两者与数据污染或提示词特性混淆。基准涵盖1200个样本，评估了FLAN-T5、Qwen2.5和Llama-3等模型在锁定提示下的表现。结果显示，尽管Qwen2.5-3B-Instruct整体可靠性最佳，但模型在知识边界处的校准仍较差，且存在良性项目被拒绝的现象。该基准为审计大模型的可回答性、拒答、拒绝行为和数据污染提供了可复现的协议。

AI 深度解读

Know2Guess：大语言模型知识边界评估的污染感知多区域基准

背景

在评估大型语言模型（LLMs）时，一个核心挑战是如何可靠地区分“基于支持的回答”与“无支持的猜测”，同时避免将这两种行为与数据污染（data contamination）、提示词特异性（prompt idiosyncrasy）或通用的拒绝行为（generic refusal behavior）混淆。

现有的评估基准往往难以精确衡量模型从“已知可答知识”过渡到“预期弃权未知知识”的边界。特别是在冻结构建时标签（frozen build-time labels）的情况下，如何确保评估结果不受训练数据泄露的影响，并准确反映模型在面临未知问题时的真实能力，是当前研究亟待解决的痛点。

核心内容

本文介绍了 Know2Guess，这是一个具有污染感知能力（contamination-aware）的多区域（multi-zone）基准测试，旨在衡量大语言模型在知识边界上的表现。该基准测试通过以下设计解决了上述挑战：

数据构成与结构：
- 包含来自五个不同领域的 1,200 个项目。
- 明确设定了“预期弃权”（abstention-expected）的未知项，即模型应当承认自己不知道答案。
- 提供了污染风险元数据（contamination-risk metadata），用于标识哪些项可能存在于训练数据中。
- 采用双重解析机制：包括一个官方的严格解析器（strict parser）和一个标准化的鲁棒性解析器（normalized robustness parser），以确保评估的准确性。
评估对象与方法：
- 评估了 FLAN-T5、Qwen2.5-Instruct 和 Llama-3-Instruct 等模型。
- 测试条件包括：锁定“回答或弃权”的提示词（answer-or-abstain prompts）、仅回答的控制组（answer-only controls）以及不同的提示词模板变体。
主要发现：
- 通用非回答行为无法解决基准测试：简单的“不回答”策略并不能有效通过测试。
- FLAN 基线模型表现较弱：在“生产性弃权”（productive abstention，即主动且正确地表示不知道）方面表现不佳。
- 指令微调模型的局限性：更强的指令微调模型虽然展示了从回答向弃权过渡的选择性能力，但这种过渡是不完整的。
- Qwen2.5-3B-Instruct 表现最佳：在整体可靠性方面得分最高，但在“预期回答区域”（answer-expected zones）仍面临困难，校准效果（calibration）较差，且存在对良性项目（benign items）的持续拒绝现象。
- 鲁棒性验证：对提示词和解析器的鲁棒性分析表明，主要的排名顺序和定性结论保持不变。
资源可用性：
- 该基准测试提供了一个可复现的协议，用于审计可答性、弃权、拒绝和污染这四个既独立又相互作用的维度。
- 数据集已公开可用。

关键要点

多维度评估框架：Know2Guess 不仅仅测试模型是否知道答案，还重点评估模型在不知道答案时是否正确地选择“弃权”，并将这一行为与数据污染和提示词偏差区分开来。
污染感知机制：通过引入污染风险元数据，该基准能够识别并控制训练数据泄露对评估结果的干扰，确保评估的是模型的泛化能力而非记忆能力。
双重解析器设计：结合严格解析器和标准化鲁棒性解析器，提高了评估结果的可靠性和对模型输出格式变化的容忍度。
模型表现差异：
- FLAN-T5：在主动弃权方面能力不足。
- Qwen2.5-3B-Instruct：整体可靠性最佳，但在校准和避免过度拒绝方面仍有改进空间。
- Llama-3-Instruct：作为对比基准，其表现介于两者之间，展示了指令微调模型在知识边界判断上的选择性但非完全的能力。
可复现性与透明度：数据集和评估协议完全公开，为社区提供了一个标准化的工具，用于审计 LLM 在知识边界、拒绝行为和污染方面的表现。

意义与影响

Know2Guess 基准测试的提出，为大语言模型的评估提供了一个新的视角。它强调了在评估模型性能时，必须将“知道什么”和“不知道什么”分开考量，并特别关注“不知道”时的行为是否合理。

提升评估的可靠性：通过区分数据污染和真实能力，Know2Guess 有助于更准确地衡量模型在开放域任务中的实际泛化能力，避免高估模型性能。
促进模型安全与对齐：研究模型在面临未知问题时的弃权行为，对于开发更安全、更可靠的 AI 系统至关重要。它有助于减少模型产生幻觉（hallucination）或不当拒绝的风险。
推动基准测试的发展：Know2Guess 的多区域设计和污染感知机制为未来的基准测试提供了参考，鼓励研究者开发更复杂、更细致的评估工具，以应对 LLM 日益增长的能力复杂性。
社区贡献：公开的数据集和评估协议促进了学术界的合作与复现，有助于建立更统一的 LLM 评估标准。

总之，Know2Guess 不仅是一个评估工具，更是一种方法论上的进步，它提醒我们，评估 LLM 的关键不仅在于其回答的正确率，更在于其对自身知识边界的清晰认知和诚实表达。

查看原文 →arxiv.org