← 返回信息流
技术博客arXiv cs.AI·11 小时前

FALSIFYBENCH评测大模型归纳推理:证伪能力决定科学推理表现

原标题:FALSIFYBENCH: Evaluating Inductive Reasoning in LLMs with Rule Discovery Games

速览

研究提出FALSIFYBENCH评估框架,通过类似Wason 2-4-6的任务测试大模型的假设驱动推理能力。评估12款模型显示,推理模型优于指令微调模型,但均未达到最优。核心发现是主动证伪能力是成功的关键,且失败模式与模型在假设空间中的导航方式密切相关。

AI 深度解读

AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org