技术博客arXiv cs.AI·11 小时前

FALSIFYBENCH评测大模型归纳推理：证伪能力决定科学推理表现

原标题：FALSIFYBENCH: Evaluating Inductive Reasoning in LLMs with Rule Discovery Games

速览

研究提出FALSIFYBENCH评估框架，通过类似Wason 2-4-6的任务测试大模型的假设驱动推理能力。评估12款模型显示，推理模型优于指令微调模型，但均未达到最优。核心发现是主动证伪能力是成功的关键，且失败模式与模型在假设空间中的导航方式密切相关。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）