FALSIFYBENCH评测大模型归纳推理:证伪能力决定科学推理表现
原标题:FALSIFYBENCH: Evaluating Inductive Reasoning in LLMs with Rule Discovery Games
速览
研究提出FALSIFYBENCH评估框架,通过类似Wason 2-4-6的任务测试大模型的假设驱动推理能力。评估12款模型显示,推理模型优于指令微调模型,但均未达到最优。核心发现是主动证伪能力是成功的关键,且失败模式与模型在假设空间中的导航方式密切相关。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
