技术博客arXiv cs.AI·3 小时前

AFFORDANCE20Q：基于物理属性的推理评估基准

原标题：AFFORDANCE20Q: Evaluating Affordance Reasoning from Physical Properties

速览

现有基准多依赖模型记忆而非物理推理，研究提出AFFORDANCE20Q基准，通过20问游戏评估大模型基于形状和材质等物理属性的推理能力。实验显示当前大模型表现与人类存在显著差距，且提问缺乏区分度。为此提出KARI方法利用知识库规则提升性能，最高提升15.2分。

AI 深度解读

AFFORDANCE20Q：基于物理属性的具身智能推理评估新基准

背景

“可供性”（Affordance）是生态心理学中的一个核心概念，指环境或物体为生物体提供的行动可能性。在人工智能领域，特别是对于大语言模型（LLMs）和具身智能（Embodied AI）而言，理解物体的可供性——即仅根据物体的物理属性（如形状、材质、重量等）推断其潜在用途或交互方式——是人类物理理解的基础，也是实现通用人工智能的关键能力。

然而，现有的可供性基准测试存在一个显著的缺陷：它们在评估设置中往往直接暴露了物体的具体身份（例如直接给出“椅子”这个词）。这种设置使得模型可以依赖预先记忆好的“物体-可供性”映射关系（例如知道“椅子”可以“坐”），而不是真正通过推理物体的物理属性来得出结论。这种“作弊”式的评估无法真实反映模型在缺乏显式标签情况下的物理推理能力。

为了解决这一差距，研究人员引入了 Affordance20Q，这是一个新颖的可供性推理基准测试。该基准将评估过程形式化为一个“20个问题”（20-Questions）游戏，且在游戏过程中不暴露物体的身份。

核心内容

Affordance20Q 的核心设计理念是通过交互式问答来评估模型的物理推理能力，而非简单的知识检索。以下是该基准的详细构成与实验发现：

1. 基准构建与机制

游戏化评估框架：模型需要在一个候选物体集合中，通过询问关于隐藏物体物理属性的“是/否”问题，逐步缩小范围并最终推断出该物体的可供性（Affordance）。
数据规模与质量：基准包含 1,009 个游戏实例，涉及 454 个不同的物体和 59 种可供性。所有数据均经过人工筛选、细化和标注，确保了数据的质量和逻辑的严密性。
物理属性导向：模型必须关注物体的形状、材质、尺寸等物理特征，而不是依赖语义标签。

2. 实验结果与性能差距

研究人员对 15 个最先进的大语言模型进行了全面实验，结果揭示了当前 AI 在物理推理方面的巨大短板：

人类与模型的差距：模型的表现与人类水平之间存在显著差距，平均分相差约 20 分。这表明现有的 LLMs 虽然具备强大的语言处理能力，但在基于物理属性的逻辑推理上仍显薄弱。
提问策略分析：通过基于 KL 散度的信息增益（Information Gain, IG）分析发现，随着游戏的进行，模型未能提出具有区分度的问题。这意味着模型在推理过程中缺乏有效的信息筛选策略，无法像人类那样通过关键特征快速锁定目标。

3. 解决方案：KARI 管道

为了缩小这一性能差距，研究团队开发了一种名为 KB-Anchored Rule Induction (KARI) 的管道方法。

工作原理：KARI 基于 LLMs，利用知识库（Knowledge Bases, KBs）中的证据来生成可供性规则。它不是让模型凭空猜测，而是引导模型从结构化的知识中提取物理属性与动作之间的逻辑联系。
效果提升：KARI 显著提升了开源 LLMs 的表现，最高提升了 15.2 分。
局限性：尽管有显著提升，但知识库覆盖范围的局限性阻碍了进一步的性能突破。如果知识库中缺乏特定物体或属性的关联信息，模型依然无法做出准确推理。

关键要点

现有基准的缺陷：当前可供性评估大多依赖显式的物体身份标签，导致模型通过记忆而非物理推理完成任务，无法真实反映其具身智能水平。
Affordance20Q 的创新：
- 采用“20个问题”游戏形式，隐藏物体身份，迫使模型基于物理属性进行推理。
- 包含 1,009 个游戏、454 个物体和 59 种可供性，数据经过严格的人工标注。
性能鸿沟：最先进 LLMs 在该基准上的表现比人类低约 20 分，显示出物理推理能力的严重不足。
推理策略失效：KL 散度分析显示，模型在推理后期无法提出高信息增益的问题，表明其缺乏动态调整推理策略的能力。
KARI 方法的有效性：
- 提出 KB-Anchored Rule Induction (KARI)，利用知识库证据生成可供性规则。
- 使开源 LLMs 性能最高提升 15.2 分，证明了外部知识辅助推理的有效性。
- 知识库覆盖不全仍是限制性能进一步提升的主要瓶颈。
开源贡献：研究团队已公开所有代码和数据，促进社区进一步研究。

意义与影响

Affordance20Q 的发布对具身智能和大语言模型研究具有重要的里程碑意义：

更真实的评估标准：它提供了一个去除了“身份泄露”偏见的评估框架，迫使模型真正理解物体的物理本质，而非仅仅记忆语义关联。这为衡量 AI 的物理常识和推理能力提供了更可靠的标尺。
揭示推理瓶颈：通过信息增益分析，研究明确指出当前模型在动态推理和问题生成方面的弱点。这为未来的模型改进指明了方向，即需要增强模型基于物理属性的逻辑推导能力，而不仅仅是增强其知识检索能力。
知识增强的可行性验证：KARI 的成功表明，将大语言模型与结构化知识库（KBs）相结合，是提升物理推理能力的一条有效路径。这为构建更鲁棒的具身智能系统提供了方法论参考。
推动具身智能发展：随着机器人技术对物理交互需求的增加，能够准确理解物体可供性的 AI 系统至关重要。Affordance20Q 及其提出的改进方法，有助于缩小 AI 在虚拟语言空间与现实物理世界之间的认知差距，为更自然的机器人交互奠定基础。

总之，这项研究不仅提出了一个新的基准，更深刻地揭示了当前 LLMs 在物理推理层面的局限性，并为通过知识增强和结构化推理来弥补这一缺陷提供了实证支持。

查看原文 →arxiv.org