NormAct基准测试揭示大模型在具身规划中难以遵守隐性社交规范
速览
研究人员提出NormAct基准测试,用于评估多模态大语言模型在具身规划中遵守隐性社交规范的能力。实验显示,尽管模型能较好完成显性目标,但在隐性规范遵守上存在显著差距,仅26.4%的合规率。为此,团队提出NormPerceptor作为上下文条件提示生成器,通过预先推断场景相关规范,将任务成功率从24.2%提升至46.7%。该研究强调了具身智能体主动检测并整合隐性社交约束的重要性。
AI 深度解读
NormAct:具身规划中隐藏社会规范合规性的基准测试
背景
多模态大语言模型(MLLMs)正日益被部署为第一人称视角(egocentric)环境中的具身规划器(embodied planners)。在这些场景中,任务的成功不仅取决于是否完成了指令中的显式目标,还取决于行为是否符合社会规范。
虽然显式目标可能使某些动作在逻辑上成为最优解,但隐性的社会规范往往施加着隐藏的约束。现有的评估体系通常仅关注显式目标的达成情况或直接的社会规范知识测试,很少评估规划器是否能够在动作序列中推断并应用这些隐藏约束。这种评估缺失导致我们在衡量 AI 代理在真实社会环境中表现时存在巨大盲区。
核心内容
为了解决上述问题,研究团队引入了 NormAct,这是一个专门针对具身社会规范交互的基准测试。NormAct 从三个维度评估规划方案:目标达成(Goal Achievement)、规范合规(Norm Compliance) 以及整体 任务成功(Task Success)。
NormAct 的独特之处在于,它将隐藏的社会规范嵌入到日常任务中,测试模型是否能在没有显式指令的情况下识别并执行这些规范。
实验发现:显著的“能力-表现”差距
研究团队使用当前最先进的 MLLMs 进行了实验,包括 GPT-5.4、Claude Opus 4.7 和 Gemini 3 Pro。实验结果揭示了一个显著的差距:
- 显式目标达成率:模型在 67.3% 的情况下能够完成显式指令的目标。
- 隐藏规范合规率:然而,在符合隐藏社会规范方面,模型的合规率仅为 26.4%。
这表明,尽管模型具备完成具体任务的能力,但在处理非显式的社会约束时表现不佳。
归因分析:上下文激活与接地难题
通过提示条件实验(Cue-condition experiments),研究团队发现,这一差距并非源于模型缺乏通用的社会知识。相反,问题在于模型难以在特定上下文中激活(activate) 相关的规范,并将其接地(ground) 到具体的视觉或情境证据中。简而言之,模型“知道”规范,但不知道在特定场景中“何时”以及“如何”应用这些规范。
解决方案:NormPerceptor
针对这一问题,研究者提出了 NormPerceptor,这是一种基于上下文条件的提示生成器(context-conditioned cue generator)。
- 工作机制:在进行规划之前,NormPerceptor 会推断出与场景相关的规范。
- 效果:引入 NormPerceptor 后,整体任务成功率从 24.2% 提升至 46.7%。
这一结果强调了让具身代理主动检测隐藏规范、将其与视觉证据建立联系,并将其作为动作规划的约束条件的重要性。
关键要点
- 评估维度创新:NormAct 不仅评估“是否做完”,更评估“做得是否得体”,引入了“规范合规”作为核心评估指标。
- 隐藏约束的重要性:真实世界中的社会互动大量依赖于未言明的隐性规则,现有 MLLM 在此类场景下的表现远低于其显式任务处理能力。
- 知识 vs. 应用:模型失败的主要原因不是缺乏社会常识,而是缺乏将常识与具体视觉/情境上下文进行关联(Grounding)的能力。
- 前置推理的价值:通过在规划前增加一个“规范感知”步骤(NormPerceptor),可以显著提升代理的社会适应性行为。
- 开源资源:该基准测试已公开,旨在推动具身 AI 在社会规范理解方面的研究进展。
意义与影响
NormAct 的发布填补了具身 AI 评估领域的一个重要空白。随着 AI 代理从封闭的实验室环境走向开放的日常生活空间(如家庭服务、公共导航、人机协作),仅仅“完成任务”已不足以定义成功,“社会可接受性”成为关键指标。
这项研究指出,未来的具身智能系统需要具备更强的情境感知(Context-Awareness) 和社会推理(Social Reasoning) 能力。通过引入类似 NormPerceptor 的机制,我们可以构建更自然、更和谐的人机交互系统,减少因行为突兀或违规而导致的人类不适或冲突。对于开发通用机器人和自主代理而言,理解并遵守隐藏的社会规范,是实现真正“社会化”智能的关键一步。
