← 返回信息流
技术博客arXiv cs.AI·1 天前

GPTNT: Benchmarking Real-Time Collaboration Between Multimodal Agents on Keep Talking And Nobody Explodes

AI 深度解读

背景

随着多模态大模型能力的飞速发展,AI Agent越来越多地被部署于与人类或其他Agent协作的场景中。然而,现有的基准测试往往只能证明模型掌握了协作所需的各项“组件能力”,却忽略了真实协作中多种苛刻条件交织的复杂性。在现实协作中,时间压力、信息不对称以及不完美的通信往往同时发生,而目前的评估体系通常将这些条件孤立开来研究,无法衡量模型在真实动态环境下的综合协作表现。

核心内容

为了填补这一空白,研究人员推出了名为 GPTNT 的基准测试。该测试基于经典合作电子游戏《Keep Talking And Nobody Explodes》构建,其核心玩法天然契合了真实协作的苛刻要求:两名玩家必须在实时倒计时下,协调拆除程序随机生成的炸弹谜题。

在游戏中,两名Agent面临严格的信息不对称:一名Agent(拆弹者)能看到并操作炸弹,却不掌握拆除说明书;另一名Agent(专家)拥有说明书,却无法看到或操作炸弹。任何一方都无法独自成功,拆除炸弹的唯一途径就是通过实时、高效且准确的通信。

与以往基于回合制的协作代理不同,GPTNT 要求Agent必须进行异步行动和实时通信,这极大地增加了协作的难度。此外,GPTNT 的设计巧妙地将“协作能力”与“依赖记忆解法”剥离开来:在测试中,研究人员可以随机隐瞒说明书、隐瞒伙伴的存在,或者两者皆隐瞒,从而精准区分模型是依靠过往记忆的“背板”来解题,还是在当下通过实时交互进行推导。

实验结果揭示了当前AI协作能力的惨淡现状:在测试中,无论是闭源还是开源的顶尖(SOTA)模型,没有任何一个能在实时条件下成功拆除哪怕一颗炸弹——这一基准对于人类玩家而言通常轻而易举。通过受控实验,研究团队进一步识别了当前模型在协作中的致命短板,主要集中在四个方面:状态追踪(State tracking)、时间压力下的高效行动、歧义处理以及错误恢复。

值得一提的是,由于 GPTNT 直接运行于真实的游戏引擎之上,它受益于游戏的程序生成机制,并继承了活跃的 Mod(模组)社区。这意味着该基准测试具备极强的生命力,能够随着模型能力的提升而不断进化,避免了传统基准测试被模型迅速“刷爆”后便遭废弃的命运。

关键要点

  • 基于真实游戏环境:GPTNT 依托《Keep Talking And Nobody Explodes》构建,天然具备实时倒计时、信息不对称和程序生成等真实协作要素。
  • 强制实时异步交互:摒弃了回合制代理的设定,要求Agent在动态环境中进行异步行动和实时通信,极大提升了协作难度。
  • 剥离记忆与即时推理:通过隐瞒说明书或伙伴的对照实验,有效区分模型是依赖
查看原文 →arxiv.org