技术博客arXiv cs.AI·1 天前

GPTNT: Benchmarking Real-Time Collaboration Between Multimodal Agents on Keep Talking And Nobody Explodes

AI 深度解读

背景

随着多模态大模型能力的飞速发展，AI Agent越来越多地被部署于与人类或其他Agent协作的场景中。然而，现有的基准测试往往只能证明模型掌握了协作所需的各项“组件能力”，却忽略了真实协作中多种苛刻条件交织的复杂性。在现实协作中，时间压力、信息不对称以及不完美的通信往往同时发生，而目前的评估体系通常将这些条件孤立开来研究，无法衡量模型在真实动态环境下的综合协作表现。

核心内容

为了填补这一空白，研究人员推出了名为 GPTNT 的基准测试。该测试基于经典合作电子游戏《Keep Talking And Nobody Explodes》构建，其核心玩法天然契合了真实协作的苛刻要求：两名玩家必须在实时倒计时下，协调拆除程序随机生成的炸弹谜题。

在游戏中，两名Agent面临严格的信息不对称：一名Agent（拆弹者）能看到并操作炸弹，却不掌握拆除说明书；另一名Agent（专家）拥有说明书，却无法看到或操作炸弹。任何一方都无法独自成功，拆除炸弹的唯一途径就是通过实时、高效且准确的通信。

与以往基于回合制的协作代理不同，GPTNT 要求Agent必须进行异步行动和实时通信，这极大地增加了协作的难度。此外，GPTNT 的设计巧妙地将“协作能力”与“依赖记忆解法”剥离开来：在测试中，研究人员可以随机隐瞒说明书、隐瞒伙伴的存在，或者两者皆隐瞒，从而精准区分模型是依靠过往记忆的“背板”来解题，还是在当下通过实时交互进行推导。

实验结果揭示了当前AI协作能力的惨淡现状：在测试中，无论是闭源还是开源的顶尖（SOTA）模型，没有任何一个能在实时条件下成功拆除哪怕一颗炸弹——这一基准对于人类玩家而言通常轻而易举。通过受控实验，研究团队进一步识别了当前模型在协作中的致命短板，主要集中在四个方面：状态追踪（State tracking）、时间压力下的高效行动、歧义处理以及错误恢复。

值得一提的是，由于 GPTNT 直接运行于真实的游戏引擎之上，它受益于游戏的程序生成机制，并继承了活跃的 Mod（模组）社区。这意味着该基准测试具备极强的生命力，能够随着模型能力的提升而不断进化，避免了传统基准测试被模型迅速“刷爆”后便遭废弃的命运。

关键要点

基于真实游戏环境：GPTNT 依托《Keep Talking And Nobody Explodes》构建，天然具备实时倒计时、信息不对称和程序生成等真实协作要素。
强制实时异步交互：摒弃了回合制代理的设定，要求Agent在动态环境中进行异步行动和实时通信，极大提升了协作难度。
剥离记忆与即时推理：通过隐瞒说明书或伙伴的对照实验，有效区分模型是依赖

查看原文 →arxiv.org

GPTNT: Benchmarking Real-Time Collaboration Between Multimodal Agents on Keep Talking And Nobody Explodes

AI 深度解读

背景

核心内容

关键要点

相关推荐