← 返回信息流
技术博客arXiv cs.AI·3 小时前

SidConArena:评估大模型开放博弈能力的基准框架

原标题:SidConArena: An Environment Evaluating Agents in Open-Ended,Positive-Sum Bargaining Game

速览

研究者推出SidConArena,这是一个用于评估大语言模型在开放、正和博弈中表现的新基准框架。该框架将多玩家经济形式化为有限时域的随机博弈,包含自然语言谈判、生产及拍卖三个阶段。实验表明,尽管前沿模型表现更优,但智能体在资源估值、被动谈判及长期投资规划方面仍存在局限。

AI 深度解读

SidConArena:评估大模型在开放-ended、正和博弈中表现的新基准

背景

当前,对大型语言模型(LLM)智能体(Agents)的评估主要集中于静态推理任务或零和博弈场景。然而,现实世界中的经济互动往往具有高度的开放性(open-ended)和混合动机(mixed-motive)特征。在这种环境中,智能体不仅需要相互竞争稀缺资产,更需要通过谈判创造正和剩余(positive-sum surplus),并在回报延迟的情况下进行长期规划。

现有的评估框架难以捕捉这些复杂的动态交互,导致我们无法准确衡量前沿模型在真实经济场景下的决策能力。为了解决这一差距,研究者引入了 SidConArena,这是一个专门用于评估 LLM 智能体在开放-ended、正和博弈环境中表现的新基准框架。

核心内容

SidConArena 将多玩家经济形式化为一个有限时域的、部分可观察的随机博弈(Partially Observable Stochastic Game, POSG)。该框架包含三个紧密耦合的阶段,旨在模拟复杂的经济互动:

  1. 自然语言谈判与绑定交易:智能体通过自然语言进行协商,并达成具有约束力的交易。这一阶段测试智能体的沟通、说服及契约执行能力。
  2. 基于确定性转换器的生产:在谈判结束后,智能体利用资源进行生产。这一阶段模拟了资源转化为产出的确定性过程。
  3. 长期资产的密封投标拍卖:智能体参与针对长期资产的拍卖,这要求智能体具备跨期决策和长期投资规划的能力。

为了支持这一复杂环境,SidConArena 结合了以下关键技术特性:

  • 结构化观察:提供清晰的环境状态信息。
  • 感知阶段的智能体调度:根据当前博弈阶段调度智能体的行动。
  • 神经符号动作接口:结合神经网络的灵活性与符号逻辑的规则性,确保动作的规范性。
  • 异步执行:支持非同步的操作流程,更贴近真实世界的交互节奏。

这种设计使得智能体能够在保持自由形式交互的同时,接受基于规则的性能评估。

关键要点

  • 框架创新:SidConArena 是首个专门针对“开放-ended、正和博弈”设计的评估基准,突破了传统静态推理和零和博弈的局限。
  • 三阶段博弈机制:通过“谈判-生产-拍卖”的耦合流程,全面测试智能体的协商、生产规划和长期投资能力。
  • 技术实现:采用部分可观察随机博弈模型,结合神经符号接口和异步执行引擎,平衡了交互的自由度与评估的严谨性。
  • 实验发现
    • 在同质性和异质性锦标赛中,更强大的前沿模型确实取得了更高的经济成果。
    • 然而,所有智能体仍存在显著缺陷:
      • 资源估值偏差:智能体往往错误评估资源的价值。
      • 被动谈判:在谈判过程中表现过于被动,未能充分利用正和博弈的机会。
      • 长期规划局限:在长视距(long-horizon)的投资规划方面能力有限,难以有效应对延迟回报。

意义与影响

SidConArena 的提出标志着 LLM 智能体评估从“静态解题”向“动态经济交互”的重要转变。它揭示了当前前沿模型在复杂经济场景中的真实能力边界:尽管模型在基础推理上表现优异,但在涉及多方利益协调、长期价值创造和动态资源分配的复杂任务中,仍存在明显的短板。

这一基准不仅为研究人员提供了一个标准化的测试平台,以量化智能体在正和博弈中的表现,还为未来智能体架构的设计指明了方向——即需要增强智能体的谈判主动性、资源估值准确性以及跨期规划能力。随着多智能体系统在金融、供应链管理等现实领域的应用加深,SidConArena 所倡导的评估范式将变得愈发重要。

查看原文 →arxiv.org