技术博客arXiv cs.AI·3 小时前

SidConArena：评估大模型开放博弈能力的基准框架

原标题：SidConArena: An Environment Evaluating Agents in Open-Ended,Positive-Sum Bargaining Game

速览

研究者推出SidConArena，这是一个用于评估大语言模型在开放、正和博弈中表现的新基准框架。该框架将多玩家经济形式化为有限时域的随机博弈，包含自然语言谈判、生产及拍卖三个阶段。实验表明，尽管前沿模型表现更优，但智能体在资源估值、被动谈判及长期投资规划方面仍存在局限。

AI 深度解读

SidConArena：评估大模型在开放-ended、正和博弈中表现的新基准

背景

当前，对大型语言模型（LLM）智能体（Agents）的评估主要集中于静态推理任务或零和博弈场景。然而，现实世界中的经济互动往往具有高度的开放性（open-ended）和混合动机（mixed-motive）特征。在这种环境中，智能体不仅需要相互竞争稀缺资产，更需要通过谈判创造正和剩余（positive-sum surplus），并在回报延迟的情况下进行长期规划。

现有的评估框架难以捕捉这些复杂的动态交互，导致我们无法准确衡量前沿模型在真实经济场景下的决策能力。为了解决这一差距，研究者引入了 SidConArena，这是一个专门用于评估 LLM 智能体在开放-ended、正和博弈环境中表现的新基准框架。

核心内容

SidConArena 将多玩家经济形式化为一个有限时域的、部分可观察的随机博弈（Partially Observable Stochastic Game, POSG）。该框架包含三个紧密耦合的阶段，旨在模拟复杂的经济互动：

自然语言谈判与绑定交易：智能体通过自然语言进行协商，并达成具有约束力的交易。这一阶段测试智能体的沟通、说服及契约执行能力。
基于确定性转换器的生产：在谈判结束后，智能体利用资源进行生产。这一阶段模拟了资源转化为产出的确定性过程。
长期资产的密封投标拍卖：智能体参与针对长期资产的拍卖，这要求智能体具备跨期决策和长期投资规划的能力。

为了支持这一复杂环境，SidConArena 结合了以下关键技术特性：

结构化观察：提供清晰的环境状态信息。
感知阶段的智能体调度：根据当前博弈阶段调度智能体的行动。
神经符号动作接口：结合神经网络的灵活性与符号逻辑的规则性，确保动作的规范性。
异步执行：支持非同步的操作流程，更贴近真实世界的交互节奏。

这种设计使得智能体能够在保持自由形式交互的同时，接受基于规则的性能评估。

关键要点

框架创新：SidConArena 是首个专门针对“开放-ended、正和博弈”设计的评估基准，突破了传统静态推理和零和博弈的局限。
三阶段博弈机制：通过“谈判-生产-拍卖”的耦合流程，全面测试智能体的协商、生产规划和长期投资能力。
技术实现：采用部分可观察随机博弈模型，结合神经符号接口和异步执行引擎，平衡了交互的自由度与评估的严谨性。
实验发现：
- 在同质性和异质性锦标赛中，更强大的前沿模型确实取得了更高的经济成果。
- 然而，所有智能体仍存在显著缺陷：
  - 资源估值偏差：智能体往往错误评估资源的价值。
  - 被动谈判：在谈判过程中表现过于被动，未能充分利用正和博弈的机会。
  - 长期规划局限：在长视距（long-horizon）的投资规划方面能力有限，难以有效应对延迟回报。

意义与影响

SidConArena 的提出标志着 LLM 智能体评估从“静态解题”向“动态经济交互”的重要转变。它揭示了当前前沿模型在复杂经济场景中的真实能力边界：尽管模型在基础推理上表现优异，但在涉及多方利益协调、长期价值创造和动态资源分配的复杂任务中，仍存在明显的短板。

这一基准不仅为研究人员提供了一个标准化的测试平台，以量化智能体在正和博弈中的表现，还为未来智能体架构的设计指明了方向——即需要增强智能体的谈判主动性、资源估值准确性以及跨期规划能力。随着多智能体系统在金融、供应链管理等现实领域的应用加深，SidConArena 所倡导的评估范式将变得愈发重要。

查看原文 →arxiv.org