技术博客arXiv cs.AI·1 天前

RTSGameBench：基于视觉语言模型的即时战略推理基准

原标题：RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models

速览

针对现代视觉语言模型在竞争与合作场景下战略推理能力的不足，研究团队提出了RTSGameBench基准。该基准基于Beyond All Reason游戏，通过多样化的对战结构、针对单项能力的迷你游戏以及自我进化的生成框架，系统性地评估模型在部分可观测环境下的长期规划与协作能力。实验表明，当前主流VLM在需要紧密协调和大规模任务时表现不佳。

AI 深度解读

RTSGameBench：基于视觉语言模型的即时战略游戏策略推理基准测试

背景

现代视觉语言模型（Vision-Language Models, VLMs）在理解图像和文本方面取得了显著进展，但在面对具有高度不确定性的竞争或合作环境时，往往难以进行有效的策略推理（Strategic Reasoning）。这种能力不仅要求模型理解当前状态，更要求它能够预测并影响其他智能体（Agent）的行为。

即时战略（Real-Time Strategy, RTS）游戏因其复杂的机制，被视为诊断这一局限性的天然测试床。RTS 游戏要求玩家在部分可观测（Partial Observability）的环境下，进行长期的规划、与盟友的协调以及对对手策略的动态适应。然而，现有的 RTS 基准测试存在明显缺陷：评估范围有限，缺乏对核心能力的系统性诊断，且场景覆盖固定，无法动态扩展。为了突破这些限制，研究人员提出了 RTSGameBench。

核心内容

本研究提出了 RTSGameBench，这是一个专为评估视觉语言模型在即时战略游戏中策略推理能力而设计的基准测试框架。该基准测试建立在 Beyond All Reason 这一大规模 RTS 游戏引擎之上，其特点是拥有更广阔的战场和比现有测试平台更丰富的策略多样性。

RTSGameBench 的核心架构包含三个主要评估维度：

多样化对局评估：通过多种不同的对阵结构（Matchup Structures）和游戏玩法，全面评估模型在复杂对抗中的表现。
诊断性评估（Mini-games）：设计了一系列迷你游戏，每个迷你游戏专门针对某一项特定的策略能力（如资源管理、单位微操、宏观布局等）进行独立诊断，从而实现对模型能力的细粒度分析。
可扩展的场景覆盖：引入了一种自我进化的生成框架（Self-evolving generation framework）。该框架能够将自由形式的查询（Free-form queries）转化为新的迷你游戏，并在连续的迭代周期中不断优化和扩展测试场景，解决了传统基准测试场景固定、覆盖有限的问题。

此外，为了让 VLMs 能够实际运行在大规模的 RTS 游戏中，研究团队还开发了 RTSGameAgent。该代理通过有限状态机（FSM）结合具有代理记忆（Agentic Memory）的机制来管理游戏单位，实现了从高层策略到具体执行的闭环。

在实证研究中，研究人员对多个最先进的 VLMs 进行了测试。结果表明，当对局要求 tighter coordination（更紧密的协调）、多智能体协作（Multiagent coordination）以及任务规模扩大时，这些主流 VLMs 的表现均不理想。这揭示了当前视觉语言模型在复杂动态策略推理方面的显著短板。

关键要点

基准测试名称：RTSGameBench，基于 Beyond All Reason 引擎构建。
核心目标：评估视觉语言模型（VLMs）在竞争和合作环境下的策略推理能力，特别是预测和影响其他智能体行为的能力。
三大评估机制：
- 多样化对局：覆盖多种对阵结构和玩法。
- 迷你游戏诊断：针对单项策略能力进行独立测试。
- 自我进化框架：将自然语言查询转化为新游戏场景，实现测试集的动态扩展。
执行代理：提供 RTSGameAgent，利用有限状态机（FSM）和代理记忆管理单位，使 VLMs 能介入大规模 RTS 游戏。
实验结论：当前最先进的主流 VLMs 在需要紧密协调、多智能体协作及大规模任务场景下，策略推理能力表现不佳。
技术背景：RTS 游戏具有部分可观测性、长期规划需求和动态适应性，是检验 AI 策略能力的理想环境。

意义与影响

RTSGameBench 的提出填补了当前 AI 评估领域的一个重要空白。现有的基准测试多集中于静态图像识别或简单的逻辑推理，缺乏对动态、多智能体交互环境中长期策略规划的评估。

推动 VLMs 向具身智能和策略智能演进：通过揭示当前 VLMs 在协调和长期规划上的不足，RTSGameBench 为后续研究指明了改进方向，即如何增强模型在不确定性环境下的推理和适应能力。
提供细粒度的能力诊断工具：通过迷你游戏和系统性诊断，研究人员可以精确识别模型在哪些具体策略环节（如微观操作 vs 宏观战略）存在缺陷，而非仅仅得到一个笼统的得分。
动态可扩展的评估范式：自我进化的生成框架为 AI 基准测试提供了一种新的方法论，即测试集不应是静态的，而应能根据模型的表现和新的研究问题动态生成，从而防止过拟合并持续挑战模型极限。
促进多智能体协作研究：该基准测试强调多智能体协调和对抗，有助于推动多智能体强化学习与视觉语言模型结合的研究，为开发更复杂的协作型 AI 系统奠定基础。

总之，RTSGameBench 不仅是一个评估工具，更是一个推动视觉语言模型从“感知理解”向“策略行动”跨越的重要基础设施。

查看原文 →arxiv.org