技术博客arXiv cs.AI·1 小时前

Age of LLM：迷雾战争下大模型推理与外交能力基准测试

原标题：Age of LLM: A Strategic 1v1 Benchmark for Reasoning, Diplomacy and Reliability of Large Language Models under Fog of War

速览

研究团队推出Age of LLM基准测试，通过1v1回合制策略游戏评估大模型在迷雾战争、完全外交及严格JSON格式约束下的表现。测试涵盖15个推理模型，重点考察信念追踪、自发欺骗及认知特征。该基准旨在揭示大模型在对抗性不确定性下的推理机制，并公开回放数据与查看器。

AI 深度解读

Age of LLM：迷雾战争下的LLM战略、外交与可靠性基准测试

背景

当前，大型语言模型（LLM）的评估主要集中在数学推理、代码生成或通用知识问答等领域。然而，在涉及多智能体交互、不完全信息博弈以及长期战略规划的复杂场景中，现有基准测试往往缺乏足够的压力测试。特别是在“战争迷雾”（Fog of War）——即信息不对称和不确定性极高的环境下，模型如何维持信念追踪（Belief Tracking）、进行外交博弈并遵守严格的操作约束，仍是一个未被充分探索的领域。

为了解决这一空白，研究人员引入了 Age of LLM，这是一个专为评估 LLM 在对抗性不确定性环境下推理能力、外交策略及可靠性而设计的 1v1 回合制基准测试。该基准旨在通过模拟类似即时战略游戏（RTS）的环境，揭示模型在秘密信息、动态交互和严格格式约束下的真实表现。

核心内容

Age of LLM 构建了一个基于 13x7 网格的回合制对战环境，两名 LLM 选手的目标是摧毁对方的基地。该基准设计刻意引入了三个核心压力维度，以模拟真实世界中的复杂决策场景：

战争迷雾（Fog of War）：模型无法完全掌握全局信息，必须通过局部观测来推断敌方状态。这要求模型具备强大的信念追踪能力，即在信息缺失的情况下更新对战场态势的认知。
完全外交机制（Full Diplomacy）：模型之间允许进行自由形式的文本交流，包括发送消息、提议停火或发出最后通牒。然而，关键资源（如铀矿）的状态是保密的。这种机制测试了模型在利益冲突下进行欺骗、谈判或建立信任的能力。
可靠性维度（Reliability Dimension）：这是该基准的独特之处。每个回合的操作必须严格遵循特定的 JSON 格式。如果模型生成的操作非法或格式错误，该动作将被静默丢弃（Silently Discarded），且不会给予任何反馈。这一设计将“可靠性”量化为模型遵守指令和维持状态一致性的能力。

实验设置与数据污染控制：

私有引擎与随机种子：测试引擎是私有的，每场比赛都使用全新的随机地图种子和对手。这种设计有效缓解了公共基准测试中常见的数据污染问题（Data Contamination），确保模型无法通过记忆过往测试用例来作弊。
最小化提示工程：模型仅接收近乎纯规则的提示（Rule-only prompt），不包含任何具体的战术建议或开局指南。尽管在数据收集阶段存在两个战术种子短语，但整体评估旨在测试模型的通用推理能力而非记忆能力。

评估规模与结果：研究团队对 15 个推理模型 进行了评估，共进行了 54 场比赛，累计分析了 5,258 次动作。主要发现如下：

核突袭主导战局：在规则连贯的子语料库（v0.11+）中，78% 的对局以“核突袭”结束；在整个语料库中，这一比例高达 85%。研究发现，这种“单发射手”（Sole-launcher）签名在很大程度上是机械性的，源于秘密同时发射规则下的博弈逻辑，而非模型认知上的威慑失败。
军事征服罕见但高效：纯粹的军事征服策略虽然罕见，但一旦成功，其结束速度明显快于核突袭（平均 12.3 回合 vs 18.9 回合）。
外交繁荣但难以落地：模型间的外交互动非常频繁，但几乎从未真正达成实质性的停火或合作。这表明模型在理解复杂外交意图和建立长期信任方面仍存在巨大挑战。
非法动作反映信念追踪能力：约 58% 的非法动作源于“战争迷雾”或状态错误（Fog/State Errors）。因此，非法动作率被用作衡量模型信念追踪（Belief Tracking）能力的指标。
可靠性与胜率的相关性（探索性发现）：数据中存在一个弱关联，表明可靠性较高的模型往往胜率更高。但由于语料库较小、不平衡且未进行侧向交换（Side-swapped），这一排名仅作为初步的描述性观点，不构成严格的因果贡献。

除了排名，该基准提供的逐回合动作和消息记录，为观察 LLM 如何在对抗性不确定性下推理提供了透镜，包括其信念追踪、自发欺骗行为以及不同模型的认知“人格”（Cognitive Personas）。

关键要点

基准创新：Age of LLM 是首个结合战争迷雾、自由外交和严格 JSON 格式约束的 1v1 战略基准，专门用于测试 LLM 在不完全信息下的可靠性。
反数据污染：通过私有引擎、随机地图种子和对手，有效避免了模型通过记忆训练数据或公共基准答案来刷分。
核威慑的机械性：高达 85% 的对局以核突袭结束，但这主要是规则驱动下的机械反应，而非模型具备高级战略威慑认知的证明。
外交的局限性：尽管模型能进行复杂的外交文本交互，但几乎无法将对话转化为实际的合作或停火协议。
可靠性即信念追踪：非法动作的主要来源是状态和迷雾相关的错误，因此遵守规则的能力直接反映了模型对战场状态追踪的准确性。
资源开源：研究团队发布了回放格式、等轴测视图工具（Isometric Viewer）以及所有比赛回放数据，引擎源代码在请求后可获取。

意义与影响

Age of LLM 的发布标志着 LLM 评估从“静态知识问答”向“动态多智能体交互”的重要转变。其意义体现在以下几个方面：

重新定义“可靠性”：传统基准往往忽略模型在长时间交互中的格式遵守和状态一致性。Age of LLM 证明，在复杂环境中，能够严格遵守约束（如 JSON 格式）并准确追踪隐藏状态的模型，具有更高的生存率和胜率。这为评估模型的“鲁棒性”提供了新的量化指标。
揭示 LLM 的战略局限：实验结果揭示了当前 LLM 在战略深度上的不足。虽然模型能生成看似合理的外交辞令，但缺乏将语言转化为可信行动的能力。同时，对核突袭的过度依赖表明，模型尚未真正理解“威慑”的心理或战略层面，而是遵循了概率上的最优解。
为未来研究提供数据透镜：该基准不仅是一个排名工具，更是一个研究平台。通过逐回合的轨迹数据，研究人员可以深入分析模型的“认知人格”，例如哪些模型倾向于欺骗，哪些模型更保守，以及它们如何在信息缺失下进行假设推理。
推动多智能体博弈研究：通过引入战争迷雾和秘密信息，Age of LLM 为多智能体强化学习（MARL）与大语言模型的结合提供了新的测试床。它促使研究者思考如何让 LLM 更好地处理不确定性，并在动态环境中保持长期的一致性。

总之，Age of LLM 不仅是对现有模型能力的一次压力测试，更为理解 LLM 在复杂、对抗性环境中的行为模式提供了宝贵的实证数据。

查看原文 →arxiv.org