技术博客arXiv cs.AI·14 小时前

超越静态评估：LLM驱动对抗博弈策略协同进化

原标题：Beyond Static Evaluation: Co-Evolutionary Mechanisms for LLM-Driven Strategy Evolution in Adversarial Games

速览

针对LLM驱动代码进化在对抗性多智能体博弈中因评估环境动态变化导致的停滞问题，研究提出评估器协同进化、分层深度评估及弱点压力三大机制。基于此构建的FAMOU框架在MCTF 2026 3v3海战夺旗任务中表现优异，不仅超越基线模型，还通过LLM变异生成了前瞻搜索等全新战术结构。该策略在AAMAS 2026 MCTF竞赛的硬件循环赛中获得第一名，验证了其在真实场景中的有效性与可迁移性。

AI 深度解读

Beyond Static Evaluation: Co-Evolutionary Mechanisms for LLM-Driven Strategy Evolution in Adversarial Games

背景

近年来，基于大型语言模型（LLM）的代码进化技术取得了显著进展。通过迭代地生成和改进程序，这些方法能够自动发现更优的代码解决方案。然而，当将这些方法应用于对抗性多智能体游戏（Adversarial Multi-Agent Games）时，面临着一个根本性的挑战：评估景观的动态变化。

在对抗性环境中，随着策略的不断改进，对手的行为模式也会随之改变。这意味着原本固定的评估器（Evaluator）会逐渐变得不可靠，因为测试环境不再具有静态性。这种“移动的目标”现象导致进化过程容易陷入停滞，无法进一步突破性能瓶颈。传统的静态评估方法难以适应这种动态博弈环境，亟需新的机制来维持进化的有效性和方向性。

核心内容

为了解决上述挑战，研究团队提出了三种核心机制，并将其整合到一个名为 FAMOU 的框架中。该框架建立在与 OpenEvolve 和 ShinkaEvolve 相同的基础模型代码进化范式之上。

1. 评估器协同进化（Evaluator Co-Evolution）

传统的评估往往使用固定的对手池，但随着被评估策略的变强，这些固定对手变得过于简单，无法提供有效的梯度信号。FAMOU 引入了协同进化机制，将进化过程中发现的“冠军策略”（Champions，即表现最优的策略）纳入对手池。这意味着评估者本身也在随着被评估策略的进步而“进化”，确保评估的持续挑战性和有效性。

2. 分层深度评估（Hierarchical Deep Evaluation）

在对抗性游戏中，仅依靠少数几场游戏的胜负得分（Few-game scores）往往噪声极大，不足以准确反映策略的真实水平。FAMOU 采用分层深度评估方法，通过统计上更可靠的评估指标替代简单的胜负计数。这种方法能够更准确地衡量策略在不同对抗情境下的鲁棒性和泛化能力，减少因随机性导致的评估偏差。

3. 弱点压力（Weakness Pressure）

为了帮助策略突破性能 plateau（平台期），FAMOU 引入了弱点压力机制。该机制动态地增加对最难击败的对手的权重。通过聚焦于那些当前策略难以应对的特定弱点，迫使进化过程去解决最棘手的对抗场景，从而推动策略从局部最优向全局最优迈进。

实验验证与成果

研究团队在 MCTF 2026（Maritime Capture-the-Flag，海上夺旗任务）的 3v3 对抗场景中验证了 FAMOU 的有效性。

性能表现：在两种不同的骨干 LLM（Backbone LLMs）支持下，FAMOU 均稳定优于基线方法。
- 取得了最高的综合得分 0.526。
- 在未见过的对手上展现了最佳的泛化能力，胜率高达 61.7%。
消融实验：实验证实，上述三种机制（协同进化、深度评估、弱点压力）各自对最终性能的提升均有显著贡献。
算法创新：值得注意的是，LLM 的突变过程生成了种子策略中完全不存在的战术结构，包括前瞻搜索（Lookahead Search）和自适应拦截（Adaptive Interception）。这证明了在代码层面的进化可以在对抗性环境中产生非平凡的算法创新。
现实世界验证：经过 FAMOU 进化的策略在 AAMAS 2026 MCTF 竞赛中取得了优异成绩：
- 硬件循环赛（Hardware Round-Robin）：第 1 名
- 模拟赛（Simulation）：第 3 名 这一结果验证了该策略从仿真到现实硬件部署的可转移性。

关键要点

动态评估难题：对抗性多智能体博弈中，策略改进会导致评估环境变化，固定评估器失效，导致进化停滞。
FAMOU 框架：基于 OpenEvolve 和 ShinkaEvolve 的代码进化范式，专为对抗性环境设计。
三大创新机制：
1. 评估器协同进化：将冠军策略纳入对手池，保持评估难度。
2. 分层深度评估：用统计可靠的评估替代噪声大的少量游戏得分。
3. 弱点压力：动态加权最难对手，突破性能瓶颈。
显著性能提升：在 MCTF 2026 任务中，FAMOU 取得最高综合分（0.526）和最佳泛化胜率（61.7%）。
涌现复杂算法：进化过程自动生成了种子策略中不存在的复杂战术（如前瞻搜索、自适应拦截）。
现实落地能力：在 AAMAS 2026 竞赛中，硬件赛夺冠，模拟赛获季军，证明了技术从仿真到实体的有效迁移。

意义与影响

这项研究标志着 LLM 驱动的代码进化从静态、单智能体场景向动态、多智能体对抗场景的重要跨越。

首先，它解决了对抗性 AI 进化中的核心痛点——评估漂移（Evaluation Drift）。通过引入协同进化和动态加权机制，FAMOU 证明了即使在对手策略不断变化的环境中，自动化代码进化依然可以保持高效和稳定。

其次，研究展示了 LLM 在代码层面进行算法创新的潜力。生成的“前瞻搜索”和“自适应拦截”等战术并非人工预设，而是通过进化过程涌现出来的。这表明 LLM 不仅可以优化现有代码，还可以发现人类设计者可能忽略的新型算法结构。

最后，AAMAS 2026 竞赛中的优异成绩验证了该方法的工程实用性和鲁棒性。从仿真到硬件的顺利迁移，为未来在机器人控制、网络安全、自动驾驶等需要实时对抗决策的领域应用 LLM 驱动的自我进化技术提供了有力的实证支持。随着优化后的实现代码和评估代码的公开，该研究将进一步推动对抗性多智能体系统自动化设计的发展。

查看原文 →arxiv.org