← 返回信息流
技术博客arXiv cs.AI·2 天前

MindGames Arena通用赛道:In2AI方案获双料冠军

原标题:MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

速览

针对多智能体战略交互中奖励分配难题,In2AI方案引入延迟每步奖励归因与资格门控机制。该方案结合异步 rollout 生成与课程对抗采样,实现了稳定且样本高效的强化学习训练。在NeurIPS 2025 MindGames Arena基准测试中,该8B开源模型在开放和高效赛道均获第一,超越GPT-5等闭源系统。

AI 深度解读

MindGames Arena 泛化赛道:In2AI 解决方案与延迟单步奖励归因

背景

在人工智能领域,训练能够进行多智能体策略交互的大型语言模型(LLM)代理面临着核心挑战。与传统的单步决策环境不同,多智能体博弈中的动作质量往往取决于尚未发生的未来事件、违反游戏规则的无效走法,以及其他玩家做出的决策。

标准的强化学习(RL)算法通常假设奖励可以在每一步明确分配,但在多智能体环境中,结果在时间和智能体之间高度纠缠,导致这一假设失效。这种“信用分配”难题使得传统的即时奖励机制难以有效指导模型学习长期策略。此外,现有的基准测试往往难以在计算效率与模型性能之间取得平衡,尤其是开源小参数模型在与大型专有系统竞争时处于劣势。

在此背景下,NeurIPS 2025 举办的 MindGames Arena 泛化赛道(Generalization Track)旨在评估智能体在复杂、动态多智能体环境中的泛化能力和训练效率。

核心内容

本文介绍了 In2AI 解决方案,其核心创新在于引入了一种**带有资格门控的延迟单步奖励归因(Delayed Per-Step Reward Attribution with Eligibility Gating)**机制,并结合了异步 rollout 生成、基于课程的学习对手采样以及多级分层批量构建技术,实现了在多智能体环境中稳定且样本高效的强化学习训练。

1. 延迟单步奖励归因与资格门控

针对多智能体博弈中奖励滞后和因果链条复杂的问题,In2AI 提出了一种新的 episode 生命周期和后处理流水线:

  • 终局计算:不在每一步即时分配奖励,而是在 episode(回合)结束时统一计算最终奖励。
  • 回溯传播:根据任务特定的语义逻辑,将最终奖励回溯传播到产生该结果的原始步骤。
  • 资格门控(Eligibility Gating):在训练过程中,排除那些缺乏有效依赖信息的步骤。这意味着只有那些对最终结果有明确因果贡献的步骤才会被纳入梯度更新,从而噪声过滤和信用分配的准确性。

2. 高效训练基础设施

为了支撑上述复杂的奖励归因机制,In2AI 采用了以下工程优化:

  • 异步 Rollout 生成:利用 vLLM 的连续批处理(Continuous Batching)技术,异步生成推理数据,最大化 GPU 利用率,减少等待时间。
  • 基于课程的学习对手采样:动态调整对手的难度和类型,帮助模型从简单场景逐步过渡到复杂博弈,提升泛化能力。
  • 多级分层批量构建:优化训练批次的构成,确保数据多样性和训练稳定性。

3. 性能评估与结果

该方案在 NeurIPS 2025 MindGames Arena 基准测试中进行了评估。实验结果表明:

  • 一个仅拥有 80 亿参数的开源模型,在使用 In2AI 方法训练后,在对弈表现上匹配或超越了显著更大的专有系统,包括 GPT-5
  • 该模型在 Open(无限制)Efficient(<=8B 参数) 两个赛道中均获得第一名。

这一结果证明了通过改进奖励归因机制和训练流水线,小参数开源模型可以在多智能体策略交互任务中达到甚至超越顶级专有模型的性能。

关键要点

  • 解决信用分配难题:通过延迟奖励归因和资格门控,解决了多智能体环境中因因果纠缠导致的奖励分配不准确问题,排除了无效步骤的干扰。
  • 样本高效训练:结合 vLLM 连续批处理和异步生成,显著提升了训练效率,使得在有限计算资源下训练高性能模型成为可能。
  • 开源模型超越专有模型:80 亿参数的开源模型在 MindGames Arena 基准测试中击败或持平 GPT-5 等大规模专有系统,打破了“只有大参数专有模型才能赢得复杂博弈”的固有认知。
  • 双赛道夺冠:In2AI 方案在 MindGames Arena 的 Open 赛道(不限参数)和 Efficient 赛道(<=8B 参数)中均取得第一名,展示了其在不同约束条件下的通用性和优越性。
  • 技术组合创新:该方法并非单一算法改进,而是将延迟奖励归因、异步推理优化、课程学习对手采样和分层批量构建有机结合的系统性解决方案。

意义与影响

In2AI 方案及其在 MindGames Arena 的成功,对多智能体强化学习和大型语言模型应用具有深远影响:

  1. 重新定义小模型能力边界:证明了通过先进的训练方法论(如延迟奖励归因),小参数模型可以在复杂的策略交互任务中媲美甚至超越超大参数模型。这降低了部署和维护成本,促进了开源 AI 生态的发展。
  2. 优化 RLHF/RL 训练范式:提出的“延迟单步奖励归因”为处理长序列、多智能体依赖问题提供了新的思路。这种方法可以推广到其他需要长期信用分配的场景,如复杂推理、代码生成或多步规划任务。
  3. 推动高效 AI 基础设施发展:对 vLLM 连续批处理等技术的深度应用,强调了工程优化在 AI 训练中的关键作用。未来,算法创新与系统效率的结合将成为提升模型性能的重要路径。
  4. 促进多智能体博弈研究的标准化:MindGames Arena 作为 NeurIPS 2025 的重要基准,其结果验证了 In2AI 方法的鲁棒性。这为后续研究提供了一个强有力的参考基线,鼓励更多团队探索高效、可扩展的多智能体训练方案。

总之,In2AI 不仅是一个竞赛获胜方案,更代表了一种在资源受限条件下实现高性能多智能体智能体的新范式,为未来 AI 系统在复杂交互环境中的应用提供了宝贵经验。

查看原文 →arxiv.org