技术博客arXiv cs.AI·6 天前

可微信念对手塑造

原标题：Differentiable Belief-based Opponent Shaping

速览

本文提出可微信念对手塑造（D-BOS），一种将观察者信念视为塑造状态的一阶方法。该方法通过k步softmax-Bayes信念动力学进行微分，使最优策略自然涌现。实验表明，D-BOS在混合动机隐藏角色游戏中优于PPO和BBM。

AI 深度解读

可微信念对手塑造（Differentiable Belief-based Opponent Shaping）深度解读

背景

在多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）领域，人类协作的一个核心特征是能够通过战略性行动影响他人的信念。然而，现有的“对手塑造”（Opponent Shaping）技术主要局限于在对手的参数空间、策略空间或价值空间中进行操作。这类方法虽然有效，但往往忽略了智能体之间通过信息交互产生的认知层面的动态变化。

与此同时，在隐藏角色游戏（Hidden-Role Games）等不完全信息博弈场景中，信念操纵技术通常依赖于硬编码的目标函数，例如强制欺骗或信念饱和。这种预设目标的方式缺乏灵活性，难以适应复杂多变的环境奖励结构，且无法自然地让最优策略从环境中涌现。

为了解决这一局限，研究人员提出了一种全新的方法，旨在通过可微分的方式直接对观察者的信念进行塑造，从而更贴近人类通过策略影响认知的本质。

核心内容

本文提出了一种名为 D-BOS（Differentiable Belief-based Opponent Shaping，可微信念对手塑造）的一阶优化方法。该方法的核心创新在于将每个观察者的“信念”视为被塑造的对手状态，并通过对 $k$ 步 softmax-Bayes 信念动力学进行微分，实现梯度回传。

1. 信念空间作为塑造目标

与传统方法不同，D-BOS 不显式地奖励欺骗或合作行为，而是将信念状态本身作为塑造的目标。这意味着智能体不再需要预先定义“我应该欺骗”或“我应该合作”，而是通过优化信念分布，让最优策略自然地根据环境的奖励结构涌现出来。

2. 可微信念动力学

D-BOS 的关键技术突破在于实现了信念更新过程的可微分性。在隐藏角色游戏中，智能体通常通过贝叶斯更新来推断其他玩家的角色或意图。D-BOS 引入了 $k$ 步 softmax-Bayes 信念动力学模型，允许算法在信念更新的过程中计算梯度。这使得智能体可以通过反向传播算法，直接调整自身行为以影响对手的信念状态。

3. 多观察者扩展

该方法天然支持多观察者场景。D-BOS 通过对各个个体推断出的信念轨迹进行梯度聚合，将对手塑造信号扩展到多个观察者。这种机制使得智能体能够同时考虑多个对手的认知状态，从而制定更具全局视野的策略。

4. 与现有方法的对比

传统对手塑造：通常在参数、策略或价值空间操作，难以直接处理信念层面的影响。
硬编码信念操纵：依赖固定的欺骗或饱和目标，缺乏适应性。
D-BOS：通过可微分信念更新，将信念作为状态变量，实现了更灵活、更自然的信念操控。

关键要点

方法名称：D-BOS (Differentiable Belief-based Opponent Shaping)。
核心机制：将观察者的信念视为被塑造的对手状态，并通过 $k$ 步 softmax-Bayes 信念动力学进行微分。
优化目标：不显式奖励特定行为（如欺骗），而是将信念状态作为目标，让最优策略从环境奖励结构中自然涌现。
技术优势：
- 实现了信念更新过程的可微分，支持梯度回传。
- 通过聚合个体信念轨迹的梯度，自然扩展到多观察者场景。
实验结果：在隐藏角色游戏中，D-BOS 的表现优于 PPO（Proximal Policy Optimization）和 BBM（Belief-based Method），特别是在混合动机（mixed-motive）设置下取得了最大的性能提升。
理论意义：首次提出了一种基于信念空间的可微对手塑造框架，为不完全信息博弈中的策略学习提供了新的视角。

意义与影响

D-BOS 的提出在多智能体强化学习领域具有重要的理论和实践意义：

弥合了信念操纵与强化学习之间的鸿沟：传统信念操纵方法多用于特定游戏场景且依赖硬编码规则，而 D-BOS 将其整合进可微分的强化学习框架中，使得信念操控成为可优化、可学习的策略组成部分。
提升了不完全信息博弈中的策略智能：通过直接操纵对手的信念，智能体能够在扑克、狼人杀等隐藏角色游戏中更有效地误导对手或建立信任，从而在混合动机环境中获得显著优势。
推动了可微分博弈理论的发展：D-BOS 证明了信念动力学可以被微分，这为未来研究更复杂的认知交互模型（如高阶信念、共同知识等）提供了技术基础。
增强了多智能体系统的协作与竞争能力：该方法不仅适用于竞争场景，其多观察者扩展能力也为研究复杂社会交互中的协作机制提供了新的工具。

总之，D-BOS 代表了一种从“行为塑造”向“认知塑造”转变的新范式，为构建更智能、更拟人化的多智能体系统开辟了新的道路。

查看原文 →arxiv.org