技术博客arXiv cs.CL·4 小时前

大模型多跳心智理论新测试：引入小丑角色的三方狼人杀

原标题：Triadic Werewolf: A Jester Role for Multi-Hop Theory of Mind in LLMs

速览

研究通过引入小丑角色扩展狼人杀游戏，构建包含三种对立效用函数的三方博弈环境，以评估大模型的多跳心智理论能力。实验显示，GPT-4.1等模型常因语言先验而做出自毁投票，仅DeepSeek通过自学习掌握了微妙的伪装策略。该三方激励机制暴露了传统二元推理游戏无法察觉的多智能体推理盲区。

AI 深度解读

Triadic Werewolf：为多跳心智理论引入“小丑”角色的博弈实验

背景

大语言模型（LLMs）在评估其“心智理论”（Theory of Mind, ToM）——即理解他人拥有与自己不同的信念、意图和知识的能力——时，通常依赖于二元社会推理游戏。在这些传统测试中，参与者通常分为两方（如好人 vs. 狼人），所有的可观察线索都指向单一的隐藏阵营。

这种二元结构存在一个显著的缺陷：拥有强大语言先验知识的模型，往往可以通过模式匹配或概率推断来取得高分，而无需真正模拟对手的激励机制或进行复杂的心理博弈。换句话说，模型可能只是在“猜”答案，而不是在“理解”对手。为了突破这一局限，研究者需要一种更复杂的博弈环境，迫使模型处理相互冲突的多重效用函数，从而暴露出其在多智能体推理中的真实能力层级。

核心内容

本研究提出了一种名为 Triadic Werewolf（三元狼人杀）的新评估框架，旨在通过引入第三个阵营来打破二元对称性，从而测试 LLMs 的多跳心智理论能力。

1. 游戏机制创新：引入“小丑”（Jester）

在经典的狼人杀游戏中，通常只有两个阵营：狼人（Werewolves，隐藏身份，试图存活并消灭村民）和村民（Villagers，公开身份，试图找出并投票淘汰狼人）。

本研究引入了第三个阵营——小丑（Jester）。小丑的核心特征在于其效用函数的反转：

获胜条件：小丑的目标不是存活，而是被其他玩家投票出局。
策略困境：为了获胜，小丑必须表现得足够可疑，以引起怀疑，但又不能表现得过于刻意，以免被识破其“求死”的真实意图。这要求模型在“看起来可疑”和“看起来不像是在故意装可疑”之间进行极其微妙的平衡。

这种设计创造了一个三元激励结构，迫使模型同时推理三个相互对立的效用函数，而不仅仅是二元对立。

2. 实验设置

模型：测试了 GPT-4.1、DeepSeek-V3.1 和 Llama-3.3-70B。
规模：共进行了 60 场游戏。
变量：对比了开启和关闭“小丑自学习”（Jester self-learning）两种情况下的表现。自学习允许小丑阵营的模型在多次游戏中迭代优化其策略。

3. 实验结果

胜率分布

小丑占据绝对优势：无论是否开启自学习，小丑阵营的胜率高达 60-70%。
狼人表现低迷：狼人阵营的胜率从未超过 20%。
村民成为牺牲品：由于小丑频繁被误投出局，村民阵营往往承担了主要的失败成本。

模型行为分析

GPT-4.1 的“自毁”倾向：在 60-70% 的游戏中，GPT-4.1 控制的狼人在第一天就投票将小丑出局。这是一个严格意义上的“自我毁灭”行为，因为投票出局小丑意味着狼人失去了一个潜在的干扰项，且未能达成淘汰村民的目标。这表明 GPT-4.1 未能理解小丑被投出对狼人阵营的负面影响，或者未能模拟小丑的获胜动机。
自学习的差异化影响：
- DeepSeek-V3.1 和 Llama-3.3-70B：自学习机制帮助这两个模型提升了表现。
- GPT-4.1：自学习反而对其产生了负面影响（hurt），且代价由村民承担，而非狼人。
策略深度差异：只有 DeepSeek 成功学会了“看起来可疑，但不要看起来像是在故意装可疑”这一微妙策略，并从自学习循环中获益最多。

关键要点

三元博弈打破二元幻觉：传统的二元社会推理游戏容易让 LLMs 通过语言先验“作弊”，而引入小丑的三元结构迫使模型处理更复杂的心理博弈。
小丑的高胜率揭示推理盲区：小丑 60-70% 的高胜率表明，当前主流模型在识别和应对“反向激励”目标时存在巨大困难。
GPT-4.1 的短视行为：GPT-4.1 频繁在首日投票淘汰小丑，显示出其缺乏对多步后果的模拟能力，这种行动在博弈论上是严格劣质的。
自学习并非万能：自学习对 DeepSeek 和 Llama 有益，但对 GPT-4.1 有害，说明不同模型架构对反馈循环的利用方式存在本质差异。
细微策略的稀缺性：只有 DeepSeek 掌握了“伪装的模糊性”（ambiguous suspicion）这一高阶策略，证明了当前大多数模型仍停留在表面推理层面。

意义与影响

这项研究揭示了当前大语言模型在多智能体推理中的一个关键缺陷：对非直观激励机制的模拟能力不足。

评估范式的升级：Triadic Werewolf 提供了一个比传统二元游戏更严格的基准。它证明了仅靠语言概率无法通过高阶心智理论测试，必须引入更复杂的博弈结构才能区分“模式匹配”与“真正理解”。
暴露模型的“天真”假设：GPT-4.1 等顶级模型在游戏中的表现表明，它们可能默认其他玩家的行为是“理性且符合常规目标”的，而无法处理“希望被误解”或“希望被惩罚”的反常效用函数。这对于设计需要处理恶意用户或复杂社会互动的 AI 系统具有警示意义。
自学习的局限性：研究结果表明，简单的反馈循环（自学习）并不总能提升模型的社会推理能力，甚至可能强化错误的策略。这提示未来的研究需要更精细的训练机制，而不仅仅是增加游戏次数。
多跳推理的必要性：只有能够进行多跳推理（multi-hop reasoning）——即预测“我预测他预测我”——的模型（如 DeepSeek 在特定策略上）才能在这一任务中取得相对较好的表现。这为未来 LLMs 的架构优化指明了方向：增强对长期博弈后果和多重意图的建模能力。

查看原文 →arxiv.org