AI 资讯Hacker News·6 天前

Rock-Paper-Scissors 的秘密花园

原标题：The Secret Garden of Rock-Paper-Scissors

速览

石头剪刀布常被视为纯随机游戏，但研究表明人类行为存在可预测的模式。通过分析历史数据，可以发现玩家倾向于重复或循环特定的出拳序列。这一发现对于开发更智能的博弈算法和AI对手具有重要参考价值。

AI 深度解读

石头剪刀布的隐秘花园：从博弈论看扩展游戏的策略深度

背景

在智力博弈中，很难找到比“石头剪刀布”（Rock-Paper-Scissors, RPS）更平衡的游戏。其极简的规则意味着所有复杂的策略计算都被剥离，剩下的纯粹是对对手心理的“冷读”——通过眼神和直觉预判对方将出什么。

然而，这种极致的平衡也带来了局限性：选项太少，平局率高（1/3），且策略空间狭窄。如果我们要增加选项，让每种武器都具备可行性，简单的增加至4个选项是行不通的，必须跳跃至5个选项，即著名的“石头剪刀布蜥蜴史波克”（Rock-Paper-Scissors-Lizard-Spock, RPSLS）。RPSLS 中，每种武器击败两个对手，也被两个对手击败。虽然它降低了平局率（降至1/5），但其复杂性极高，且缺乏内在的逻辑美感。

本文基于 Fractal Philosophy 发布的一段视频，深入探讨了当我们将“石头剪刀布”扩展到更多选项，并允许平局存在时，会揭示出一个丰富的游戏动力学和策略“花园”。

核心内容

从“悖论锦标赛”到“弱锦标赛”

传统的石头剪刀布及其扩展版（如 RPSLS）在形式上被称为悖论锦标赛（Paradoxical Tournaments）。

锦标赛：意味着游戏没有平局。
悖论：意味着每一个动作都能被另一个动作克制。

视频中的讨论止步于最小的“双悖论锦标赛”（Two-paradoxical tournament），即每对动作都有一个共同的克制者。这种情况直到 $n=7$（7个选项）才会出现，但这确保了基于此类动力学的游戏拥有广泛的可行策略。

然而，作者认为完全消除平局是不自然的。如果允许平局，我们将约束条件从“锦标赛”放宽为**“弱锦标赛”（Weak Tournaments）。为了保持游戏的趣味性，我们要求游戏是连通**的（Connected），即胜负关系的链条能触及每一个选项，避免游戏分裂成互不相关的孤立部分。

平衡游戏：坦克与玻璃大炮

在允许平局且保持连通性的前提下，我们可以绘制出不同的游戏结构图。每个节点（选项）用 W-T-L（胜-平-负）来标记其对阵其他选项的结果。

常规游戏（Regular Games）：如 RPS 和 RPSLS，每个选项的胜场数和负场数相同，进出连接均衡。
非平衡策略的平衡游戏：这是最有趣的部分。通过引入平局，我们允许了实质不同的策略类型：
- “坦克”型（Tanky）：例如 1-2-1 策略。只输给一个选项，也只击败一个选项，但有两个平局选项。这是一种稳健但缺乏爆发力的选择。
- “玻璃大炮”型（Glass Cannon）：例如 2-0-2 策略。击败两个选项，但也输给两个选项，没有平局。这是一种高风险高回报的选择。

尽管策略类型不同，但由于每个节点的胜场和负场数量相同，它们在概率上仍然是平衡的（Balanced Game），即每个选项获胜和失败的几率是相等的。

在 $n=5$ 时，只有上述四种平衡游戏。但当 $n=6$ 时，情况变得复杂，共有16种平衡游戏，其中5种是常规游戏。

案例：元素主题游戏 作者设计了一个基于元素的 $n=5$ 游戏：火（Fire）- 水（Water）- 草（Grass）- 粘土（Clay）- 沙（Sand）。

2-0-2 选项（强力但脆弱）：水和火。
- 水灭火，并覆盖沙。
- 火烤干粘土，并燃烧草。
1-2-1 选项（稳健）：草、粘土、沙。
- 这三个选项之间互相平局。
- 草吸收水，粘土容纳水，沙掩埋火。
- 它们分别击败或输给上述两个强力选项之一。

包容性游戏：非对称策略

如果某些选项的攻击性强于防御性，或者反之，游戏会怎样？只要满足包容性（Inclusive）条件，游戏依然成立。

定义：在最优玩法下，所有选项在纳什均衡（Nash Equilibrium）中都必须具有正概率。这意味着没有选项是严格劣于其他选项的（即不存在绝对垃圾选项）。

在 $n=4$ 时，存在多种包容性游戏，策略变得有意义地不同：

强策略：2-0-1（击败2个，平0个，输1个）
弱策略：1-0-2（击败1个，平0个，输2个）
平衡策略：1-1-1

尽管强弱策略在单次对抗中胜率不同，但在纳什均衡下，它们获胜的总概率是相等的。最优玩法要求玩家根据特定概率混合使用这些策略。

案例：警察主题游戏（WCKP） 作者设计了一个 $n=4$ 的游戏：目击者（Witness）- 警察（Cop）- 警犬（K-9）- 罪犯（Perp）。

目击者 (2-0-1)：最强选项。 withhold 证据给警察，不干扰警犬。
警察 (1-1-1)：平衡选项。控制警犬，抓获罪犯。
警犬 (1-1-1)：平衡选项。不直接与目击者互动。
罪犯 (1-0-2)：弱选项。警告目击者（克制目击者），但输给警察和警犬。

在这个游戏中，虽然“警察”看起来是最强的（2-0-1），但通过计算纳什均衡，我们发现最优策略是：

40% 的时间选择“目击者”。
剩余 60% 的时间，在“警察”、“警犬”和“罪犯”之间平均分配（各20%）。

这种非对称性创造了丰富的叙事空间和心理博弈点：对手是否讨厌警察？是否喜欢模仿警犬吠叫？这些都是可以利用的心理钩子。

合并者与拆分者（Lumpers and Splitters）

并非所有看起来不同的游戏都有意义。有些游戏只是将 RPS 中的某个选项拆分为两个完全相同的选项（例如“石头”拆分为“巨石”和“砖块”）。

双胞胎自由（Twin-free）：如果两个选项击败相同的对手、输给相同的对手，且互相平局，它们就是“双胞胎”。我们可以将它们合并为一个选项，从而将游戏简化为 $n-1$ 的游戏。
作者指出，上述的“元素游戏”实际上是“警察游戏”的伪装：粘土和草都击败水、输给火，且互相平局，因此可以合并为等效的“目击者”。

决策瘫痪与多重均衡

对于复杂的包容性游戏（如 WCKP），记忆最优混合策略可能很困难。好消息是，游戏可能有多个均衡点。

策略 A：50% 时间选警犬，50% 时间选目击者。两者弱点相互抵消，对手无法获利。
策略 B：1/3 时间选警察，1/3 选罪犯，1/3 选目击者，完全忽略警犬。这也是一种平衡。

事实上，存在一个连续的最优策略谱系，连接了上述两种极端策略。玩家可以在这个谱系中自由选择，只要保持概率分布符合纳什均衡即可。

关键要点

扩展选项的逻辑：简单的增加选项（如4个）无法保持平衡，必须跳跃至5个（如 RPSLS）或引入平局机制。
弱锦标赛的价值：允许平局（弱锦标赛）并保证游戏连通性，可以揭示出更丰富的策略结构，如“坦克”型（1-2-1）和“玻璃大炮”

查看原文 →theshamblog.com