Rock-Paper-Scissors 的秘密花园
速览
石头剪刀布常被视为纯随机游戏,但研究表明人类行为存在可预测的模式。通过分析历史数据,可以发现玩家倾向于重复或循环特定的出拳序列。这一发现对于开发更智能的博弈算法和AI对手具有重要参考价值。
AI 深度解读
石头剪刀布的隐秘花园:从博弈论看扩展游戏的策略深度
背景
在智力博弈中,很难找到比“石头剪刀布”(Rock-Paper-Scissors, RPS)更平衡的游戏。其极简的规则意味着所有复杂的策略计算都被剥离,剩下的纯粹是对对手心理的“冷读”——通过眼神和直觉预判对方将出什么。
然而,这种极致的平衡也带来了局限性:选项太少,平局率高(1/3),且策略空间狭窄。如果我们要增加选项,让每种武器都具备可行性,简单的增加至4个选项是行不通的,必须跳跃至5个选项,即著名的“石头剪刀布蜥蜴史波克”(Rock-Paper-Scissors-Lizard-Spock, RPSLS)。RPSLS 中,每种武器击败两个对手,也被两个对手击败。虽然它降低了平局率(降至1/5),但其复杂性极高,且缺乏内在的逻辑美感。
本文基于 Fractal Philosophy 发布的一段视频,深入探讨了当我们将“石头剪刀布”扩展到更多选项,并允许平局存在时,会揭示出一个丰富的游戏动力学和策略“花园”。
核心内容
从“悖论锦标赛”到“弱锦标赛”
传统的石头剪刀布及其扩展版(如 RPSLS)在形式上被称为悖论锦标赛(Paradoxical Tournaments)。
- 锦标赛:意味着游戏没有平局。
- 悖论:意味着每一个动作都能被另一个动作克制。
视频中的讨论止步于最小的“双悖论锦标赛”(Two-paradoxical tournament),即每对动作都有一个共同的克制者。这种情况直到 $n=7$(7个选项)才会出现,但这确保了基于此类动力学的游戏拥有广泛的可行策略。
然而,作者认为完全消除平局是不自然的。如果允许平局,我们将约束条件从“锦标赛”放宽为**“弱锦标赛”(Weak Tournaments)。为了保持游戏的趣味性,我们要求游戏是连通**的(Connected),即胜负关系的链条能触及每一个选项,避免游戏分裂成互不相关的孤立部分。
平衡游戏:坦克与玻璃大炮
在允许平局且保持连通性的前提下,我们可以绘制出不同的游戏结构图。每个节点(选项)用 W-T-L(胜-平-负)来标记其对阵其他选项的结果。
- 常规游戏(Regular Games):如 RPS 和 RPSLS,每个选项的胜场数和负场数相同,进出连接均衡。
- 非平衡策略的平衡游戏:这是最有趣的部分。通过引入平局,我们允许了实质不同的策略类型:
- “坦克”型(Tanky):例如 1-2-1 策略。只输给一个选项,也只击败一个选项,但有两个平局选项。这是一种稳健但缺乏爆发力的选择。
- “玻璃大炮”型(Glass Cannon):例如 2-0-2 策略。击败两个选项,但也输给两个选项,没有平局。这是一种高风险高回报的选择。
尽管策略类型不同,但由于每个节点的胜场和负场数量相同,它们在概率上仍然是平衡的(Balanced Game),即每个选项获胜和失败的几率是相等的。
在 $n=5$ 时,只有上述四种平衡游戏。但当 $n=6$ 时,情况变得复杂,共有16种平衡游戏,其中5种是常规游戏。
案例:元素主题游戏 作者设计了一个基于元素的 $n=5$ 游戏:火(Fire)- 水(Water)- 草(Grass)- 粘土(Clay)- 沙(Sand)。
- 2-0-2 选项(强力但脆弱):水和火。
- 水灭火,并覆盖沙。
- 火烤干粘土,并燃烧草。
- 1-2-1 选项(稳健):草、粘土、沙。
- 这三个选项之间互相平局。
- 草吸收水,粘土容纳水,沙掩埋火。
- 它们分别击败或输给上述两个强力选项之一。
包容性游戏:非对称策略
如果某些选项的攻击性强于防御性,或者反之,游戏会怎样?只要满足包容性(Inclusive)条件,游戏依然成立。
- 定义:在最优玩法下,所有选项在纳什均衡(Nash Equilibrium)中都必须具有正概率。这意味着没有选项是严格劣于其他选项的(即不存在绝对垃圾选项)。
在 $n=4$ 时,存在多种包容性游戏,策略变得有意义地不同:
- 强策略:2-0-1(击败2个,平0个,输1个)
- 弱策略:1-0-2(击败1个,平0个,输2个)
- 平衡策略:1-1-1
尽管强弱策略在单次对抗中胜率不同,但在纳什均衡下,它们获胜的总概率是相等的。最优玩法要求玩家根据特定概率混合使用这些策略。
案例:警察主题游戏(WCKP) 作者设计了一个 $n=4$ 的游戏:目击者(Witness)- 警察(Cop)- 警犬(K-9)- 罪犯(Perp)。
- 目击者 (2-0-1):最强选项。 withhold 证据给警察,不干扰警犬。
- 警察 (1-1-1):平衡选项。控制警犬,抓获罪犯。
- 警犬 (1-1-1):平衡选项。不直接与目击者互动。
- 罪犯 (1-0-2):弱选项。警告目击者(克制目击者),但输给警察和警犬。
在这个游戏中,虽然“警察”看起来是最强的(2-0-1),但通过计算纳什均衡,我们发现最优策略是:
- 40% 的时间选择“目击者”。
- 剩余 60% 的时间,在“警察”、“警犬”和“罪犯”之间平均分配(各20%)。
这种非对称性创造了丰富的叙事空间和心理博弈点:对手是否讨厌警察?是否喜欢模仿警犬吠叫?这些都是可以利用的心理钩子。
合并者与拆分者(Lumpers and Splitters)
并非所有看起来不同的游戏都有意义。有些游戏只是将 RPS 中的某个选项拆分为两个完全相同的选项(例如“石头”拆分为“巨石”和“砖块”)。
- 双胞胎自由(Twin-free):如果两个选项击败相同的对手、输给相同的对手,且互相平局,它们就是“双胞胎”。我们可以将它们合并为一个选项,从而将游戏简化为 $n-1$ 的游戏。
- 作者指出,上述的“元素游戏”实际上是“警察游戏”的伪装:粘土和草都击败水、输给火,且互相平局,因此可以合并为等效的“目击者”。
决策瘫痪与多重均衡
对于复杂的包容性游戏(如 WCKP),记忆最优混合策略可能很困难。好消息是,游戏可能有多个均衡点。
- 策略 A:50% 时间选警犬,50% 时间选目击者。两者弱点相互抵消,对手无法获利。
- 策略 B:1/3 时间选警察,1/3 选罪犯,1/3 选目击者,完全忽略警犬。这也是一种平衡。
事实上,存在一个连续的最优策略谱系,连接了上述两种极端策略。玩家可以在这个谱系中自由选择,只要保持概率分布符合纳什均衡即可。
关键要点
- 扩展选项的逻辑:简单的增加选项(如4个)无法保持平衡,必须跳跃至5个(如 RPSLS)或引入平局机制。
- 弱锦标赛的价值:允许平局(弱锦标赛)并保证游戏连通性,可以揭示出更丰富的策略结构,如“坦克”型(1-2-1)和“玻璃大炮”
