AI 资讯Hacker News·2 天前

程序间的博弈：竞争背后的规则学

原标题：Games Between Programs: The Ruliology of Competition

速览

本文深入分析了程序之间的博弈关系，揭示了竞争背后的核心逻辑。通过研究这些互动模式，有助于理解复杂系统中的竞争机制。这一视角为优化算法设计和系统架构提供了新的理论依据。

AI 深度解读

程序间的博弈：竞争的规律学（Ruliology）解读

背景

在生物学、经济学、政治学等众多领域，我们经常会遇到可以建模为“两个代理（agents）反复竞争”的情境。在这种经典博弈论框架下，每个代理在每一步都能从一组特定的动作中选择一个，随后根据双方所采取的动作获得固定的“收益（payoff）”。

然而，代理究竟如何决定采取何种动作？通常假设每个代理拥有一套固定的程序或“策略”来做出决策，且该决策的输入是代理自身及其对手过去所采取动作的序列。

过去近一个世纪里，学术界针对特定策略的选择进行了大量研究。但本文作者（基于 Wolfram 的研究视角）长期好奇的是：如果系统地考虑所有可能的策略，会发生什么？如果我们将策略视为“程序”，这就变成了一个可以立即应用“规律学（Ruliology）”方法的问题。规律学是 Stephen Wolfram 提出的一种通过计算观察系统行为复杂性的新科学范式。

核心内容

基础设定与多路图（Multiway Graph）

为了具体化这一设定，假设在每一步，每个代理采取两种可能动作之一（记为 $A$ 或 $B$）。为了便于分析，我们采用经典的“匹配或不匹配（match-or-not）”游戏，即“猜硬币（matching pennies）”博弈：

当双方动作匹配时，玩家 1 获得更高收益；
当双方动作不匹配时，玩家 2 获得更高收益。

所有可能的动作序列可以通过一个**多路图（multiway graph）**来表示。对于任何给定的动作序列，每个代理在“匹配或不匹配”游戏中都有一个累积收益。如果每个代理采用特定策略，这就定义了通过多路图的一条特定路径。

竞争是否导向复杂性？

在生物学进化或机器学习的极简模型中，当程序被自适应演化以最大化某个外部施加的适应度函数时，即使目标函数很简单，最大化它的程序行为通常也非常复杂。这意味着自适应进化倾向于以复杂的方式实现简单的固定目标。

那么，如果目标不是固定的外部函数，而是广义地“击败其他代理”，这种潜在的开放性竞争会导致更复杂的行为（或更复杂的程序），还是相反？我们能否找到一种“简单的黑客技巧”来破解游戏并获胜？简而言之，竞争倾向于导致复杂性还是简单性？

基于有限状态机（FSM）的策略

为了探索竞争的规律学，作者首先考察由**有限状态机（Finite State Machines, FSMs）**定义的策略。FSM 可以被视为定义极其简单的程序，常用于模拟生物学路径或经济学决策过程。

运作机制：

FSM 由状态和转移规则组成。
代理根据对手过去的动作序列，在 FSM 图中定义一条路径。
从起始顶点开始，依次跟随与对手下一步动作颜色匹配的边缘。
最终到达的状态决定了代理的下一个动作（输出）。

确定性 vs. 概率性： 这种设定与大多数博弈论研究不同。在标准博弈论中，动作往往被视为独立事件，且存在混合策略（概率分布），最终结果是对“不同骰子投掷”的平均。而在本设定中，一切都是确定性的：每一步的动作都是根据策略和过去历史计算得出的。

2 状态机空间的竞争分析

对于拥有 $s$ 个状态的有限状态机，可能的图数量为 $(2^s)^{2s}$，但其中许多图对应行为相同的机器，因此distinct（不同行为）的机器数量更少。

以 2 状态机 为例：

共有 22 种不同行为的机器。
当这些机器两两竞争时，动作序列最终必然变得周期性重复，周期长度不超过两个机器状态数的乘积。

获胜者分析： 通过计算每对机器的长期平均收益（假设玩家 1 的收益，玩家 2 的收益取反），可以评估哪种机器是“整体获胜者”。

获胜机器：机器 26。
评估标准：当一台机器与所有其他不同机器竞争时，其平均平均收益最高。
表现：机器 26 在与所有其他 2 状态机器的对抗中，展现了最高的平均收益。

作者进一步展示了前几名“亚军”机器的排名，以及它们在与所有其他机器对抗时的表现。通过展示机器在与所有其他机器对抗时的历史行为，可以总结机器的行为特征。

关键要点

规律学视角：本文引入“规律学（Ruliology）”方法，通过系统考察所有可能的程序策略，而非仅关注少数经典策略，来研究竞争的本质。
确定性博弈：研究设定为完全确定性的重复博弈，代理根据对手的历史动作序列，通过内部策略程序（如 FSM）决定下一步动作，而非依赖概率混合策略。
简单策略的复杂性：即使使用极简的程序结构（如有限状态机），在竞争环境中，获胜策略的行为也可能表现出特定的周期性或复杂性，而非简单的随机或固定模式。
2 状态机实验结果：
- 在 22 种不同行为的 2 状态机中，通过两两对抗计算长期平均收益。
- 机器 26 被识别为“整体获胜者”，因为它在与所有其他机器对抗时获得了最高的平均收益。
- 所有竞争最终都会进入周期性循环，周期长度受限于状态机的大小。
核心科学问题：竞争是倾向于催生更复杂的程序/行为，还是倾向于让简单的“捷径”策略胜出？目前的初步探索（基于 FSM）为回答这一问题提供了计算基础。

意义与影响

重新审视博弈论假设：传统博弈论常关注纳什均衡或混合策略，而本文强调基于历史序列的确定性程序演化。这为理解现实世界中基于规则、算法或生物本能的行为提供了新的计算视角。
复杂性与适应性的关系：文章提出了一个深刻的问题：在开放式的竞争环境中，适应性是否必然导致复杂性？虽然生物学进化通常导致复杂性，但在简单的程序博弈中，是否存在“简单即正义”的情况？这有助于理解人工智能代理在对抗性环境中的演化趋势。
计算宇宙的应用：通过将策略视为程序，并将竞争过程映射为多路图中的路径，作者展示了如何利用计算宇宙的理论框架来量化和分析社会、生物或经济系统中的竞争动态。
方法论启示：这种方法论允许研究者系统地枚举和测试所有可能的简单策略，从而发现那些在直觉上可能被忽略的“反直觉”获胜策略（如本例中的机器 26）。这对于设计鲁棒的算法、理解市场机制或生物竞争具有潜在的应用价值。

查看原文 →writings.stephenwolfram.com