← 返回信息流
AI 资讯Hacker News·2 天前

程序间的博弈:竞争背后的规则学

原标题:Games Between Programs: The Ruliology of Competition

速览

本文深入分析了程序之间的博弈关系,揭示了竞争背后的核心逻辑。通过研究这些互动模式,有助于理解复杂系统中的竞争机制。这一视角为优化算法设计和系统架构提供了新的理论依据。

AI 深度解读

程序间的博弈:竞争的规律学(Ruliology)解读

背景

在生物学、经济学、政治学等众多领域,我们经常会遇到可以建模为“两个代理(agents)反复竞争”的情境。在这种经典博弈论框架下,每个代理在每一步都能从一组特定的动作中选择一个,随后根据双方所采取的动作获得固定的“收益(payoff)”。

然而,代理究竟如何决定采取何种动作?通常假设每个代理拥有一套固定的程序或“策略”来做出决策,且该决策的输入是代理自身及其对手过去所采取动作的序列。

过去近一个世纪里,学术界针对特定策略的选择进行了大量研究。但本文作者(基于 Wolfram 的研究视角)长期好奇的是:如果系统地考虑所有可能的策略,会发生什么?如果我们将策略视为“程序”,这就变成了一个可以立即应用“规律学(Ruliology)”方法的问题。规律学是 Stephen Wolfram 提出的一种通过计算观察系统行为复杂性的新科学范式。

核心内容

基础设定与多路图(Multiway Graph)

为了具体化这一设定,假设在每一步,每个代理采取两种可能动作之一(记为 $A$ 或 $B$)。为了便于分析,我们采用经典的“匹配或不匹配(match-or-not)”游戏,即“猜硬币(matching pennies)”博弈:

  • 当双方动作匹配时,玩家 1 获得更高收益;
  • 当双方动作不匹配时,玩家 2 获得更高收益。

所有可能的动作序列可以通过一个**多路图(multiway graph)**来表示。对于任何给定的动作序列,每个代理在“匹配或不匹配”游戏中都有一个累积收益。如果每个代理采用特定策略,这就定义了通过多路图的一条特定路径。

竞争是否导向复杂性?

在生物学进化或机器学习的极简模型中,当程序被自适应演化以最大化某个外部施加的适应度函数时,即使目标函数很简单,最大化它的程序行为通常也非常复杂。这意味着自适应进化倾向于以复杂的方式实现简单的固定目标。

那么,如果目标不是固定的外部函数,而是广义地“击败其他代理”,这种潜在的开放性竞争会导致更复杂的行为(或更复杂的程序),还是相反?我们能否找到一种“简单的黑客技巧”来破解游戏并获胜?简而言之,竞争倾向于导致复杂性还是简单性?

基于有限状态机(FSM)的策略

为了探索竞争的规律学,作者首先考察由**有限状态机(Finite State Machines, FSMs)**定义的策略。FSM 可以被视为定义极其简单的程序,常用于模拟生物学路径或经济学决策过程。

运作机制:

  1. FSM 由状态和转移规则组成。
  2. 代理根据对手过去的动作序列,在 FSM 图中定义一条路径。
  3. 从起始顶点开始,依次跟随与对手下一步动作颜色匹配的边缘。
  4. 最终到达的状态决定了代理的下一个动作(输出)。

确定性 vs. 概率性: 这种设定与大多数博弈论研究不同。在标准博弈论中,动作往往被视为独立事件,且存在混合策略(概率分布),最终结果是对“不同骰子投掷”的平均。而在本设定中,一切都是确定性的:每一步的动作都是根据策略和过去历史计算得出的。

2 状态机空间的竞争分析

对于拥有 $s$ 个状态的有限状态机,可能的图数量为 $(2^s)^{2s}$,但其中许多图对应行为相同的机器,因此distinct(不同行为)的机器数量更少。

2 状态机 为例:

  • 共有 22 种不同行为的机器。
  • 当这些机器两两竞争时,动作序列最终必然变得周期性重复,周期长度不超过两个机器状态数的乘积。

获胜者分析: 通过计算每对机器的长期平均收益(假设玩家 1 的收益,玩家 2 的收益取反),可以评估哪种机器是“整体获胜者”。

  • 获胜机器:机器 26。
  • 评估标准:当一台机器与所有其他不同机器竞争时,其平均平均收益最高。
  • 表现:机器 26 在与所有其他 2 状态机器的对抗中,展现了最高的平均收益。

作者进一步展示了前几名“亚军”机器的排名,以及它们在与所有其他机器对抗时的表现。通过展示机器在与所有其他机器对抗时的历史行为,可以总结机器的行为特征。

关键要点

  • 规律学视角:本文引入“规律学(Ruliology)”方法,通过系统考察所有可能的程序策略,而非仅关注少数经典策略,来研究竞争的本质。
  • 确定性博弈:研究设定为完全确定性的重复博弈,代理根据对手的历史动作序列,通过内部策略程序(如 FSM)决定下一步动作,而非依赖概率混合策略。
  • 简单策略的复杂性:即使使用极简的程序结构(如有限状态机),在竞争环境中,获胜策略的行为也可能表现出特定的周期性或复杂性,而非简单的随机或固定模式。
  • 2 状态机实验结果
    • 在 22 种不同行为的 2 状态机中,通过两两对抗计算长期平均收益。
    • 机器 26 被识别为“整体获胜者”,因为它在与所有其他机器对抗时获得了最高的平均收益。
    • 所有竞争最终都会进入周期性循环,周期长度受限于状态机的大小。
  • 核心科学问题:竞争是倾向于催生更复杂的程序/行为,还是倾向于让简单的“捷径”策略胜出?目前的初步探索(基于 FSM)为回答这一问题提供了计算基础。

意义与影响

  1. 重新审视博弈论假设:传统博弈论常关注纳什均衡或混合策略,而本文强调基于历史序列的确定性程序演化。这为理解现实世界中基于规则、算法或生物本能的行为提供了新的计算视角。
  2. 复杂性与适应性的关系:文章提出了一个深刻的问题:在开放式的竞争环境中,适应性是否必然导致复杂性?虽然生物学进化通常导致复杂性,但在简单的程序博弈中,是否存在“简单即正义”的情况?这有助于理解人工智能代理在对抗性环境中的演化趋势。
  3. 计算宇宙的应用:通过将策略视为程序,并将竞争过程映射为多路图中的路径,作者展示了如何利用计算宇宙的理论框架来量化和分析社会、生物或经济系统中的竞争动态。
  4. 方法论启示:这种方法论允许研究者系统地枚举和测试所有可能的简单策略,从而发现那些在直觉上可能被忽略的“反直觉”获胜策略(如本例中的机器 26)。这对于设计鲁棒的算法、理解市场机制或生物竞争具有潜在的应用价值。
查看原文 →writings.stephenwolfram.com