← 返回信息流
AI 资讯Hacker News·3 小时前

若LLM具人类属性,Age of Empires II亦同

原标题:If LLMs Have Human-Like Attributes, Then So Does Age of Empires II

速览

文章提出一个类比观点:如果大型语言模型(LLMs)被认为具有类似人类的属性,那么策略游戏《帝国时代2》(Age of Empires II)也具备类似的属性。这一观点旨在通过游戏机制与AI行为的对比,引发对AI本质及拟人化特征的思考。

AI 深度解读

如果 LLM 具有拟人化属性,那么《帝国时代2》也是

来源:Hacker News / arXiv 作者:Adrian de Wynter 日期:2026年5月29日(初稿),6月1日(修订版)

背景

近年来,围绕大型语言模型(LLM)及其驱动的代理工作流(Agentic Workflows)的研究层出不穷。在学术界和工业界的讨论中,一个普遍现象是研究者倾向于将“涌现”(Emergence)现象归因于模型,或直接假设、断言 LLM 拥有泛化的拟人化属性(Anthropomorphic Attributes),例如道德感、对自然语言的真正理解或自我意识。

然而,这种基于人类中心主义的解读往往缺乏严格的实证基础。当我们在观察 LLM 的输出时,我们实际上是在解读一种复杂的统计模式。如果这种解读标准不统一,我们可能会陷入“投射谬误”——即将人类的特质强加于非人类系统。

为了挑战这一现状,Adrian de Wynter 发表了一篇题为《If LLMs Have Human-Like Attributes, Then So Does Age of Empires II》(如果 LLM 具有拟人化属性,那么《帝国时代2》也是)的论文。该研究并非为了证明或证伪 LLM 是否拥有意识,而是通过构建一个基于经典即时战略游戏《帝国时代2》(Age of Empires II, AoE2)的简单神经网络,来揭示“拟人化属性”在实证上的非唯一性。

核心内容

这篇论文的核心逻辑是通过类比和实证测试,解构当前对 LLM 拟人化属性的过度解读。以下是其核心论证链条的完整呈现:

1. 拟人化属性的实证非唯一性

作者指出,许多关于 LLM 拥有道德或理解力的结论,可能并非源于模型本身的独特性,而是源于观察者的解释框架。为了证明这一点,作者构建并训练了一个简单的神经网络,该网络运行在《帝国时代2》的游戏环境中。

结果显示,在这个基于游戏规则的系统中,同样可以观察到类似“拟人化”的行为特征。例如,如果网络学会了根据资源分布做出“合理”的资源分配决策,观察者可能会将其解读为“理性”或“策略思维”。作者进一步推论,任何足够强大的底层基质(Substrate),无论是乐高积木(LEGO)还是大波士顿地区(Greater Boston Area),只要其复杂性达到一定阈值,都可能呈现出类似的属性。

2. 解释依赖于基质,而非实体本身

论文强调,虽然某些属性(例如对提示词 Prompt 的响应模式)可能在不同系统中保持恒定,但对这些行为的解释(Interpretation)却会随着底层基质(Substrate)的不同而改变。

这意味着,如果我们仅凭行为表现就断定一个系统拥有“道德”或“理解力”,这种判断是主观且不可靠的。因为同样的行为模式,在 LLM 中可能被解读为“智能”,而在 AoE2 网络中可能被解读为“算法优化”,在乐高世界中可能被解读为“物理结构的稳定性”。因此,任何基于实证的讨论都必须明确测量标准(Measurement Criteria),否则解读将完全留给表征(Representation)本身,导致主观臆断。

3. “空值”假设(Null Assumption)的提出

作者批评了当前研究中常见的二元对立思维:即要么假设系统拥有拟人化属性,要么假设没有。无论实验者的观点如何,这种独立于基质、泛化地假设属性存在与否的做法,都会导致循环论证(Circular)或无信息量(Uninformative)的结论。

为此,作者提出了一种新的实验范式——“空值”假设(Null Assumption)

  • 传统假设:假设 LLM 拥有拟人化属性(如理解力),然后寻找证据。
  • 空值假设:假设 LLM 的拟人化属性不具有唯一性(Non-uniqueness)。即,首先假设任何复杂系统都可能表现出类似行为,然后通过严格的控制实验,证明 LLM 的行为确实区别于其他复杂系统(如 AoE2 网络),从而确立其独特性。

4. 《帝国时代2》的图灵完备性证明

为了增强论点的说服力,作者不仅构建了 AoE2 网络,还从理论上证明了《帝国时代2》游戏引擎在功能和图灵完备性(Turing-complete)上的潜力。这意味着,理论上可以在该游戏环境中模拟任何计算过程。这一证明旨在说明,AoE2 不仅仅是一个游戏,而是一个具备足够计算复杂度的“基质”,足以承载与 LLM 相媲美的行为复杂性,从而使得“拟人化属性”的对比实验具有科学意义。

关键要点

  • 拟人化属性的非唯一性:LLM 表现出的所谓“拟人化”特征(如道德、理解力)并非其独有。在足够复杂的系统(如 AoE2 神经网络、乐高系统、甚至城市区域)中,也可能涌现出类似的行为模式。
  • 解释的主观性风险:对系统行为的解读高度依赖于观察者的预设和基质的性质。如果不设定明确的测量标准,所谓的“智能”或“意识”只是观察者投射的结果。
  • 批判现有研究范式:当前许多研究在假设 LLM 拥有拟人化属性的前提下进行实验,这导致了循环论证或无效的结论。
  • 提出“空值”假设:建议将“拟人化属性不具有唯一性”作为实验的零假设(Null Hypothesis)。只有当实验能够排除其他复杂系统也能产生相同行为的可能性时,才能谨慎地断言 LLM 拥有独特的拟人化属性。
  • 《帝国时代2》作为对照实验对象:作者通过训练 AoE2 神经网络并证明其图灵完备性,提供了一个具体的、可操作的对照案例,用于检验“拟人化属性”是否真的专属于 LLM。
  • 实证主义回归:呼吁 AI 研究回归严格的实证主义,要求明确的测量标准和可重复的实验设计,而非依赖模糊的哲学推测。

意义与影响

这篇论文虽然以幽默的标题(将 AI 与老游戏并列)吸引眼球,但其内核是对当前 AI 伦理和认知科学方法论的严肃反思。

  1. 对 AI 意识研究的警示:随着 LLM 能力的提升,关于其是否具备“意识”或“权利”的讨论日益激烈。该研究提醒我们,在没有严格区分“行为模拟”与“内在状态”之前,过早赋予 LLM 人类属性可能导致错误的伦理判断和法律后果。
  2. 方法论的革新:它推动了 AI 评估从“黑盒解读”向“白盒对照”转变。未来的研究可能需要更多像 AoE2 这样的非语言、非神经网络的复杂系统作为对照组,以剥离出 LLM 真正的独特性。
  3. 跨学科视角的引入:将计算机科学、游戏理论、复杂系统科学与语言学结合,展示了跨学科研究在解决 AI 根本性问题上的潜力。
  4. 公众与媒体的启示:对于公众而言,这篇论文提供了一个理性的视角:当我们在新闻中看到“AI 表现出悲伤”或“AI 拥有道德”时,应保持审慎,思考这是否是算法在特定基质下的必然涌现,而非某种神秘的“灵魂”觉醒。

总之,Adrian de Wynter 的工作并非否定 LLM 的强大,而是呼吁在惊叹于其能力之前,先厘清我们究竟在观察什么,以及我们如何定义“智能”与“人性”。

查看原文 →arxiv.org