AI 资讯Hacker News·3 小时前

若LLM具人类属性，Age of Empires II亦同

原标题：If LLMs Have Human-Like Attributes, Then So Does Age of Empires II

速览

文章提出一个类比观点：如果大型语言模型（LLMs）被认为具有类似人类的属性，那么策略游戏《帝国时代2》（Age of Empires II）也具备类似的属性。这一观点旨在通过游戏机制与AI行为的对比，引发对AI本质及拟人化特征的思考。

AI 深度解读

如果 LLM 具有拟人化属性，那么《帝国时代2》也是

来源：Hacker News / arXiv 作者：Adrian de Wynter 日期：2026年5月29日（初稿），6月1日（修订版）

背景

近年来，围绕大型语言模型（LLM）及其驱动的代理工作流（Agentic Workflows）的研究层出不穷。在学术界和工业界的讨论中，一个普遍现象是研究者倾向于将“涌现”（Emergence）现象归因于模型，或直接假设、断言 LLM 拥有泛化的拟人化属性（Anthropomorphic Attributes），例如道德感、对自然语言的真正理解或自我意识。

然而，这种基于人类中心主义的解读往往缺乏严格的实证基础。当我们在观察 LLM 的输出时，我们实际上是在解读一种复杂的统计模式。如果这种解读标准不统一，我们可能会陷入“投射谬误”——即将人类的特质强加于非人类系统。

为了挑战这一现状，Adrian de Wynter 发表了一篇题为《If LLMs Have Human-Like Attributes, Then So Does Age of Empires II》（如果 LLM 具有拟人化属性，那么《帝国时代2》也是）的论文。该研究并非为了证明或证伪 LLM 是否拥有意识，而是通过构建一个基于经典即时战略游戏《帝国时代2》（Age of Empires II, AoE2）的简单神经网络，来揭示“拟人化属性”在实证上的非唯一性。

核心内容

这篇论文的核心逻辑是通过类比和实证测试，解构当前对 LLM 拟人化属性的过度解读。以下是其核心论证链条的完整呈现：

1. 拟人化属性的实证非唯一性

作者指出，许多关于 LLM 拥有道德或理解力的结论，可能并非源于模型本身的独特性，而是源于观察者的解释框架。为了证明这一点，作者构建并训练了一个简单的神经网络，该网络运行在《帝国时代2》的游戏环境中。

结果显示，在这个基于游戏规则的系统中，同样可以观察到类似“拟人化”的行为特征。例如，如果网络学会了根据资源分布做出“合理”的资源分配决策，观察者可能会将其解读为“理性”或“策略思维”。作者进一步推论，任何足够强大的底层基质（Substrate），无论是乐高积木（LEGO）还是大波士顿地区（Greater Boston Area），只要其复杂性达到一定阈值，都可能呈现出类似的属性。

2. 解释依赖于基质，而非实体本身

论文强调，虽然某些属性（例如对提示词 Prompt 的响应模式）可能在不同系统中保持恒定，但对这些行为的解释（Interpretation）却会随着底层基质（Substrate）的不同而改变。

这意味着，如果我们仅凭行为表现就断定一个系统拥有“道德”或“理解力”，这种判断是主观且不可靠的。因为同样的行为模式，在 LLM 中可能被解读为“智能”，而在 AoE2 网络中可能被解读为“算法优化”，在乐高世界中可能被解读为“物理结构的稳定性”。因此，任何基于实证的讨论都必须明确测量标准（Measurement Criteria），否则解读将完全留给表征（Representation）本身，导致主观臆断。

3. “空值”假设（Null Assumption）的提出

作者批评了当前研究中常见的二元对立思维：即要么假设系统拥有拟人化属性，要么假设没有。无论实验者的观点如何，这种独立于基质、泛化地假设属性存在与否的做法，都会导致循环论证（Circular）或无信息量（Uninformative）的结论。

为此，作者提出了一种新的实验范式——“空值”假设（Null Assumption）。

传统假设：假设 LLM 拥有拟人化属性（如理解力），然后寻找证据。
空值假设：假设 LLM 的拟人化属性不具有唯一性（Non-uniqueness）。即，首先假设任何复杂系统都可能表现出类似行为，然后通过严格的控制实验，证明 LLM 的行为确实区别于其他复杂系统（如 AoE2 网络），从而确立其独特性。

4. 《帝国时代2》的图灵完备性证明

为了增强论点的说服力，作者不仅构建了 AoE2 网络，还从理论上证明了《帝国时代2》游戏引擎在功能和图灵完备性（Turing-complete）上的潜力。这意味着，理论上可以在该游戏环境中模拟任何计算过程。这一证明旨在说明，AoE2 不仅仅是一个游戏，而是一个具备足够计算复杂度的“基质”，足以承载与 LLM 相媲美的行为复杂性，从而使得“拟人化属性”的对比实验具有科学意义。

关键要点

拟人化属性的非唯一性：LLM 表现出的所谓“拟人化”特征（如道德、理解力）并非其独有。在足够复杂的系统（如 AoE2 神经网络、乐高系统、甚至城市区域）中，也可能涌现出类似的行为模式。
解释的主观性风险：对系统行为的解读高度依赖于观察者的预设和基质的性质。如果不设定明确的测量标准，所谓的“智能”或“意识”只是观察者投射的结果。
批判现有研究范式：当前许多研究在假设 LLM 拥有拟人化属性的前提下进行实验，这导致了循环论证或无效的结论。
提出“空值”假设：建议将“拟人化属性不具有唯一性”作为实验的零假设（Null Hypothesis）。只有当实验能够排除其他复杂系统也能产生相同行为的可能性时，才能谨慎地断言 LLM 拥有独特的拟人化属性。
《帝国时代2》作为对照实验对象：作者通过训练 AoE2 神经网络并证明其图灵完备性，提供了一个具体的、可操作的对照案例，用于检验“拟人化属性”是否真的专属于 LLM。
实证主义回归：呼吁 AI 研究回归严格的实证主义，要求明确的测量标准和可重复的实验设计，而非依赖模糊的哲学推测。

意义与影响

这篇论文虽然以幽默的标题（将 AI 与老游戏并列）吸引眼球，但其内核是对当前 AI 伦理和认知科学方法论的严肃反思。

对 AI 意识研究的警示：随着 LLM 能力的提升，关于其是否具备“意识”或“权利”的讨论日益激烈。该研究提醒我们，在没有严格区分“行为模拟”与“内在状态”之前，过早赋予 LLM 人类属性可能导致错误的伦理判断和法律后果。
方法论的革新：它推动了 AI 评估从“黑盒解读”向“白盒对照”转变。未来的研究可能需要更多像 AoE2 这样的非语言、非神经网络的复杂系统作为对照组，以剥离出 LLM 真正的独特性。
跨学科视角的引入：将计算机科学、游戏理论、复杂系统科学与语言学结合，展示了跨学科研究在解决 AI 根本性问题上的潜力。
公众与媒体的启示：对于公众而言，这篇论文提供了一个理性的视角：当我们在新闻中看到“AI 表现出悲伤”或“AI 拥有道德”时，应保持审慎，思考这是否是算法在特定基质下的必然涌现，而非某种神秘的“灵魂”觉醒。

总之，Adrian de Wynter 的工作并非否定 LLM 的强大，而是呼吁在惊叹于其能力之前，先厘清我们究竟在观察什么，以及我们如何定义“智能”与“人性”。

查看原文 →arxiv.org