大语言模型为何在电子游戏中表现糟糕
速览
尽管大语言模型在文本处理上表现卓越,但在视频游戏领域却显得力不从心。文章分析了导致这一现象的核心原因,包括模型缺乏对复杂游戏环境的实时感知与交互能力,以及在动态变化中保持长期逻辑推理的困难。这一发现揭示了当前生成式AI在具身智能和实时决策任务上的局限性,为未来AI在游戏及机器人控制领域的发展指明了改进方向。
AI 深度解读
为什么大型语言模型在电子游戏中如此糟糕?
背景
大型语言模型(LLMs)的进步速度令人瞩目,以至于相关的基准测试(benchmarks)本身也在不断进化,通过增加更复杂的问题来挑战最新模型的极限。然而,LLMs 并没有在所有领域实现同等水平的提升。在诸多任务中,有一项依然远远超出了它们的能力范围:它们完全不知道如何玩电子游戏。
尽管有个别例外——例如 Gemini 2.5 Pro 在 2025 年 5 月击败了《宝可梦 蓝》(Pokemon Blue)——但这些例外恰恰证明了规则。最终获胜的 AI 完成游戏的速度远慢于普通人类玩家,经常犯出怪异且重复的错误,并且需要定制软件来引导其与游戏的交互。
纽约大学游戏创新实验室(Game Innovation Lab)主任、AI 游戏测试公司 Modl.ai 的联合创始人 Julian Togelius 在最近的一篇论文中深入探讨了 LLMs 在游戏领域的局限性。他与 IEEE Spectrum 的记者 Matthew S. Smith 进行了对话,分析了这种“游戏技能缺失”所揭示的 2026 年 AI 更广泛的现状。
核心内容
代码编写:一种“守规矩”的游戏
Togelius 指出,LLMs 在编程领域的快速进步并非偶然。他将代码编写描述为一种“极其守规矩”(well-behaved)的游戏。在这种“游戏”中,任务清晰如关卡:你获得需求规格,编写代码,然后运行它。
其反馈机制即时且细致:代码必须编译通过,运行时无崩溃,并通常需要通过测试。如果失败,系统往往还会解释失败的原因和方式。引用游戏设计师 Raph Koster 的理论——游戏之所以有趣,是因为我们在游玩中学习规则——从这个角度看,编写代码是一种设计极佳的游戏,这也是为什么许多人享受编程的原因。LLMs 正是在这种结构清晰、反馈明确的环境中表现优异。
电子游戏的困境:缺乏通用游戏 AI
与编程不同,LLMs 在电子游戏中表现糟糕。这令人惊讶,因为它们在围棋和象棋等策略游戏中表现卓越。Togelius 澄清了一个广泛存在的误解:虽然我们可以构建擅长特定游戏的 AI,但这并不意味着我们能构建出能玩任何游戏的通用 AI。
以 Google 的 AlphaZero 为例,它虽然能下围棋和象棋,但并非同一模型直接通用,而是针对每种游戏进行了重新训练和重新工程化。更重要的是,围棋和象棋在输入和输出空间上非常相似。而大多数电子游戏彼此差异巨大,拥有不同的机制和不同的输入表示方式。
此外,数据问题也是关键因素。AI 能成功游玩的游戏(如《我的世界》Minecraft 和《宝可梦》),往往是世界上研究最透彻的游戏,拥有数百万小时的攻略资料。而对于知名度较低的游戏,可供训练的数据极少。
基准测试的局限性
在编程领域,大量基准测试的存在推动了 LLMs 的性能提升。我们可以让模型尝试解决基准问题,评分并据此优化模型。然而,为电子游戏开发基准测试则复杂得多。
Togelius 分享了他在通用视频游戏 AI(GVGAI)竞赛中的经验。该竞赛运行了七年,每次都会引入 10 款新游戏进行测试。停止竞赛的原因之一是进步停滞:代理(agents)在某些游戏中变强,在另一些游戏中却变弱。
近期,研究团队尝试将该框架应用于 LLMs,结果令人失望:“它们表现极差。全都如此。它们甚至不如简单的搜索算法。”原因在于 LLMs 从未在这些游戏数据上训练过,且它们在空间推理方面本就薄弱,而空间推理也不包含在 LLMs 的训练数据中。
悖论:能写代码却不会玩游戏
这里存在一个看似矛盾的现象:LLMs 擅长编写代码(可用于创建游戏),却不擅长玩游戏。
Togelius 承认,通过 Cursor 或 Claude 等工具,只需一个提示词就能生成一个可玩的游戏。如果要求生成类似《小行星》(Asteroids)这样典型的游戏,效果会不错,因为 LLMs 在生成常见模式时表现更好。但这无法生成优秀或新颖的游戏。
根本原因在于游戏开发是一个迭代过程:编写、测试、调整“手感”(game feel)。LLMs 无法执行这一闭环,因为它无法“玩”自己生成的游戏来评估体验。同理,在设计其他软件(如 GUI)时,LLMs 可以生成带有按钮的界面,但它并不真正知道用户如何使用它。
模拟环境与现实世界的差异
Nvidia 和 Google 等公司曾提出利用模拟环境(包括类游戏环境)来提升 AI 性能。Togelius 对此持谨慎态度。他认为,游戏既比现实世界简单,也比现实世界困难。
- 简单之处:抽象层级较少。
- 困难之处:多样性极高。
现实世界具有统一的物理法则,因此 Waymo 等自动驾驶公司可以使用世界模型(world models)进行训练,因为驾驶行为在任何地方都大致相同,多样性远低于游戏。
人们常感到困惑:为什么 LLM 能写出关于量子力学的学术论文,却连《光环》(Halo)和《太空侵略者》(Space Invaders)都玩不好?Togelius 解释,从某种意义上说,这两款游戏之间的差异,比两篇学术论文之间的差异要大得多。
关键要点
- LLMs 的局限性:尽管基准测试不断升级,LLMs 在电子游戏领域依然表现不佳,无法像人类一样自然游玩。
- 编程 vs. 游戏:编程之所以适合 LLMs,是因为它具有类似“关卡”的结构、即时明确的反馈以及清晰的失败解释,是一种“守规矩”的任务。
- 通用 AI 的迷思:现有的成功 AI(如 AlphaZero)多为特定游戏定制或重新训练,且针对的是输入输出空间相似的游戏。目前尚无能应对各种不同机制和输入表示的“通用游戏 AI”。
- 数据与空间推理缺失:LLMs 缺乏电子游戏所需的训练数据,且在空间推理方面能力薄弱,这导致其在游戏基准测试中表现甚至不如简单的搜索算法。
- 迭代能力的缺失:LLMs 可以生成典型的游戏代码,但无法通过“游玩”来迭代优化游戏手感,因此难以创造新颖或高质量的游戏。
- 模拟环境的适用性:利用游戏化环境训练 AI 面临挑战,因为游戏的多样性远高于现实世界(如驾驶),现实世界的统一物理法则使其更适合通用模型训练。
意义与影响
这一讨论揭示了当前 AI 能力的边界:相关性不等于通用性。LLMs 在结构化、反馈明确的任务(如代码生成、学术写作)中表现出色,但这并不意味着它们具备理解复杂、动态、多样化交互系统(如电子游戏)的能力。
对于 AI 开发者而言,这意味着不能简单地假设在某一领域(如编程)的成功可以线性迁移到另一领域(如游戏交互或机器人控制)。特别是在涉及空间推理、物理直觉和长期迭代反馈的任务中,纯文本或代码生成的 LLMs 存在根本性的短板。
此外,这也提醒业界对“模拟训练 AI”的乐观预期需保持理性。虽然模拟环境有价值,但现实世界与游戏环境的多样性差异巨大,直接套用游戏 AI 的训练范式可能无法有效解决现实世界中更复杂、更多变的问题。未来的突破可能需要结合更专门的架构(如强化学习、世界模型)与 LLMs 的语义理解能力,而非单纯依赖 LLMs 本身。
