AI 资讯Hacker News·3 天前

大语言模型为何在电子游戏中表现糟糕

原标题：Why Are Large Language Models So Terrible at Video Games?

速览

尽管大语言模型在文本处理上表现卓越，但在视频游戏领域却显得力不从心。文章分析了导致这一现象的核心原因，包括模型缺乏对复杂游戏环境的实时感知与交互能力，以及在动态变化中保持长期逻辑推理的困难。这一发现揭示了当前生成式AI在具身智能和实时决策任务上的局限性，为未来AI在游戏及机器人控制领域的发展指明了改进方向。

AI 深度解读

为什么大型语言模型在电子游戏中如此糟糕？

背景

大型语言模型（LLMs）的进步速度令人瞩目，以至于相关的基准测试（benchmarks）本身也在不断进化，通过增加更复杂的问题来挑战最新模型的极限。然而，LLMs 并没有在所有领域实现同等水平的提升。在诸多任务中，有一项依然远远超出了它们的能力范围：它们完全不知道如何玩电子游戏。

尽管有个别例外——例如 Gemini 2.5 Pro 在 2025 年 5 月击败了《宝可梦蓝》（Pokemon Blue）——但这些例外恰恰证明了规则。最终获胜的 AI 完成游戏的速度远慢于普通人类玩家，经常犯出怪异且重复的错误，并且需要定制软件来引导其与游戏的交互。

纽约大学游戏创新实验室（Game Innovation Lab）主任、AI 游戏测试公司 Modl.ai 的联合创始人 Julian Togelius 在最近的一篇论文中深入探讨了 LLMs 在游戏领域的局限性。他与 IEEE Spectrum 的记者 Matthew S. Smith 进行了对话，分析了这种“游戏技能缺失”所揭示的 2026 年 AI 更广泛的现状。

核心内容

代码编写：一种“守规矩”的游戏

Togelius 指出，LLMs 在编程领域的快速进步并非偶然。他将代码编写描述为一种“极其守规矩”（well-behaved）的游戏。在这种“游戏”中，任务清晰如关卡：你获得需求规格，编写代码，然后运行它。

其反馈机制即时且细致：代码必须编译通过，运行时无崩溃，并通常需要通过测试。如果失败，系统往往还会解释失败的原因和方式。引用游戏设计师 Raph Koster 的理论——游戏之所以有趣，是因为我们在游玩中学习规则——从这个角度看，编写代码是一种设计极佳的游戏，这也是为什么许多人享受编程的原因。LLMs 正是在这种结构清晰、反馈明确的环境中表现优异。

电子游戏的困境：缺乏通用游戏 AI

与编程不同，LLMs 在电子游戏中表现糟糕。这令人惊讶，因为它们在围棋和象棋等策略游戏中表现卓越。Togelius 澄清了一个广泛存在的误解：虽然我们可以构建擅长特定游戏的 AI，但这并不意味着我们能构建出能玩任何游戏的通用 AI。

以 Google 的 AlphaZero 为例，它虽然能下围棋和象棋，但并非同一模型直接通用，而是针对每种游戏进行了重新训练和重新工程化。更重要的是，围棋和象棋在输入和输出空间上非常相似。而大多数电子游戏彼此差异巨大，拥有不同的机制和不同的输入表示方式。

此外，数据问题也是关键因素。AI 能成功游玩的游戏（如《我的世界》Minecraft 和《宝可梦》），往往是世界上研究最透彻的游戏，拥有数百万小时的攻略资料。而对于知名度较低的游戏，可供训练的数据极少。

基准测试的局限性

在编程领域，大量基准测试的存在推动了 LLMs 的性能提升。我们可以让模型尝试解决基准问题，评分并据此优化模型。然而，为电子游戏开发基准测试则复杂得多。

Togelius 分享了他在通用视频游戏 AI（GVGAI）竞赛中的经验。该竞赛运行了七年，每次都会引入 10 款新游戏进行测试。停止竞赛的原因之一是进步停滞：代理（agents）在某些游戏中变强，在另一些游戏中却变弱。

近期，研究团队尝试将该框架应用于 LLMs，结果令人失望：“它们表现极差。全都如此。它们甚至不如简单的搜索算法。”原因在于 LLMs 从未在这些游戏数据上训练过，且它们在空间推理方面本就薄弱，而空间推理也不包含在 LLMs 的训练数据中。

悖论：能写代码却不会玩游戏

这里存在一个看似矛盾的现象：LLMs 擅长编写代码（可用于创建游戏），却不擅长玩游戏。

Togelius 承认，通过 Cursor 或 Claude 等工具，只需一个提示词就能生成一个可玩的游戏。如果要求生成类似《小行星》（Asteroids）这样典型的游戏，效果会不错，因为 LLMs 在生成常见模式时表现更好。但这无法生成优秀或新颖的游戏。

根本原因在于游戏开发是一个迭代过程：编写、测试、调整“手感”（game feel）。LLMs 无法执行这一闭环，因为它无法“玩”自己生成的游戏来评估体验。同理，在设计其他软件（如 GUI）时，LLMs 可以生成带有按钮的界面，但它并不真正知道用户如何使用它。

模拟环境与现实世界的差异

Nvidia 和 Google 等公司曾提出利用模拟环境（包括类游戏环境）来提升 AI 性能。Togelius 对此持谨慎态度。他认为，游戏既比现实世界简单，也比现实世界困难。

简单之处：抽象层级较少。
困难之处：多样性极高。

现实世界具有统一的物理法则，因此 Waymo 等自动驾驶公司可以使用世界模型（world models）进行训练，因为驾驶行为在任何地方都大致相同，多样性远低于游戏。

人们常感到困惑：为什么 LLM 能写出关于量子力学的学术论文，却连《光环》（Halo）和《太空侵略者》（Space Invaders）都玩不好？Togelius 解释，从某种意义上说，这两款游戏之间的差异，比两篇学术论文之间的差异要大得多。

关键要点

LLMs 的局限性：尽管基准测试不断升级，LLMs 在电子游戏领域依然表现不佳，无法像人类一样自然游玩。
编程 vs. 游戏：编程之所以适合 LLMs，是因为它具有类似“关卡”的结构、即时明确的反馈以及清晰的失败解释，是一种“守规矩”的任务。
通用 AI 的迷思：现有的成功 AI（如 AlphaZero）多为特定游戏定制或重新训练，且针对的是输入输出空间相似的游戏。目前尚无能应对各种不同机制和输入表示的“通用游戏 AI”。
数据与空间推理缺失：LLMs 缺乏电子游戏所需的训练数据，且在空间推理方面能力薄弱，这导致其在游戏基准测试中表现甚至不如简单的搜索算法。
迭代能力的缺失：LLMs 可以生成典型的游戏代码，但无法通过“游玩”来迭代优化游戏手感，因此难以创造新颖或高质量的游戏。
模拟环境的适用性：利用游戏化环境训练 AI 面临挑战，因为游戏的多样性远高于现实世界（如驾驶），现实世界的统一物理法则使其更适合通用模型训练。

意义与影响

这一讨论揭示了当前 AI 能力的边界：相关性不等于通用性。LLMs 在结构化、反馈明确的任务（如代码生成、学术写作）中表现出色，但这并不意味着它们具备理解复杂、动态、多样化交互系统（如电子游戏）的能力。

对于 AI 开发者而言，这意味着不能简单地假设在某一领域（如编程）的成功可以线性迁移到另一领域（如游戏交互或机器人控制）。特别是在涉及空间推理、物理直觉和长期迭代反馈的任务中，纯文本或代码生成的 LLMs 存在根本性的短板。

此外，这也提醒业界对“模拟训练 AI”的乐观预期需保持理性。虽然模拟环境有价值，但现实世界与游戏环境的多样性差异巨大，直接套用游戏 AI 的训练范式可能无法有效解决现实世界中更复杂、更多变的问题。未来的突破可能需要结合更专门的架构（如强化学习、世界模型）与 LLMs 的语义理解能力，而非单纯依赖 LLMs 本身。

查看原文 →spectrum.ieee.org