技术博客arXiv cs.CL·23 小时前

GameCraft-Bench：智能体能否在真实引擎中端到端构建可玩游戏

原标题：GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

速览

研究提出GameCraft-Bench，这是一个包含140个Godot任务的基准，旨在评估编码智能体将自然语言规范转化为完整可玩游戏的端到端能力。评估框架强调引擎接地、工件完整性和交互验证。实验显示，当前最强智能体得分仅41.46%，表明智能体虽能实现基本机制，但在内容完整性、视觉反馈和整体连贯性上仍面临巨大挑战。

AI 深度解读

GameCraft-Bench：智能体能否在真实游戏引擎中端到端构建可玩游戏？

背景

随着代码智能体（Coding Agents）技术的飞速发展，游戏生成正成为一个新兴的应用领域。这一任务要求大语言模型将自然语言描述的游戏规格说明书（specifications）转化为可玩的交互式系统。

然而，与传统软件开发任务不同，游戏生成发生在特定的游戏引擎环境中。这不仅涉及代码编写，还要求脚本、场景、资产（assets）、渲染管线以及运行时交互共同作用，以产生连贯的游戏体验。现有的评估体系往往侧重于代码的正确性或单一功能的实现，缺乏对“端到端”游戏生成能力的系统性评估。

为了解决这一空白，研究人员提出了 GameCraft-Bench，旨在回答一个核心问题：智能体能否在真实的游戏引擎中，从零开始构建出完整且可玩的游戏？

核心内容

1. 端到端游戏生成的形式化定义

研究团队将“端到端游戏生成”形式化为一个问题：在目标环境中，通过可观察的玩家-游戏交互，产生一个完整的“游戏工件”（game artifact），以实现给定的规格说明书。

这意味着评估不仅仅是看代码是否编译通过，而是要看最终生成的游戏是否能在引擎中运行，并呈现出符合预期的玩法。

2. 评估的三个核心要素

为了有效评估这一复杂场景，研究指出必须满足三个关键需求（desiderata）：

引擎接地性（Engine Grounding）：生成的代码和资产必须能够正确集成到特定的游戏引擎（如 Godot）中，而非仅仅生成伪代码或脱离环境的脚本。
工件完整性（Artifact Completeness）：生成的游戏必须包含足够的游戏内容，包括场景、逻辑、视觉反馈等，形成一个完整的闭环，而非只有核心机制的空壳。
交互式验证（Interactive Verification）：必须通过实际的玩家交互来验证游戏的功能性。静态的代码分析不足以证明游戏是“可玩”的。

3. GameCraft-Bench 框架与数据集

基于上述理念，研究团队提出了一个基于交互的评估框架，并通过重放演示（replayed demonstrations）和基于量表的 multimodal judging（多模态评判）来评估可执行的游戏玩法。

该框架的具体实例化为 GameCraft-Bench，其特点如下：

引擎：基于 Godot 游戏引擎。
规模：包含 140 个任务，涵盖 15 种不同的游戏家族（game families）。
内容：任务涵盖了从简单的平台跳跃到复杂的 RPG 元素等多种游戏类型。

4. 前沿智能体的表现评估

研究团队对目前最前沿的代码智能体进行了评估，结果揭示了当前技术的局限性：

整体得分较低：端到端的游戏生成仍然极具挑战性。表现最强的智能体仅取得了 41.46% 的得分，而大多数智能体的得分低于 40%。
具体痛点分析：
- 机制识别 vs. 完整性：智能体通常能够识别并实现可辨认的游戏机制（mechanics），例如移动、跳跃或射击。
- 内容匮乏：智能体难以提供具有足够内容的完整游戏。
- 视觉反馈缺失：生成的游戏往往缺乏功能性的视觉反馈，导致玩家无法直观感知操作结果。
- 呈现不连贯：游戏的整体呈现（presentation）缺乏连贯性，场景、UI 和逻辑之间可能存在脱节。

关键要点

新范式：游戏生成不再仅仅是代码生成，而是涉及引擎集成、资产管理和运行时交互的系统工程。
评估标准革新：传统的代码测试无法评估游戏质量，必须引入“引擎接地性”、“工件完整性”和“交互式验证”三维评估体系。
Godot 作为基准：GameCraft-Bench 选择 Godot 引擎作为测试平台，提供了 140 个跨 15 类游戏家族的标准化任务。
当前技术瓶颈：尽管前沿智能体能实现基本机制，但在构建完整、视觉反馈良好且连贯的游戏体验方面表现不佳，最高分仅为 41.46%。
多模态评判的重要性：评估过程结合了重放演示和多模态评判，以更准确地反映人类玩家对游戏可玩性的感知。

意义与影响

GameCraft-Bench 的发布标志着游戏生成研究从“代码片段生成”向“完整系统生成”的重要转变。

确立基准：它为衡量代码智能体在复杂、多模态、交互式环境中的能力提供了一个标准化的基准，填补了该领域的评估空白。
揭示差距：研究结果清晰地展示了当前 AI 在创造性工程任务中的短板——即从“功能实现”到“体验交付”之间的巨大鸿沟。这为未来的模型优化指明了方向，即需要增强模型对引擎内部状态、资产管理和用户界面连贯性的理解。
推动工具链发展：通过强调“引擎接地性”，该研究推动了开发更紧密集成于游戏引擎（如 Godot）的 AI 辅助工具，使开发者能够更高效地利用 AI 进行原型设计和内容生成。
开源贡献：研究提供了演示、代码和数据，促进了社区对游戏生成任务的协作探索，有助于加速这一新兴应用领域的成熟。

总之，GameCraft-Bench 不仅是一个基准测试，更是对当前 AI 游戏生成能力的一次全面体检，揭示了从“能写代码”到“能造游戏”之间仍需跨越的漫长道路。

查看原文 →arxiv.org