AI 资讯雷峰网·4 小时前

高校联合腾讯发布GameCraft-Bench：AI可端到端开发游戏

原标题：GAIR Paper 107｜高校联合腾讯发布 GameCraft-Bench：AI已能端到端开发游戏，Claude Opus 四成达到可玩水平

速览

香港中文大学（深圳）等高校联合腾讯发布GameCraft-Bench，旨在解决现有基准无法真实衡量AI游戏生成可玩性的问题。该基准基于Godot 4引擎，通过自然语言设计文档驱动AI生成完整可运行项目，并利用多模态大模型对交互过程进行自动验证。评测结果显示，Claude Opus等模型在端到端游戏开发任务中展现出显著能力，部分模型达到四成可玩水平。

AI 深度解读

背景

随着大语言模型（LLM）在代码生成领域的快速演进，Coding Agent（代码智能体）的能力已从编写单一脚本、修复局部 Bug，扩展到跨文件的长序列开发任务。以“一句话生成游戏”为代表，AI 正在显著降低交互式体验的构建门槛，使得通过自然语言快速生成可运行游戏原型成为可能。

然而，现有的评估基准存在明显局限：许多基准仅关注静态代码的正确性，缺乏对真实游戏引擎生态（如 Unity、Godot）的考察，且难以验证端到端产物的可玩性与动态交互逻辑。例如，OpenGame-Bench 主要面向 Web 网页游戏，而 GameDevBench 虽引入真实引擎，但侧重于局部代码修改而非从零交付完整游戏。这导致在静态基准上表现优异的 Agent，在真实引擎环境中往往无法运行或交互体验糟糕。

为解决这一痛点，香港中文大学（深圳）、深圳河套学院等高校联合腾讯发布了 GameCraft-Bench。这是一个基于真实游戏引擎、产物完整可运行，并能通过真实玩家多模态交互进行验证的 AI 游戏生成评测基准，旨在全面衡量 AI 构建端到端可玩系统的真实能力。

核心内容

GameCraft-Bench 的核心构建思路是“在真实引擎中约束开发规范，并将生成的项目转化为可运行、可观察、可验证的交互环境”。其具体实施流程与评估体系如下：

1. 基于真实引擎的开发约束

底层环境：选用轻量级、节点树结构清晰且支持原生 2D 和无头（headless）模式执行的 Godot 4 引擎。
输入与输出：系统向代码智能体提供自然语言游戏设计文档（GDD），智能体需自动编写 GDScript 脚本、配置场景树（Scene Tree）、挂载美术资产，最终交付一个包含入口场景和输入映射的、可直接启动的完整游戏项目，而非零散代码片段。

2. 多模态自动评测流程 GameCraft-Bench 摒弃了传统的静态代码测试，采用基于演示回放（Replay）与多模态大模型（VLM）的自动评测机制：

演示轨迹提交：Agent 需随项目提交 Demo Trace，记录键盘与鼠标操作轨迹（如移动、跳跃）。
重放与录制：评测系统在新实例中重放操作轨迹，自动录制运行过程，并采样关键画面。
VLM 裁判评分：多模态大模型作为裁判，依据 GDD 要求，对回放中的游戏行为、视觉反馈与状态变化进行评分，判断任务是否完成。这种设计避免了评测器自行探索，聚焦于验证 Agent 是否成功构建了目标能力。

3. 细粒度评估维度 评测体系不仅关注核心逻辑，还细化为四个维度，并结合人类专家标注的细粒度 Rubric 进行评估：

核心机制（Core Mechanics）：角色移动、物理碰撞、核心动作是否符合预期。
内容深度（Content Depth）：关卡元素丰富度、敌人生成合理性及难度曲线。
反馈与可读性（Functional Visuals）：游戏状态、警告提示、任务目标的可读性，以及在 1280×720 分辨率下的 UI 稳定性。
美术与呈现（Art and Presentation）：动画流畅度、视觉特效完整性及 UI 风格一致性。

4. 基准规模与验证

该基准覆盖 15 个主流游戏家族（包括平台跳跃、塔防策略、模拟经营等），共计 140 个深度开发任务。
团队验证了 Judge 的稳定性与一致性，结果显示在固定条件下评测波动极小，且与人工评测整体一致，仅在内容丰富度与表现质量上略偏宽松，证明了自动评测体系的可靠性。

关键要点

前沿模型表现未达及格线：测试显示，端到端复杂交互系统的生成远未解决。即使是第一梯队的 Opus-4.7 high 和 GPT-5.5 high，综合总分分别仅为 41.46% 和 39.49%，绝大多数模型总分均在 40% 以下。
“数据疲软”现象显著：模型在“核心机制”上得分较高（Opus-4.7 high 为 55.34%，GPT-5.5 high 为 54.36%），但在涉及系统深度扩展的“内容深度”（降至约 39%）和“艺术表现”（降至约 32%-36%）上得分大幅下跌。这表明模型仅能构建基础代码框架，缺乏将系统做深、做完整的交付能力。
工具使用偏好决定效率：
- Kimi-K2.6 表现出高效的“视觉反馈闭环”，平均每项任务调用渲染屏幕检查工具 21.41 次，通过高频画面回读定位逻辑缺陷，实现了视觉感知引导的精准迭代。
- MiMo-V2.5-Pro 陷入“终端调试泥潭”，Shell 命令行执行占比高达 56.3%，而代码阅读与编辑仅占 16.5%。其工具调用总量与得分几乎无关联（相关系数 r = +0.016），且因过度依赖 Bash 调试，常导致交互轨迹文件缺失等交付失败。
评测体系的局限性：GameCraft-Bench 目前聚焦于 2D 引擎，且裁判机制尚未接入音频多模态评估，但这仍是指向完全自主 AI 游戏生成的关键一步。

意义与影响

GameCraft-Bench 的发布标志着 AI 编程评测范式的重要转变：竞争焦点正从“模型能否写出正确的代码”转向“模型能否交付真正可运行、可交互、体验连贯的软件系统”。

弥合静态评测与真实工程的鸿沟：传统的代码评测（如 LeetCode）虽易于规模化，但与真实软件工程脱节；而直接评测真实游戏产物虽硬核但成本高。GameCraft-Bench 通过自然语言 GDD 到真实 Godot 引擎再到多模态验证的闭环，提供了一条“难而正确”的评估路径。
揭示当前 AI 的能力边界：数据清晰地表明，尽管 AI 在基础逻辑生成上已有进步，但在处理复杂交互系统、内容深度扩展及视觉呈现方面仍存在巨大瓶颈。这为后续模型优化指明了方向，即需要加强从局部代码到全局系统集成的能力。
推动工业级落地：只有敢于直面引擎真实运行和多模态交互残酷性的模型，才能真正走向工业级落地。GameCraft-Bench 为检验大模型是否理解“人机交互”本质提供了系统性方法，有助于筛选出具备独立创造复杂交互式体验潜力的 AI 系统。

查看原文 →leiphone.com

高校联合腾讯发布GameCraft-Bench：AI可端到端开发游戏

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐