← 返回信息流
AI 资讯雷峰网·4 小时前

高校联合腾讯发布GameCraft-Bench:AI可端到端开发游戏

原标题:GAIR Paper 107|高校联合腾讯发布 GameCraft-Bench:AI已能端到端开发游戏,Claude Opus 四成达到可玩水平

速览

香港中文大学(深圳)等高校联合腾讯发布GameCraft-Bench,旨在解决现有基准无法真实衡量AI游戏生成可玩性的问题。该基准基于Godot 4引擎,通过自然语言设计文档驱动AI生成完整可运行项目,并利用多模态大模型对交互过程进行自动验证。评测结果显示,Claude Opus等模型在端到端游戏开发任务中展现出显著能力,部分模型达到四成可玩水平。

AI 深度解读

背景

随着大语言模型(LLM)在代码生成领域的快速演进,Coding Agent(代码智能体)的能力已从编写单一脚本、修复局部 Bug,扩展到跨文件的长序列开发任务。以“一句话生成游戏”为代表,AI 正在显著降低交互式体验的构建门槛,使得通过自然语言快速生成可运行游戏原型成为可能。

然而,现有的评估基准存在明显局限:许多基准仅关注静态代码的正确性,缺乏对真实游戏引擎生态(如 Unity、Godot)的考察,且难以验证端到端产物的可玩性与动态交互逻辑。例如,OpenGame-Bench 主要面向 Web 网页游戏,而 GameDevBench 虽引入真实引擎,但侧重于局部代码修改而非从零交付完整游戏。这导致在静态基准上表现优异的 Agent,在真实引擎环境中往往无法运行或交互体验糟糕。

为解决这一痛点,香港中文大学(深圳)、深圳河套学院等高校联合腾讯发布了 GameCraft-Bench。这是一个基于真实游戏引擎、产物完整可运行,并能通过真实玩家多模态交互进行验证的 AI 游戏生成评测基准,旨在全面衡量 AI 构建端到端可玩系统的真实能力。

核心内容

GameCraft-Bench 的核心构建思路是“在真实引擎中约束开发规范,并将生成的项目转化为可运行、可观察、可验证的交互环境”。其具体实施流程与评估体系如下:

1. 基于真实引擎的开发约束

  • 底层环境:选用轻量级、节点树结构清晰且支持原生 2D 和无头(headless)模式执行的 Godot 4 引擎。
  • 输入与输出:系统向代码智能体提供自然语言游戏设计文档(GDD),智能体需自动编写 GDScript 脚本、配置场景树(Scene Tree)、挂载美术资产,最终交付一个包含入口场景和输入映射的、可直接启动的完整游戏项目,而非零散代码片段。

2. 多模态自动评测流程 GameCraft-Bench 摒弃了传统的静态代码测试,采用基于演示回放(Replay)与多模态大模型(VLM)的自动评测机制:

  • 演示轨迹提交:Agent 需随项目提交 Demo Trace,记录键盘与鼠标操作轨迹(如移动、跳跃)。
  • 重放与录制:评测系统在新实例中重放操作轨迹,自动录制运行过程,并采样关键画面。
  • VLM 裁判评分:多模态大模型作为裁判,依据 GDD 要求,对回放中的游戏行为、视觉反馈与状态变化进行评分,判断任务是否完成。这种设计避免了评测器自行探索,聚焦于验证 Agent 是否成功构建了目标能力。

3. 细粒度评估维度 评测体系不仅关注核心逻辑,还细化为四个维度,并结合人类专家标注的细粒度 Rubric 进行评估:

  • 核心机制(Core Mechanics):角色移动、物理碰撞、核心动作是否符合预期。
  • 内容深度(Content Depth):关卡元素丰富度、敌人生成合理性及难度曲线。
  • 反馈与可读性(Functional Visuals):游戏状态、警告提示、任务目标的可读性,以及在 1280×720 分辨率下的 UI 稳定性。
  • 美术与呈现(Art and Presentation):动画流畅度、视觉特效完整性及 UI 风格一致性。

4. 基准规模与验证

  • 该基准覆盖 15 个主流游戏家族(包括平台跳跃、塔防策略、模拟经营等),共计 140 个深度开发任务。
  • 团队验证了 Judge 的稳定性与一致性,结果显示在固定条件下评测波动极小,且与人工评测整体一致,仅在内容丰富度与表现质量上略偏宽松,证明了自动评测体系的可靠性。

关键要点

  • 前沿模型表现未达及格线:测试显示,端到端复杂交互系统的生成远未解决。即使是第一梯队的 Opus-4.7 highGPT-5.5 high,综合总分分别仅为 41.46% 和 39.49%,绝大多数模型总分均在 40% 以下。
  • “数据疲软”现象显著:模型在“核心机制”上得分较高(Opus-4.7 high 为 55.34%,GPT-5.5 high 为 54.36%),但在涉及系统深度扩展的“内容深度”(降至约 39%)和“艺术表现”(降至约 32%-36%)上得分大幅下跌。这表明模型仅能构建基础代码框架,缺乏将系统做深、做完整的交付能力。
  • 工具使用偏好决定效率
    • Kimi-K2.6 表现出高效的“视觉反馈闭环”,平均每项任务调用渲染屏幕检查工具 21.41 次,通过高频画面回读定位逻辑缺陷,实现了视觉感知引导的精准迭代。
    • MiMo-V2.5-Pro 陷入“终端调试泥潭”,Shell 命令行执行占比高达 56.3%,而代码阅读与编辑仅占 16.5%。其工具调用总量与得分几乎无关联(相关系数 r = +0.016),且因过度依赖 Bash 调试,常导致交互轨迹文件缺失等交付失败。
  • 评测体系的局限性:GameCraft-Bench 目前聚焦于 2D 引擎,且裁判机制尚未接入音频多模态评估,但这仍是指向完全自主 AI 游戏生成的关键一步。

意义与影响

GameCraft-Bench 的发布标志着 AI 编程评测范式的重要转变:竞争焦点正从“模型能否写出正确的代码”转向“模型能否交付真正可运行、可交互、体验连贯的软件系统”。

  1. 弥合静态评测与真实工程的鸿沟:传统的代码评测(如 LeetCode)虽易于规模化,但与真实软件工程脱节;而直接评测真实游戏产物虽硬核但成本高。GameCraft-Bench 通过自然语言 GDD 到真实 Godot 引擎再到多模态验证的闭环,提供了一条“难而正确”的评估路径。
  2. 揭示当前 AI 的能力边界:数据清晰地表明,尽管 AI 在基础逻辑生成上已有进步,但在处理复杂交互系统、内容深度扩展及视觉呈现方面仍存在巨大瓶颈。这为后续模型优化指明了方向,即需要加强从局部代码到全局系统集成的能力。
  3. 推动工业级落地:只有敢于直面引擎真实运行和多模态交互残酷性的模型,才能真正走向工业级落地。GameCraft-Bench 为检验大模型是否理解“人机交互”本质提供了系统性方法,有助于筛选出具备独立创造复杂交互式体验潜力的 AI 系统。
查看原文 →leiphone.com