← 返回信息流
Agent SkillLINUX DO · AI·1 小时前

GLM5.2大战GPT5.6sol 和Fable5 一键生成愤怒小鸟游戏

原标题:GLM5.2大战 GPT5.6sol 还有fable5,一键生成愤怒的小鸟游戏

速览

GLM5.2在单HTML愤怒小鸟游戏生成上高度可玩,效果接近GPT5.6sol和Claude Fable5。测试对比显示闭源模型还原度更高,GLM5.2达到分水岭水平,标志着提示词工程与AI赋能游戏开发的成熟应用。

AI 深度解读

背景

大模型在代码生成领域的应用已逐步成熟,许多用户通过提示词来驱动AI输出完整、可交互的游戏原型。本文分享的测试案例正是源于这一场景:用户此前多次尝试让其他大模型生成《愤怒的小鸟》(Angry Birds)单关卡游戏,均因还原度不足、存在各种bug而效果欠佳。经过GLM 5.2的测试,他发现该模型已能实现高度可玩性与较好效果,遂以此为基准开展对比实验,重点对比闭源模型的生成能力与局限性。

核心内容

用户明确表示此前用其他大模型生成《愤怒的小鸟》游戏时,效果一直不理想,不够还原且充满bug。GLM 5.2的测试结果让他惊喜,发现模型已能高度可玩,整体效果不错。他随后利用AI两幻神进行了闭源模型间的直接对比实验。

实验设定如下:

  • 针对GLM 5.2,采用cherry studio测试环境(默认effort,未软件内调节),生成的是“愤怒的小鸟 · 单关卡挑战”。提示词为“创作一个单关卡 单html的愤怒的小鸟游戏”,画风偏写实。
  • 针对GPT 5.6 sol,采用codex app测试环境(effort:extra high,未选ultra档),生成的是“小鸟攻城 · 单关卡”。
  • 针对claude fable5,采用claude app测试环境(effort:xhigh,未选max/ultra),生成的是“愤怒的小鸟 · 迷你关卡”,细节做得很到位,包括背景移动的云以及音效。
  • 针对claude oups4.8,采用claude app测试环境(effort:max),生成的是“愤怒的小鸟 · 单关卡”。

用户强调这些测试并非一次生成的结果,均因小问题进行了1-2次纠正,但认为这无伤大雅。实验结果显示,闭源模型在还原度上优于GLM 5.2,体现了更高的生成能力。用户进一步指出,仅凭单HTML生成无法全面体现模型能力,但这一测试已可作为能力分水岭,高于此水平线后,模型间差距将不再显著。他个人认为的排名为:fable5 >= GPT 5.6 sol > oups4.8 >= GLM 5.2。点击链接可试玩生成的游戏原型。

关键要点

  • 用户此前用其他大模型生成《愤怒的小鸟》单关卡游戏时,效果均不理想,存在还原度不足与大量bug问题。
  • GLM 5.2生成“愤怒的小鸟 · 单关卡挑战”时,高度可玩,整体效果不错,画风偏写实。
  • 闭源模型对比实验中,GPT 5.6 sol与claude fable5均优于GLM 5.2,claude fable5在细节(云、音效)上表现突出,claude oups4.8则略逊于fable5。
  • 所有测试均涉及1-2次小问题纠正,模型可通过迭代优化达到可用效果。
  • 单关卡单HTML输出已达能力分水岭,此后模型间差距趋于一致。
  • 用户个人主观排名为fable5 >= GPT 5.6 sol > oups4.8 >= GLM 5.2。
  • 实验环境与effort参数分别为:GLM 5.2(cherry studio,默认effort)、GPT 5.6 sol(codex app,extra high)、claude fable5(claude app,xhigh)、claude oups4.8(claude app,max)。

意义与影响

这一测试案例清晰展示了大模型在代码与游戏原型生成领域的快速迭代:从此前难以完成的复杂游戏输出,到GLM 5.2等模型实现可玩性突破,再到闭源模型在还原度与细节控制上的显著优势,凸显了模型在特定垂直领域(如HTML5游戏)的差异化能力。单HTML单关卡的基准测试方法,既降低了生成门槛,也为用户提供了可重复验证的参考点,标志着AI辅助游戏开发的实践门槛正在逐步降低。

在更广意义上,这类用户分享有助于推动社区规范提示词工程与effort参数调优,推动大模型从“会写代码”向“能出高质量交互原型”演进。尽管闭源模型仍占优,但开源模型(GLM 5.2)的进步已接近可玩水平,预示着未来模型在游戏生成领域的对标竞争将更加激烈。无论对开发者、研究者还是普通用户,都为探索AI驱动的趣味游戏创作提供了真实、可落地的案例与信心,体现了技术迭代的开放性与竞争性。

查看原文 →linux.do