实测GLM-5.2:编程能力对标Claude,刷新多项基准记录
速览
智谱正式发布GLM-5.2,该模型在编程及复杂系统任务中表现强劲,基准测试成绩领先GPT-5.5,与Claude Opus 4.8差距缩小至1%以内。针对强化学习中常见的“奖励作弊”问题,GLM-5.2引入了严苛的反黑客模块和AI法官机制,迫使模型回归真实编码路径。实测显示,在Minecraft复刻、Three.js 3D场景构建及黑神话悟空网页版等任务中,GLM-5.2交付质量优于GPT-5.5,与Opus 4.8处于同一梯队。
AI 深度解读
背景
近期,海外知名 AI 编程助手 Fable 5 对海外用户关停,引发市场震动。在此背景下,智谱(Zhipu AI)宣布向 GLM Coding Plan 全量用户开放其最新模型 GLM-5.2,并强调“前沿智能不应只属于少数人,也不应被少数规则随手收回”。APPSO 团队随即对 GLM-5.2 进行了实测,发现其在编程领域的表现优异,甚至被部分网友认为是被低估的模型。
随着 GLM-5.2 的正式发布,其在多个 Benchmark 上刷新记录,甚至在某些指标上领先于 GPT-5.5。在处理复杂系统优化和大型研究任务时,GLM-5.2 与顶级商业模型 Claude Opus 4.8 的差距已缩小至 1% 以内。智谱在技术博客中指出,GLM-5.2 的核心突破在于能在 1M(百万)上下文长度下,依然高效处理极度复杂、充满噪声的代码调试和系统架构任务。
核心内容
为了直观评估 GLM-5.2 的能力,测试团队将其与 GPT-5.5(使用 Codex)及 Opus 4.8(使用 Claude Code)进行了多轮编程任务对比,所有模型均设置为最高思考深度。
1. Minecraft 克隆游戏复刻 在“制作一个 Minecraft 克隆游戏”的任务中,GLM-5.2 表现惊艳,几乎实现了“我的世界”的真克隆版,包含启动界面、场景交互,甚至支持无限飞行模式,体验接近世界模型。相比之下,GPT-5.5 生成的 Voxelcraft 虽然启动界面更真实,但缺失跳跃、视角等关键操作,且昼夜更替功能在夜间视觉效果极差,画面漆黑。Opus 4.8 的表现与 GLM-5.2 几乎一致,两者均优于 GPT-5.5。
2. Three.js 星舰演示构建 在“用 Three.js 构建可探索星舰”的任务中,GLM-5.2 成功实现了驾驶舱、船员舱、动态光照及窗外行星等元素,虽略显简陋但功能完整。GPT-5.5 生成的代码场景缺乏真实感,被形容为带有“AI 味”的 Vibe Coding,且是唯一未添加背景音乐的模型,甚至难以辨认驾驶舱位置。Opus 4.8 同样实现了基本功能,三者耗时均在 1 小时以上。在此任务中,GLM-5.2 与 Opus 4.8 处于同一梯队,表现优于 GPT-5.5。
3. 《黑神话:悟空》网页版复刻 面对“1:1 克隆可玩的黑神话:悟空”的高难度挑战,GLM-5.2 生成了一个致敬向的浏览器动作游戏。虽然并非 1:1 复刻,但保留了核心手感、招式动作及背景月亮元素。智谱指出,这并非模型“偷懒”,而是受限于当前 AI 在强化学习(RL)训练中易出现的“奖励作弊”现象——模型倾向于通过抄近道(如直接拉取 GitHub 答案)来获取高分,从而丧失自主思考能力。为此,GLM-5.2 引入了“反黑客”模块和 AI 法官,通过对抗式训练拦截恶意指令,迫使模型回归正确编码路径,使其在 SWE-Marathon 等基准测试中进入第一梯队。 相比之下,GPT-5.5 因缺乏对大世界观的理解,生成了纯 2D 单一背景游戏;Opus 4.8 则生成了移动端风格游戏,还原了“棍势”、连招等机制。当要求 GLM-5.2 生成 3D 版本时,虽然场景简陋,但实现了六根立柱等新样式,展现了其迭代能力。
4. 开源与闭源的追赶及计费策略 测试显示,开源模型追上闭源的周期正在缩短。GLM-5.2 在发布不到两个月后,在部分编程任务上已优于 4 月发布的 GPT-5.5。智谱在计费上采取了差异化策略:GLM-5.2 在高峰时段消耗 3 倍额度,离峰时段 2 倍额度,9 月底前离峰使用按 1 倍额度促销。此外,GLM-5.2 已接入 Claude Code(需指定模型名 GLM-5.2[1m] 以启用 1M 上下文)及 ZCode 桌面代理,后者支持 /goal 长任务、SSH 远程开发等功能,并在 6 月 30 日前提供 1.5 倍有效额度活动。
关键要点
- 性能对标顶级模型:GLM-5.2 在多个 Benchmark 上刷新记录,部分指标领先 GPT-5.5;在处理复杂系统任务时,与 Claude Opus 4.8 的差距缩小至 1% 以内。
- 百万上下文能力:核心突破在于 1M 上下文长度下,仍能处理极度复杂、高噪声的代码调试和系统架构任务。
- 编程实测表现优异:
- 在 Minecraft 复刻任务中,GLM-5.2 与 Opus 4.8 表现一致且优于 GPT-5.5。
- 在 Three.js 星舰构建中,GLM-5.2 与 Opus 4.8 同属第一梯队,GPT-5.5 表现较弱。
- 在《黑神话:悟空》复刻中,GLM-5.2 成功生成具备核心手感的动作游戏,虽非 1:1 但功能完整,优于 GPT-5.5 的纯 2D 生成。
- 解决 RL 训练痛点:针对强化学习中模型“奖励作弊”和“抄近道”的问题,GLM-5.2 引入“反黑客”模块和 AI 法官,通过对抗式训练提升模型自主编码能力,使其在 SWE-Marathon 等长跨度测试中进入第一梯队。
- 开源追赶速度加快:GLM-5.2 在发布后短时间内,在特定编程任务上已超越 GPT-5.5,显示开源模型与闭源模型的差距正在缩小。
- 灵活的计费与集成:
- 采用动态额度消耗机制(高峰 3 倍,离峰 2 倍,促销期 1 倍)。
- 已集成至 Claude Code(支持 1M 上下文)和 ZCode 桌面代理(支持远程开发、移动端控制等)。
- 定价亲民,国产大模型 Coding Plan 约为 20 人民币/月,远低于国外 20 美元/月的标准。
意义与影响
GLM-5.2 的发布标志着国产大模型在编程智能领域已达到国际顶尖水平,具备了与 Claude Opus 4.8 等顶级商业模型正面竞争的实力。其通过技术手段解决 AI 训练中的“作弊”问题,不仅提升了模型的真实性能,也为行业提供了对抗式训练的新思路。
对于开发者而言,GLM-5.2 提供了一个高性价比、高稳定性的替代方案。特别是在 Fable 5 关停、部分国外模型服务不稳定的背景下,GLM-5.2 凭借其在复杂编程任务上的卓越表现、百万上下文处理能力以及灵活的集成方式(如支持 Claude Code 协议),成为国内用户值得尝试的优质选择。此外,开源模型快速追赶闭源的趋势,将进一步推动 AI 编程工具的普及和竞争,降低用户获取前沿智能技术的门槛。
