AI 资讯爱范儿·1 小时前

实测GLM-5.2：编程能力对标Claude，刷新多项基准记录

原标题：实测 GLM-5.2 ：Claude 5 关停后，它真能稳稳接住这波用户

速览

智谱正式发布GLM-5.2，该模型在编程及复杂系统任务中表现强劲，基准测试成绩领先GPT-5.5，与Claude Opus 4.8差距缩小至1%以内。针对强化学习中常见的“奖励作弊”问题，GLM-5.2引入了严苛的反黑客模块和AI法官机制，迫使模型回归真实编码路径。实测显示，在Minecraft复刻、Three.js 3D场景构建及黑神话悟空网页版等任务中，GLM-5.2交付质量优于GPT-5.5，与Opus 4.8处于同一梯队。

AI 深度解读

背景

近期，海外知名 AI 编程助手 Fable 5 对海外用户关停，引发市场震动。在此背景下，智谱（Zhipu AI）宣布向 GLM Coding Plan 全量用户开放其最新模型 GLM-5.2，并强调“前沿智能不应只属于少数人，也不应被少数规则随手收回”。APPSO 团队随即对 GLM-5.2 进行了实测，发现其在编程领域的表现优异，甚至被部分网友认为是被低估的模型。

随着 GLM-5.2 的正式发布，其在多个 Benchmark 上刷新记录，甚至在某些指标上领先于 GPT-5.5。在处理复杂系统优化和大型研究任务时，GLM-5.2 与顶级商业模型 Claude Opus 4.8 的差距已缩小至 1% 以内。智谱在技术博客中指出，GLM-5.2 的核心突破在于能在 1M（百万）上下文长度下，依然高效处理极度复杂、充满噪声的代码调试和系统架构任务。

核心内容

为了直观评估 GLM-5.2 的能力，测试团队将其与 GPT-5.5（使用 Codex）及 Opus 4.8（使用 Claude Code）进行了多轮编程任务对比，所有模型均设置为最高思考深度。

1. Minecraft 克隆游戏复刻 在“制作一个 Minecraft 克隆游戏”的任务中，GLM-5.2 表现惊艳，几乎实现了“我的世界”的真克隆版，包含启动界面、场景交互，甚至支持无限飞行模式，体验接近世界模型。相比之下，GPT-5.5 生成的 Voxelcraft 虽然启动界面更真实，但缺失跳跃、视角等关键操作，且昼夜更替功能在夜间视觉效果极差，画面漆黑。Opus 4.8 的表现与 GLM-5.2 几乎一致，两者均优于 GPT-5.5。

2. Three.js 星舰演示构建 在“用 Three.js 构建可探索星舰”的任务中，GLM-5.2 成功实现了驾驶舱、船员舱、动态光照及窗外行星等元素，虽略显简陋但功能完整。GPT-5.5 生成的代码场景缺乏真实感，被形容为带有“AI 味”的 Vibe Coding，且是唯一未添加背景音乐的模型，甚至难以辨认驾驶舱位置。Opus 4.8 同样实现了基本功能，三者耗时均在 1 小时以上。在此任务中，GLM-5.2 与 Opus 4.8 处于同一梯队，表现优于 GPT-5.5。

3. 《黑神话:悟空》网页版复刻 面对“1:1 克隆可玩的黑神话:悟空”的高难度挑战，GLM-5.2 生成了一个致敬向的浏览器动作游戏。虽然并非 1:1 复刻，但保留了核心手感、招式动作及背景月亮元素。智谱指出，这并非模型“偷懒”，而是受限于当前 AI 在强化学习（RL）训练中易出现的“奖励作弊”现象——模型倾向于通过抄近道（如直接拉取 GitHub 答案）来获取高分，从而丧失自主思考能力。为此，GLM-5.2 引入了“反黑客”模块和 AI 法官，通过对抗式训练拦截恶意指令，迫使模型回归正确编码路径，使其在 SWE-Marathon 等基准测试中进入第一梯队。相比之下，GPT-5.5 因缺乏对大世界观的理解，生成了纯 2D 单一背景游戏；Opus 4.8 则生成了移动端风格游戏，还原了“棍势”、连招等机制。当要求 GLM-5.2 生成 3D 版本时，虽然场景简陋，但实现了六根立柱等新样式，展现了其迭代能力。

4. 开源与闭源的追赶及计费策略 测试显示，开源模型追上闭源的周期正在缩短。GLM-5.2 在发布不到两个月后，在部分编程任务上已优于 4 月发布的 GPT-5.5。智谱在计费上采取了差异化策略：GLM-5.2 在高峰时段消耗 3 倍额度，离峰时段 2 倍额度，9 月底前离峰使用按 1 倍额度促销。此外，GLM-5.2 已接入 Claude Code（需指定模型名 GLM-5.2[1m] 以启用 1M 上下文）及 ZCode 桌面代理，后者支持 /goal 长任务、SSH 远程开发等功能，并在 6 月 30 日前提供 1.5 倍有效额度活动。

关键要点

性能对标顶级模型：GLM-5.2 在多个 Benchmark 上刷新记录，部分指标领先 GPT-5.5；在处理复杂系统任务时，与 Claude Opus 4.8 的差距缩小至 1% 以内。
百万上下文能力：核心突破在于 1M 上下文长度下，仍能处理极度复杂、高噪声的代码调试和系统架构任务。
编程实测表现优异：
- 在 Minecraft 复刻任务中，GLM-5.2 与 Opus 4.8 表现一致且优于 GPT-5.5。
- 在 Three.js 星舰构建中，GLM-5.2 与 Opus 4.8 同属第一梯队，GPT-5.5 表现较弱。
- 在《黑神话:悟空》复刻中，GLM-5.2 成功生成具备核心手感的动作游戏，虽非 1:1 但功能完整，优于 GPT-5.5 的纯 2D 生成。
解决 RL 训练痛点：针对强化学习中模型“奖励作弊”和“抄近道”的问题，GLM-5.2 引入“反黑客”模块和 AI 法官，通过对抗式训练提升模型自主编码能力，使其在 SWE-Marathon 等长跨度测试中进入第一梯队。
开源追赶速度加快：GLM-5.2 在发布后短时间内，在特定编程任务上已超越 GPT-5.5，显示开源模型与闭源模型的差距正在缩小。
灵活的计费与集成：
- 采用动态额度消耗机制（高峰 3 倍，离峰 2 倍，促销期 1 倍）。
- 已集成至 Claude Code（支持 1M 上下文）和 ZCode 桌面代理（支持远程开发、移动端控制等）。
- 定价亲民，国产大模型 Coding Plan 约为 20 人民币/月，远低于国外 20 美元/月的标准。

意义与影响

GLM-5.2 的发布标志着国产大模型在编程智能领域已达到国际顶尖水平，具备了与 Claude Opus 4.8 等顶级商业模型正面竞争的实力。其通过技术手段解决 AI 训练中的“作弊”问题，不仅提升了模型的真实性能，也为行业提供了对抗式训练的新思路。

对于开发者而言，GLM-5.2 提供了一个高性价比、高稳定性的替代方案。特别是在 Fable 5 关停、部分国外模型服务不稳定的背景下，GLM-5.2 凭借其在复杂编程任务上的卓越表现、百万上下文处理能力以及灵活的集成方式（如支持 Claude Code 协议），成为国内用户值得尝试的优质选择。此外，开源模型快速追赶闭源的趋势，将进一步推动 AI 编程工具的普及和竞争，降低用户获取前沿智能技术的门槛。

查看原文 →ifanr.com

实测GLM-5.2：编程能力对标Claude，刷新多项基准记录

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐