Agent SkillLINUX DO · AI·1 小时前

开发者实测GLM-5.2优于Opus 4.6，质疑Claude降智

原标题：感觉GLM-5.2比Opus4.6好用，可能A➗降智了

速览

一位开发者分享使用GLM-5.2 Coding Plan的体验，对比Claude Opus 4.6表现。他认为Opus 4.6在处理复杂长上下文任务时能力下降，代码质量不佳且易出错。相比之下，GLM-5.2能精准理解意图并提供有效修复方案，尽管速度稍慢但更可靠。该开发者表示已离不开GLM-5.2，并质疑Claude是否降智。

AI 深度解读

背景

近期，开发者社区中关于大语言模型（LLM）在代码生成与工作流集成方面表现的讨论日益热烈。本文源于一位资深开发者在 LINUX DO 社区分享的实战体验。该开发者通过闲鱼渠道购得 GLM-5.2 的 Coding Plan 订阅，并以此为核心，对比了 Anthropic 旗下 Claude 系列模型（特别是 Opus 4.6 版本）在复杂编程任务中的实际表现。

此次对比的背景基于开发者对当前主流模型生态的观察：一方面，GPT-5.4 及其后续版本因“不说人话”及 Codex 工作模式过于谨慎而被部分开发者弃用；另一方面，Fable 5 虽获赞誉但因不可用而暂不参与对比。在此语境下，开发者试图验证 GLM-5.2 是否能在实际工程场景中超越被视为行业标杆的 Claude Opus 4.6，并探讨国产模型在高端订阅服务中的竞争力。

核心内容

该开发者在为期一天的深度体验中，重点考察了 GLM-5.2 与 Claude Opus 4.6 在处理复杂、长上下文代码任务时的稳定性与准确性。

1. Claude Opus 4.6 的表现缺陷 开发者指出，Opus 4.6 在处理相对复杂且上下文较长的任务时，表现出明显的“降智”现象。具体表现为代码生成质量急剧下降，输出混乱（“写的代码一坨”）。在一次涉及 Git 分支管理的任务中，模型未能准确执行删除 worktree、远程分支和本地分支的指令，甚至遗漏了远程分支的删除操作。这种低级错误导致开发者不得不手动介入清理，严重怀疑 Anthropic 在近期更新中导致了模型能力的退化（即所谓的“A➗降智”）。

2. 对比模型的筛选逻辑 开发者明确排除了其他几个热门模型作为对比对象：

GPT-5.4 / GPT-5.5：GPT-5.4 被评价为“不说人话”，且其配套的 Codex 执行模式过于谨慎，不符合开发者的高效需求；因此未使用 GPT-5.5。
Opus 4.7 / 4.8：被鉴定为与 GPT-5.4 处于同一梯队，同样存在沟通障碍，故未纳入对比。
Fable 5：虽然能力强劲，但因无法在当前环境中同台竞技，故跳过。

3. GLM-5.2 的优势体现 在相同的任务场景和提示词（Prompt）下，GLM-5.2 展现出了更高的意图理解能力和执行准确性。尽管其使用的工具链（Pi）比 Claude Code 的 Harness 更为简陋，但 GLM-5.2 能够精准定位问题，给出有效修复方案并成功实现。

速度对比：虽然 Opus 4.6 在理论响应速度上更快，但由于任务失败率高，实际完成时间反而更长。GLM-5.2 虽单次响应稍慢，但凭借高成功率实现了整体效率的提升。

4. 用户反馈与疑问 开发者表示已深度依赖 GLM-5.2，并计划升级至 Max 订阅，感叹“国产牛逼”。同时，开发者澄清自己并非“水军”，而是正经开发者。此外，文中附带了一个关于订阅额度对比的疑问：GLM Max 与 Claude Max 20x 相比，哪个提供的额度更多？开发者目前持有 GLM Pro 订阅，感觉额度消耗较快，一天即消耗了周限额的 16%。

关键要点

模型稳定性差异：在长上下文、复杂代码任务中，Claude Opus 4.6 出现显著的能力退化，表现为代码质量低和指令执行遗漏（如 Git 分支操作失误）；GLM-5.2 则表现出稳定的意图理解和执行能力。
工具链与性能权衡：GLM-5.2 在工具链（Pi）相对简陋的情况下，依然优于 Claude Code 的 Harness 表现，证明了模型本身核心能力的强大。
实际效率评估：代码生成的“快”不等于“效率高”。Opus 4.6 因高错误率导致返工，实际耗时更长；GLM-5.2 因高成功率实现了更优的整体工作流效率。
市场替代趋势：部分开发者因 GPT 系列沟通障碍及谨慎策略，开始转向 GLM 等国产模型，并表现出强烈的迁移意愿（计划升级 Max 订阅）。
订阅成本关注：开发者对 GLM Pro 的额度消耗速度表示关切，暗示高端订阅服务的性价比和额度透明度是用户决策的重要因素。

意义与影响

这一案例反映了当前 AI 编程助手市场的一个重要转折点：“可用性与稳定性”正逐渐超越单纯的“速度”或“品牌光环”，成为开发者选择模型的核心指标。

国产模型的崛起：GLM-5.2 的表现证明，国产大模型在代码生成这一高难度垂直领域，已经具备与国际顶尖模型（如 Claude Opus 系列）正面竞争甚至局部超越的能力。这对于打破国外模型垄断、提供多样化技术选型具有积极意义。
对头部厂商的警示：Claude Opus 4.6 的“降智”现象引发了开发者的强烈不满，这提醒 Anthropic 等头部厂商，在追求模型参数规模或新特性时，不能忽视基础指令遵循能力和稳定性的维护。任何细微的性能倒退都可能直接导致核心用户群体的流失。
工作流优化的新视角：开发者开始更理性地评估 AI 工具链。即使工具链简陋（如 Pi vs Harness），只要模型核心智能足够强大，依然能提供更优的体验。这鼓励了开发者在构建工作流时，更加关注模型本身的推理质量，而非过度依赖外围工具的华丽程度。
订阅经济下的用户教育：用户对额度消耗（如 GLM Pro 的 16%/天）的敏感度，表明 AI 服务正在从“免费试用”向“重度生产工具”转变。厂商需要更透明、更合理的计费模式，以匹配开发者对长期稳定使用的预期。

查看原文 →linux.do

开发者实测GLM-5.2优于Opus 4.6，质疑Claude降智

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐