← 返回信息流
Agent SkillLINUX DO · AI·1 小时前

开发者实测GLM-5.2优于Opus 4.6,质疑Claude降智

原标题:感觉GLM-5.2比Opus4.6好用,可能A➗降智了

速览

一位开发者分享使用GLM-5.2 Coding Plan的体验,对比Claude Opus 4.6表现。他认为Opus 4.6在处理复杂长上下文任务时能力下降,代码质量不佳且易出错。相比之下,GLM-5.2能精准理解意图并提供有效修复方案,尽管速度稍慢但更可靠。该开发者表示已离不开GLM-5.2,并质疑Claude是否降智。

AI 深度解读

背景

近期,开发者社区中关于大语言模型(LLM)在代码生成与工作流集成方面表现的讨论日益热烈。本文源于一位资深开发者在 LINUX DO 社区分享的实战体验。该开发者通过闲鱼渠道购得 GLM-5.2 的 Coding Plan 订阅,并以此为核心,对比了 Anthropic 旗下 Claude 系列模型(特别是 Opus 4.6 版本)在复杂编程任务中的实际表现。

此次对比的背景基于开发者对当前主流模型生态的观察:一方面,GPT-5.4 及其后续版本因“不说人话”及 Codex 工作模式过于谨慎而被部分开发者弃用;另一方面,Fable 5 虽获赞誉但因不可用而暂不参与对比。在此语境下,开发者试图验证 GLM-5.2 是否能在实际工程场景中超越被视为行业标杆的 Claude Opus 4.6,并探讨国产模型在高端订阅服务中的竞争力。

核心内容

该开发者在为期一天的深度体验中,重点考察了 GLM-5.2 与 Claude Opus 4.6 在处理复杂、长上下文代码任务时的稳定性与准确性。

1. Claude Opus 4.6 的表现缺陷 开发者指出,Opus 4.6 在处理相对复杂且上下文较长的任务时,表现出明显的“降智”现象。具体表现为代码生成质量急剧下降,输出混乱(“写的代码一坨”)。在一次涉及 Git 分支管理的任务中,模型未能准确执行删除 worktree、远程分支和本地分支的指令,甚至遗漏了远程分支的删除操作。这种低级错误导致开发者不得不手动介入清理,严重怀疑 Anthropic 在近期更新中导致了模型能力的退化(即所谓的“A➗降智”)。

2. 对比模型的筛选逻辑 开发者明确排除了其他几个热门模型作为对比对象:

  • GPT-5.4 / GPT-5.5:GPT-5.4 被评价为“不说人话”,且其配套的 Codex 执行模式过于谨慎,不符合开发者的高效需求;因此未使用 GPT-5.5。
  • Opus 4.7 / 4.8:被鉴定为与 GPT-5.4 处于同一梯队,同样存在沟通障碍,故未纳入对比。
  • Fable 5:虽然能力强劲,但因无法在当前环境中同台竞技,故跳过。

3. GLM-5.2 的优势体现 在相同的任务场景和提示词(Prompt)下,GLM-5.2 展现出了更高的意图理解能力和执行准确性。尽管其使用的工具链(Pi)比 Claude Code 的 Harness 更为简陋,但 GLM-5.2 能够精准定位问题,给出有效修复方案并成功实现。

  • 速度对比:虽然 Opus 4.6 在理论响应速度上更快,但由于任务失败率高,实际完成时间反而更长。GLM-5.2 虽单次响应稍慢,但凭借高成功率实现了整体效率的提升。

4. 用户反馈与疑问 开发者表示已深度依赖 GLM-5.2,并计划升级至 Max 订阅,感叹“国产牛逼”。同时,开发者澄清自己并非“水军”,而是正经开发者。此外,文中附带了一个关于订阅额度对比的疑问:GLM Max 与 Claude Max 20x 相比,哪个提供的额度更多?开发者目前持有 GLM Pro 订阅,感觉额度消耗较快,一天即消耗了周限额的 16%。

关键要点

  • 模型稳定性差异:在长上下文、复杂代码任务中,Claude Opus 4.6 出现显著的能力退化,表现为代码质量低和指令执行遗漏(如 Git 分支操作失误);GLM-5.2 则表现出稳定的意图理解和执行能力。
  • 工具链与性能权衡:GLM-5.2 在工具链(Pi)相对简陋的情况下,依然优于 Claude Code 的 Harness 表现,证明了模型本身核心能力的强大。
  • 实际效率评估:代码生成的“快”不等于“效率高”。Opus 4.6 因高错误率导致返工,实际耗时更长;GLM-5.2 因高成功率实现了更优的整体工作流效率。
  • 市场替代趋势:部分开发者因 GPT 系列沟通障碍及谨慎策略,开始转向 GLM 等国产模型,并表现出强烈的迁移意愿(计划升级 Max 订阅)。
  • 订阅成本关注:开发者对 GLM Pro 的额度消耗速度表示关切,暗示高端订阅服务的性价比和额度透明度是用户决策的重要因素。

意义与影响

这一案例反映了当前 AI 编程助手市场的一个重要转折点:“可用性与稳定性”正逐渐超越单纯的“速度”或“品牌光环”,成为开发者选择模型的核心指标。

  1. 国产模型的崛起:GLM-5.2 的表现证明,国产大模型在代码生成这一高难度垂直领域,已经具备与国际顶尖模型(如 Claude Opus 系列)正面竞争甚至局部超越的能力。这对于打破国外模型垄断、提供多样化技术选型具有积极意义。
  2. 对头部厂商的警示:Claude Opus 4.6 的“降智”现象引发了开发者的强烈不满,这提醒 Anthropic 等头部厂商,在追求模型参数规模或新特性时,不能忽视基础指令遵循能力和稳定性的维护。任何细微的性能倒退都可能直接导致核心用户群体的流失。
  3. 工作流优化的新视角:开发者开始更理性地评估 AI 工具链。即使工具链简陋(如 Pi vs Harness),只要模型核心智能足够强大,依然能提供更优的体验。这鼓励了开发者在构建工作流时,更加关注模型本身的推理质量,而非过度依赖外围工具的华丽程度。
  4. 订阅经济下的用户教育:用户对额度消耗(如 GLM Pro 的 16%/天)的敏感度,表明 AI 服务正在从“免费试用”向“重度生产工具”转变。厂商需要更透明、更合理的计费模式,以匹配开发者对长期稳定使用的预期。
查看原文 →linux.do