GLM-5.2登顶Artificial Analysis开源权重模型榜首
速览
智谱AI发布的GLM-5.2模型在Artificial Analysis评测中表现优异,荣登开源权重模型榜首。该榜单主要评估大语言模型在推理、编码及通用能力上的综合表现。这一成绩标志着GLM-5.2在开源领域具备极强的竞争力。
AI 深度解读
GLM-5.2 登顶 Artificial Analysis 开源权重模型榜首:深度解读
背景
2026年6月17日,AI 性能评估机构 Artificial Analysis 发布最新数据,宣布 Z ai 开发的 GLM-5.2 成为其 Intelligence Index(智能指数)上表现最佳的开源权重模型(Open Weights Model)。
此次评估基于 Artificial Analysis Intelligence Index v4.1,该版本评测体系发生了显著变化,从传统的纯推理能力测试转向了更具实战意义的“代理工作负载”(Agentic Workloads)。GLM-5.2 不仅在智能得分上超越了 MiniMax-M3、DeepSeek V4 Pro 和 Kimi K2.6 等强劲对手,更在代表真实世界代理性能的 GDPval-AA v2 指标上,与闭源模型 GPT-5.5 并驾齐驱。这一结果标志着开源大模型在复杂任务处理能力和性价比上取得了突破性进展。
核心内容
GLM-5.2 在 Artificial Analysis Intelligence Index v4.1 中取得了 51 分的高分,稳居开源模型榜首。该模型在“智能 vs. 单任务成本”(Intelligence vs. Cost per Task)的帕累托前沿(Pareto Frontier)上占据有利位置,意味着在同等智能水平下,它拥有最低的单任务成本。
模型规格与定价 GLM-5.2 的架构规模与上一代 GLM-5.1 保持一致,总参数量为 744B,激活参数量为 40B。然而,其上下文窗口从 200K 大幅提升至 1M tokens。在定价方面,GLM-5.2 通过 Z ai 官方 API 提供,价格与 GLM-5.1 持平,分别为:输入 $1.4/百万 token、缓存命中 $0.26/百万 token、输出 $4.4/百万 token。
性能评测详情 在 Intelligence Index v4.1 中,GLM-5.2 的综合得分(51分)显著领先于 MiniMax-M3(44分)、DeepSeek V4 Pro Max(44分)以及 Kimi K2.6(43分)。具体到细分领域,GLM-5.2 在大多数评估基准上均实现了超越 GLM-5.1 的进步,尤其在科学推理方面表现突出:
- CritPt 科学推理:提升 16 分至 21%
- HLE 科学推理:提升 12 分至 40%
- AA-LCR:提升 9 分至 71%
- Tau3 银行任务:提升 15 分至 27%
- SciCode:提升 7 分至 50%
- TerminalBench v2.1:提升 16 分至 78%
- GPQA Diamond:提升 3 分至 89%
代理性能与幻觉控制 在衡量真实世界代理性能的 GDPval-AA v2 指标上,GLM-5.2 得分 1524,超越了 MiniMax-M3(1418)和 DeepSeek V4 Pro Max(1328)。该指标通过将 Elo 分数基准设定为人类表现(1000分),引入前沿模型评审团,并将回合限制从 100 提升至 250,以测试长周期代理轨迹。GLM-5.2 的这一成绩使其与闭源模型 GPT-5.5(xhigh reasoning,得分 1514)处于同一梯队。
此外,GLM-5.2 在 AA-Omniscience Index(全知指数)上得分为 4,较 GLM-5.1 的 2 分有所提升。这一提升得益于准确率的提高(从 24.2% 升至 25.1%)以及幻觉率的降低(从 29.4% 降至 28.1%),尽管尝试率保持在 47% 不变。
Token 效率分析 值得注意的是,GLM-5.2 在完成任务时使用的输出 Token 数量较多。在 Intelligence Index 任务中,GLM-5.2 平均使用 43k 输出 Token(其中 37k 为推理过程),高于 GLM-5.1 的 26k,也高于 MiniMax-M3 的 24k 和 Kimi K2.6 的 35k。这意味着虽然其智能水平高,但在 Token 效率上并非最优,单任务成本约为 $0.46,高于 MiniMax-M3($0.18)和 DeepSeek V4 Pro Max($0.05),但在同等智能层级中仍具竞争力。
可用性与许可 GLM-5.2 采用 MIT 许可证开源。除了 Z ai 官方 API 外,该模型已在 DeepInfra、Novita、Nebius、Parasail、Siliconflow、GMI Cloud、Baseten 和 Fireworks 等多个第三方平台上线。
关键要点
- 开源榜首:GLM-5.2 以 51 分成为 Artificial Analysis Intelligence Index v4.1 中得分最高的开源权重模型,领先于 MiniMax-M3、DeepSeek V4 Pro 和 Kimi K2.6。
- 科学推理突破:在 CritPt、HLE 等科学推理基准上大幅超越前代 GLM-5.1,显示其在复杂逻辑和专业知识领域的显著增强。
- 代理能力对标闭源:在 GDPval-AA v2(真实世界代理性能指标)上得分 1524,与闭源模型 GPT-5.5 持平,证明其在长周期、多步骤代理任务中具备顶级竞争力。
- 幻觉率降低:相比 GLM-5.1,GLM-5.2 的幻觉率从 29.4% 降至 28.1%,准确率提升至 25.1%,整体可靠性增强。
- 上下文窗口倍增:上下文窗口从 200K 扩展至 1M tokens,提升了处理长文档和复杂上下文的能力。
- 成本与效率权衡:虽然单任务成本(~$0.46)高于部分竞争对手,但凭借更高的智能得分,其在“智能-成本”帕累托前沿上占据优势。不过,其较高的 Token 消耗(43k/任务)表明其在推理效率上仍有优化空间。
- 广泛生态支持:采用 MIT 许可证,并迅速部署至 DeepInfra、Fireworks 等主流第三方推理平台,便于开发者集成。
意义与影响
GLM-5.2 的发布及其在 Artificial Analysis 评估中的优异表现,具有多重行业意义:
-
开源与闭源差距进一步缩小:GLM-5.2 在 GDPval-AA v2 上直接对标 GPT-5.5 并实现持平,表明开源模型在复杂的代理工作负载(Agentic Workloads)中已不再仅仅是“替代品”,而是能够与顶级闭源模型正面竞争的有效解决方案。这为那些受限于数据隐私、成本或定制需求的开发者提供了强有力的开源选择。
-
评估体系向“代理化”转型:Artificial Analysis 推出 v4.1 版本并强调 GDPval-AA 指标,反映了行业风向的转变。评估重点已从单一的逻辑推理或代码生成,转向了模型在真实场景中作为“代理”执行多步骤、长周期任务的能力。GLM-5.2 在此指标上的成功,证明了其在实际业务场景中的落地潜力。
-
性价比优势的重新定义:虽然 GLM-5.2 的绝对 Token 消耗较高,但其在“智能 vs. 成本”曲线上的帕累托最优位置表明,对于追求高智能输出的用户而言,其提供的单位智能成本是极具竞争力的。这促使行业重新思考模型效率的评估维度——不仅要看 Token 用量,更要看完成特定高难度任务
