GitHub 热榜GitHub Trending · 日·22 小时前

GLM-5：从氛围编程到智能体工程

原标题：zai-org/GLM-5

★ 3,925 stars+286 今日

速览

该项目旨在将传统的代码生成升级为智能体工程（Agentic Engineering），支持用户通过自然语言交互完成复杂应用构建。其核心亮点在于实现了从初步构思（Vibe Coding）到具备自主行动能力的智能体系统的无缝过渡。

AI 深度解读

这是什么

GLM-5 是由智谱 AI（Zhipu AI）及其开源社区 zai-org 推出的新一代旗舰级开源大语言模型系列。该项目在 GitHub 上获得了极高的关注度（主语言为 Python，Star 数 3925+），标志着智谱在 AGI（通用人工智能）效率提升和长周期智能体（Agentic）任务上的重大突破。

GLM-5 系列目前包含两个主要版本：

GLM-5.1：面向复杂系统工程和长周期智能体任务的下一代旗舰模型，显著增强了代码能力和长期规划能力。
GLM-5.2：GLM-5 系列的最新旗舰，专注于超长上下文（1M Token）下的长周期任务，并在架构效率上进行了重大优化。

该系列模型旨在通过扩大参数规模、优化训练基础设施（如异步强化学习框架 Slime）以及引入新型注意力机制，缩小开源模型与闭源前沿模型（如 Claude Opus、Gemini Pro）之间的差距，甚至在部分基准测试中实现超越。

解决的问题

GLM-5 系列主要解决了当前大模型在以下三个核心痛点上的不足：

长周期任务中的“能力耗尽”问题：以往的大模型（包括 GLM-5 的前身）往往在任务初期利用熟悉技巧快速获得收益，随后迅速进入平台期，即使给予更多时间也无法提升表现。GLM-5.1 和 GLM-5.2 被专门设计为能够在长周期内保持高效，具备更好的模糊问题判断力，能够通过反复迭代、重新审视推理过程来持续优化策略，而非一次性输出结果。
长上下文下的计算效率与部署成本：支持超长上下文（如 1M Token）通常伴随着巨大的计算开销。GLM-5.2 引入了 IndexShare 架构，在每四个稀疏注意力层之间复用相同的索引器，将 1M 上下文长度下的每 Token FLOPs 降低了 2.9 倍。同时，结合 DeepSeek 稀疏注意力（DSA），在保留长上下文能力的同时大幅降低了部署成本。
强化学习（RL）训练效率低下：将 RL 应用于大规模 LLM 训练面临效率挑战。智谱开发了名为 Slime 的异步强化学习基础设施，显著提高了训练吞吐量和效率，使得更细粒度的后训练迭代成为可能，从而弥合了预训练模型在“能力”与“卓越表现”之间的差距。

核心功能

Solid 1M Context（稳固的百万级上下文）： GLM-5.2 提供了稳定支持 1M Token 上下文的能力，能够处理需要长期记忆和复杂依赖关系的长周期工作负载。
灵活的思考预算控制（Flexible Thinking Effort）：通过 reasoning_effort 参数控制模型的推理深度：
- max（默认）：适用于基准测试复现和默认场景，提供最强的推理能力。
- high：需显式设置 reasoning_effort="high"，平衡性能与延迟。
- 可通过 enable_thinking=false 完全关闭思考过程。
- GLM-5.2 还改进了 MTP（Multi-Token Prediction）层以支持推测解码，将接受长度提高了高达 20%。
先进的代码生成与智能体工程：
- 支持多层次的思考努力级别以平衡代码生成的性能与延迟。
- 具备将复杂问题分解、运行实验、读取结果并识别阻塞点的能力。
- 在数百轮迭代和数千次工具调用中保持优化能力。
高效的架构优化：
- IndexShare：复用稀疏注意力索引器，降低计算复杂度。
- 参数扩展：从 GLM-4.5 的 355B 参数（32B 激活）扩展至 GLM-5 的 744B 参数（40B 激活）。
- 数据规模：预训练数据从 23T 增加至 28.5T Tokens。

亮点 / 与同类相比

GLM-5 系列在开源社区中处于领先地位，尤其在代码和智能体任务上表现突出：

代码能力超越开源竞品：
- 在 Terminal-Bench 2.1 上得分 81.0（GLM-5.1 为 62.0）。
- 在 SWE-bench Pro 上得分 62.1（GLM-5.1 为 58.4）。
- GLM-5.2 是目前最强的开源代码模型。
逼近甚至超越闭源前沿模型：
- 在 Terminal-Bench 2.1 上，GLM-5.2（81.0）仅落后于 Claude Opus 4.8（85.0）几分，并显著领先于 Gemini 3.1 Pro。
- 在内部评估套件 CC-Bench-V2 中，GLM-5 在前端、后端及长周期任务上大幅优于 GLM-4.7，缩小了与 Claude Opus 4.5 的差距。
长周期运营能力验证：
- 在 Vending Bench 2（衡量长期运营能力的基准）中，GLM-5 在开源模型中排名 No.1。
- 该基准要求模型模拟运营自动售货机业务长达一年。GLM-5 最终账户余额达到 $4,432，接近 Claude Opus 4.5 的表现，证明了其强大的长期规划和资源管理能力。
推理效率提升：
- 相比前代，GLM-5 在推理、代码和智能体任务上均实现了世界范围内开源模型的最佳性能（Best-in-class）。

适合谁用 / 上手

适合用户群体：

AI 研究者与开发者：需要高性能开源基座模型进行 AGI 效率、长上下文或智能体行为研究。
复杂系统工程师：需要模型具备长期规划、多步骤调试和复杂代码库理解能力的开发者。
企业级应用构建者：需要部署具备百万级上下文处理能力且成本可控的大模型用于文档分析、长期记忆管理或自动化工作流。

上手指南：

API 服务：
- 可通过 Z.ai API Platform 直接使用 GLM-5.2 的 API 服务。
- 在线体验：访问 z.ai 试用 GLM-5.2。
本地/私有化部署框架支持： GLM-5.2 支持多种主流推理框架，具体版本要求如下：
- SGLang (v0.5.13.post1+)：参考 Cookbook。
- vLLM (v0.23.0+)：参考 Recipes。
- Transformers (v0.5.12+)：参考 Transformers 文档。
- KTransformers (v0.5.12+)：参考教程。
- Ascend NPU 平台：支持 vLLM-Ascend、xLLM 和 SGLang。
社区与交流：
- 加入 WeChat 或 Discord 社区获取最新支持和讨论。
- 查阅 GLM-5.2 Blog 和 GLM-5 Technical Report 获取详细技术细节。
学术引用：如果在研究中使用 GLM-5 系列模型，请引用其技术报告：
```
@misc{glm5team2026glm5vibecodingagentic,
  title
```

查看原文 →github.com