Qwen3.7-Max发布:推理编程双强,国产模型跻身全球第一梯队
速览
阿里云发布Qwen3.7-Max,在Artificial Analysis Intelligence Index中位列全球第五、国产第一。该模型在GPQA Diamond等硬核推理及Terminal Bench编程智能体测试中表现卓越,超越多款国际顶尖模型。其成功自主优化国产芯片内核,标志着大模型向Agent演进的关键突破。
AI 深度解读
背景
5月20日,在阿里云峰会上,通义千问团队正式发布旗舰模型 Qwen3.7-Max。这是该团队在三个月内推出的第三款旗舰版本,此前分别于3月20日发布了 Qwen3.5-Max-Preview,4月20日发布了 Qwen3.6-Max-Preview。这种每30天迭代一款旗舰模型的速度,在全球大模型厂商中极为罕见。
此次发布的 Qwen3.7-Max 不仅在榜单数据上表现亮眼,更在推理、编程智能体(Agent)、3D建模等关键能力维度上实现了显著突破,标志着大模型从单纯的对话助手(Chatbot)向具备完整工程执行能力的智能体(Agent)演进的关键一步。
核心内容
1. 榜单排名与性能跃升 根据 Artificial Analysis Intelligence Index v4.0 数据,Qwen3.7-Max 以 56.6 分位列全球第 5。其排名紧随 GPT-5.5 (60.2)、Claude Opus 4.7 (57.3)、Gemini 3.1 Pro Preview (57.2) 和 GPT-5.4 (56.8) 之后。值得注意的是,一个月前的 Qwen3.6-Max-Preview 在该榜单中得分仅为 51.8 分,30天内提升 4.8 分,这一幅度的增长远超单纯微调所能达到的效果,证明了其底层能力的实质性飞跃。
2. 权威评测中的领先地位 在多项权威评测中,Qwen3.7-Max 均位居前列或创下新纪录:
- 编程智能体:在 Terminal Bench 2.0-Terminus 中得分 69.7,超越 DeepSeek-v4-pro-Max 和 Claude-Opus4.6;在 SWE-bench 系列测试中,于 SWE-Verified 拿到 80.4 分,与 Opus-4.6 Max (80.8) 和 DS-V4-Pro Max (80.6) 几乎持平。
- 通用智能体:在 MCP-Atlas、MCP-Mark、Skillbench 等测试中领先 GLM5.1、Kimi-K2.6 等国产模型,并在 Kernel Bench L3 上展示 GPU 内核优化能力。
- 推理能力:在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 等核心推理测评中超越 Claude-Opus4.6 及所有国产模型,拿下国产模型新 SOTA。
- 通用与多语言:在指令遵循 IFBench 评测中得分 79.1,在 WMT24++、MAXIFE 等多语言评测中领先。
3. 核心能力突破:硬推理与 Agent 闭环
- 硬推理:在 GPQA Diamond(涵盖研究生级别物理、化学、生物问题)中,Qwen3.7-Max 获得 92.4 分,超过 Claude Opus 4.6 的 91.3 分。在 Humanity’s Last Exam (HLE) 中,其得分 38%,跻身全球头部阵营,证明其具备多步逻辑推演、跨学科知识整合及在不确定条件下保持推理一致性的能力,堵死了通过 RL 刷题或模板化 COT 刷分的可能。
- 编程 Agent:模型不仅具备写代码能力,更实现了从“编程助手”到“编程智能体”的跨越。它能理解 Issue、定位 Bug、编写修复 Patch 并进行验证。在 SciCode (53.5分)、QwenSVG (1608分) 和 QwenWebDev (1568分) 等细分任务中均表现优异,展现了完整的工程执行能力。
4. 实测案例解析 雷峰网通过四道测试题对 Qwen3.7-Max 进行了实测:
- 空间推理(玻璃过门问题):模型未受直觉误导,通过计算门洞对角线(5米)及投影验证,准确判断 6米x4.5米 的玻璃可通过 4米x3米 的门,展示了将现实问题结构化、拆解约束并完成可验证推理的能力。
- 数学公式完形:在
3 7 5 = 8的题目中,模型通过排除纯四则运算,引入阶乘符号(3! + 7 - 5 = 8),展示了在常规路径不可行时主动扩大搜索范围的类人思考方式。 - 端到端开发(数据可视化工具):模型从零开发了一个本地数据可视化网页工具,包含 Excel 上传、数据解析、图表生成等功能。它合理选型(SheetJS, Chart.js),生成完整的项目结构(index.html, style.css, app.js, README.md),并提供了无后端运行的方案,体现了需求拆解、库选型到代码交付的工程闭环能力。
- 3D 建模(户型图生成):模型生成包含 HTML、CSS、JS 和 Three.js 的单文件 3D 户型图。不仅实现了房间布局、面积标注,还加入了 OrbitControls 支持旋转缩放,以及显示/隐藏屋顶和标注的交互功能,解决了 3D 模型视角遮挡与信息不对应的问题,展示了将抽象需求转化为可交互 3D 产品原型的能力。
5. 战略意义:打破 CUDA 护城河 峰会上展示的 Demo 中,Qwen3.7-Max 在平头哥真武 M890 芯片(训练时未见过)上自主完成了推理内核优化,速度提升 10 倍。这表明模型已具备针对国产硬件自主编写优化软件栈的能力,有望降低迁移成本,削弱 CUDA 生态的护城河。
关键要点
- 迭代速度惊人:阿里在三个月内连续发布 Qwen3.5-Max-Preview、Qwen3.6-Max-Preview 和 Qwen3.7-Max,实现了月更旗舰版本的工业化迭代节奏。
- 全球第一梯队:Qwen3.7-Max 全球排名第五,且在“硬推理”(GPQA Diamond)和国产模型综合排名上均取得突破,首次跻身全球硬推理第一梯队。
- Agent 能力质变:模型能力从单一的代码生成扩展到理解需求、定位 Bug、修复代码、运行测试的完整工程闭环,真正具备了编程智能体(Coding Agent)的特征。
- 推理与编程融合:实测显示,模型的推理能力为编程提供了“方向感”,而编程能力让推理结果转化为可运行、可验证的产品形态,二者不再割裂。
- 国产硬件适配:在国产芯片(平头哥真武 M890)上的自主优化能力,展示了模型在异构硬件适配和软件栈优化上的潜力,有助于打破底层生态壁垒。
- 工业化研发体系:高频迭代背后是覆盖数据清洗、训练调度、自动评测、后训练及推理部署的全套工业化生产体系,标志着大模型研发从“实验室科研”转向“流水线工程”。
意义与影响
Qwen3.7-Max 的发布及其背后的迭代模式,对大模型行业具有深远影响:
- 大模型竞争维度的转移:竞争焦点正从参数规模、单一 Benchmark 分数,转向复杂任务中的稳定性、闭环能力以及工程执行效率。企业用户更关注模型能否将需求转化为结果,而非仅仅展示推理过程。
- 研发范式的工业化转型:阿里通过月更旗舰模型,证明了大模型研发可以像软件工程一样进行高频迭代。这种基于成熟基础设施(数据、训练、评测、部署)的工业化
