AI 资讯雷峰网·4 天前

Qwen3.7-Max发布：推理编程双强，国产模型跻身全球第一梯队

原标题：四道题评测 Qwen3.7-Max：从空间推理到 3D 建模，它离 Agent 更近了吗？

速览

阿里云发布Qwen3.7-Max，在Artificial Analysis Intelligence Index中位列全球第五、国产第一。该模型在GPQA Diamond等硬核推理及Terminal Bench编程智能体测试中表现卓越，超越多款国际顶尖模型。其成功自主优化国产芯片内核，标志着大模型向Agent演进的关键突破。

AI 深度解读

背景

5月20日，在阿里云峰会上，通义千问团队正式发布旗舰模型 Qwen3.7-Max。这是该团队在三个月内推出的第三款旗舰版本，此前分别于3月20日发布了 Qwen3.5-Max-Preview，4月20日发布了 Qwen3.6-Max-Preview。这种每30天迭代一款旗舰模型的速度，在全球大模型厂商中极为罕见。

此次发布的 Qwen3.7-Max 不仅在榜单数据上表现亮眼，更在推理、编程智能体（Agent）、3D建模等关键能力维度上实现了显著突破，标志着大模型从单纯的对话助手（Chatbot）向具备完整工程执行能力的智能体（Agent）演进的关键一步。

核心内容

1. 榜单排名与性能跃升 根据 Artificial Analysis Intelligence Index v4.0 数据，Qwen3.7-Max 以 56.6 分位列全球第 5。其排名紧随 GPT-5.5 (60.2)、Claude Opus 4.7 (57.3)、Gemini 3.1 Pro Preview (57.2) 和 GPT-5.4 (56.8) 之后。值得注意的是，一个月前的 Qwen3.6-Max-Preview 在该榜单中得分仅为 51.8 分，30天内提升 4.8 分，这一幅度的增长远超单纯微调所能达到的效果，证明了其底层能力的实质性飞跃。

2. 权威评测中的领先地位 在多项权威评测中，Qwen3.7-Max 均位居前列或创下新纪录：

编程智能体：在 Terminal Bench 2.0-Terminus 中得分 69.7，超越 DeepSeek-v4-pro-Max 和 Claude-Opus4.6；在 SWE-bench 系列测试中，于 SWE-Verified 拿到 80.4 分，与 Opus-4.6 Max (80.8) 和 DS-V4-Pro Max (80.6) 几乎持平。
通用智能体：在 MCP-Atlas、MCP-Mark、Skillbench 等测试中领先 GLM5.1、Kimi-K2.6 等国产模型，并在 Kernel Bench L3 上展示 GPU 内核优化能力。
推理能力：在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 等核心推理测评中超越 Claude-Opus4.6 及所有国产模型，拿下国产模型新 SOTA。
通用与多语言：在指令遵循 IFBench 评测中得分 79.1，在 WMT24++、MAXIFE 等多语言评测中领先。

3. 核心能力突破：硬推理与 Agent 闭环

硬推理：在 GPQA Diamond（涵盖研究生级别物理、化学、生物问题）中，Qwen3.7-Max 获得 92.4 分，超过 Claude Opus 4.6 的 91.3 分。在 Humanity’s Last Exam (HLE) 中，其得分 38%，跻身全球头部阵营，证明其具备多步逻辑推演、跨学科知识整合及在不确定条件下保持推理一致性的能力，堵死了通过 RL 刷题或模板化 COT 刷分的可能。
编程 Agent：模型不仅具备写代码能力，更实现了从“编程助手”到“编程智能体”的跨越。它能理解 Issue、定位 Bug、编写修复 Patch 并进行验证。在 SciCode (53.5分)、QwenSVG (1608分) 和 QwenWebDev (1568分) 等细分任务中均表现优异，展现了完整的工程执行能力。

4. 实测案例解析 雷峰网通过四道测试题对 Qwen3.7-Max 进行了实测：

空间推理（玻璃过门问题）：模型未受直觉误导，通过计算门洞对角线（5米）及投影验证，准确判断 6米x4.5米的玻璃可通过 4米x3米的门，展示了将现实问题结构化、拆解约束并完成可验证推理的能力。
数学公式完形：在 3 7 5 = 8 的题目中，模型通过排除纯四则运算，引入阶乘符号（3! + 7 - 5 = 8），展示了在常规路径不可行时主动扩大搜索范围的类人思考方式。
端到端开发（数据可视化工具）：模型从零开发了一个本地数据可视化网页工具，包含 Excel 上传、数据解析、图表生成等功能。它合理选型（SheetJS, Chart.js），生成完整的项目结构（index.html, style.css, app.js, README.md），并提供了无后端运行的方案，体现了需求拆解、库选型到代码交付的工程闭环能力。
3D 建模（户型图生成）：模型生成包含 HTML、CSS、JS 和 Three.js 的单文件 3D 户型图。不仅实现了房间布局、面积标注，还加入了 OrbitControls 支持旋转缩放，以及显示/隐藏屋顶和标注的交互功能，解决了 3D 模型视角遮挡与信息不对应的问题，展示了将抽象需求转化为可交互 3D 产品原型的能力。

5. 战略意义：打破 CUDA 护城河 峰会上展示的 Demo 中，Qwen3.7-Max 在平头哥真武 M890 芯片（训练时未见过）上自主完成了推理内核优化，速度提升 10 倍。这表明模型已具备针对国产硬件自主编写优化软件栈的能力，有望降低迁移成本，削弱 CUDA 生态的护城河。

关键要点

迭代速度惊人：阿里在三个月内连续发布 Qwen3.5-Max-Preview、Qwen3.6-Max-Preview 和 Qwen3.7-Max，实现了月更旗舰版本的工业化迭代节奏。
全球第一梯队：Qwen3.7-Max 全球排名第五，且在“硬推理”（GPQA Diamond）和国产模型综合排名上均取得突破，首次跻身全球硬推理第一梯队。
Agent 能力质变：模型能力从单一的代码生成扩展到理解需求、定位 Bug、修复代码、运行测试的完整工程闭环，真正具备了编程智能体（Coding Agent）的特征。
推理与编程融合：实测显示，模型的推理能力为编程提供了“方向感”，而编程能力让推理结果转化为可运行、可验证的产品形态，二者不再割裂。
国产硬件适配：在国产芯片（平头哥真武 M890）上的自主优化能力，展示了模型在异构硬件适配和软件栈优化上的潜力，有助于打破底层生态壁垒。
工业化研发体系：高频迭代背后是覆盖数据清洗、训练调度、自动评测、后训练及推理部署的全套工业化生产体系，标志着大模型研发从“实验室科研”转向“流水线工程”。

意义与影响

Qwen3.7-Max 的发布及其背后的迭代模式，对大模型行业具有深远影响：

大模型竞争维度的转移：竞争焦点正从参数规模、单一 Benchmark 分数，转向复杂任务中的稳定性、闭环能力以及工程执行效率。企业用户更关注模型能否将需求转化为结果，而非仅仅展示推理过程。
研发范式的工业化转型：阿里通过月更旗舰模型，证明了大模型研发可以像软件工程一样进行高频迭代。这种基于成熟基础设施（数据、训练、评测、部署）的工业化

查看原文 →leiphone.com

Qwen3.7-Max发布：推理编程双强，国产模型跻身全球第一梯队

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐