AI 资讯爱范儿·7 天前

实测五大AI编程模型：Qwen3.7 Max表现亮眼

原标题：国产AI编程冲上全球第二！实测五大模型，谁才是Vibe Coding神器

速览

阿里Qwen3.7 Max在编程竞技榜仅次于Claude Opus 4.7，获国产模型冠军。实测显示其在物理模拟、六边形2048游戏及复杂网页设计中表现强劲，部分场景超越GPT-5.5与Gemini。

AI 深度解读

背景

近期，国产 AI 编程模型在性能榜单上取得显著突破。阿里最新旗舰模型 Qwen3.7 Max 在编程竞技榜中排名全球第二，仅次于 Claude Opus 4.7，并超越了 GPT-5.5、Gemini 3.5 Flash 以及 DeepSeek V4 Pro。在传统的大模型固定评测榜单如 Terminal Bench 和 SWE Bench 中，Qwen3.7 Max 也拿下了国产模型的冠军。

尽管大模型迭代迅速，排行榜刷新已成常态，但 Qwen3.7 Max 的实际表现引发了关注。当前最热门的 Coding Agent 组合是搭配 GPT-5.5 的 Codex。本文旨在通过实测，探讨将 Qwen3.7 Max 接入 Codex 或其他平台后的实际能力，并分析其在 Vibe Coding（氛围编程/直觉式编程）场景下的竞争力。

核心内容

1. 模型获取与定价策略 阿里云百炼平台目前提供 100 万 Token 的免费使用额度。Qwen3.7 Max 的定价为限时五折：输入 6 元/每百万 tokens，输出 18 元/每百万 tokens。新用户可购买 10 元/月的节省计划，以 10 元价格获得 20 元 Token 额度。相较于 OpenRouter 数据显示的行业均价，该价格低于 Opus 4.7 和 GPT-5.5，但高于 DeepSeek 的低价策略。需注意，五折优惠仅支持单一套餐选择。

2. 基础编程能力实测：前端与动画

液体模拟动画：在“用 HTML+CSS+JS 模拟液体晃动”的任务中，Qwen3.7 Max 顺利完成并增加了颜色自定义、摇晃幅度及液体量调节功能。DeepSeek V4 表现简单无误；GPT-5.5 生成的波浪效果略显出戏；Gemini 3.5 Flash 存在 UI 遮挡 Bug，但提供了丰富的自定义选项；Claude Opus 4.7 生成的液体在剧烈晃动时类似音波跳动，视觉效果简陋。
六边形 2048 游戏：
- Qwen3.7 Max：页面美观，参考了 CSDN 教程，但逻辑偶有瑕疵（如数字叠加位置错误）。
- DeepSeek V4：控制逻辑混乱（六边形游戏仅支持 WASD 滑动）。
- Claude Opus 4.7：表现最佳，准确理解蜂巢规则，格子移动符合直觉。
- GPT-5.5 (Codex)：具备自我预览和修复控制台错误的能力，设计优秀，但在鼠标方向监控上略逊于 Opus 4.7。
- Gemini 3.5 Flash：功能过剩，添加了赛博朋克风格背景及 Web Audio 复古音效，体验感强。
地铁博物馆网站：
- Qwen3.7 Max：排版混乱，竖排文字虽像列车但整体观感不佳。
- Gemini 3.5 Flash：创意丰富，增加了声效及地铁文创纪念票根生成器。
- DeepSeek V4：承诺了票务和驾驶体验功能，但交付成果中未呈现。
- GPT-5.5：设计风格在线，但信息量不足，未完全理解博物馆的信息展示需求。
浏览器操作系统：
- Qwen3.7 Max & DeepSeek V4：实现简单，Qwen 额外提供了桌面风景图。
- Gemini 3.5 Flash & GPT-5.5：表现优异，进行了详细的设计规划，风格统一且功能完整。

3. 提示词工程与 Agent 协作 测试发现，Qwen3.7 Max 在简单提示词下难以稳定超越 Gemini 或 GPT-5.5，但在长提示词（如 3D 地球项目）下表现与其他模型持平。这表明当前阶段，提示词质量对发挥模型潜力至关重要。

4. 接入 Codex 终端助手的实践

配置过程：需将 API Key 保存在电脑环境变量（如 .bash_profile 或 .zshrc）中，而非仅修改 ~/.codex/config.toml。
效果提升：结合 GitHub 上高 Star 的前端 Skill（如 taste-skill），Codex 能自动调用设计定位和头脑风暴技能，严格监控项目生成。在 Codex 环境下，Qwen3.7 Max 的表现优于千问官网直接对话。
稳定性问题：在调用专门工具时，常出现 stream disconnected before completion: <400> InternalError.Algo.InvalidParameter 错误。原因是阿里云百炼 Responses API 对 Codex Agent 工具调用的支持尚不稳定，非标准 OpenAI 协议导致兼容性问题。建议长任务或频繁读文件时切回 OpenAI 官方模型以保证稳定。

关键要点

性能排名：Qwen3.7 Max 在编程榜单全球第二，超越 GPT-5.5 和 Gemini 3.5 Flash，但 Claude Opus 4.7 在复杂逻辑（如六边形游戏）和 Agent 稳定性上仍具优势。
性价比：阿里云提供限时五折及新用户优惠，价格介于 DeepSeek 和顶级欧美模型之间，适合对成本敏感的用户。
提示词依赖性：模型能力发挥高度依赖提示词质量，简单指令下表现波动较大，长指令或结合 Skill 能显著提升效果。
Agent 集成瓶颈：虽然 Qwen3.7 Max 可接入 Codex 并通过 Skill 增强前端生成能力，但存在 API 协议兼容性问题（400 报错），导致工具调用不稳定，目前尚不适合完全替代 OpenAI 模型处理复杂 Agent 任务。
产品化趋势：单纯依靠模型参数已不足以构成竞争优势，记忆管理、Harness 编排、验证机制及推理可持续性构成了完整的 AI 产品架构，缺一不可。

意义与影响

Qwen3.7 Max 的崛起标志着国产 AI 模型在编程能力上已具备与国际顶尖水平正面竞争的实力，尤其在基础代码生成和前端可视化方面表现亮眼。然而，实测也揭示了当前 AI 编程生态的两个关键挑战：

提示词与 Agent 的协同效应：用户需从“直接对话”转向“工程化使用”，通过优化提示词或引入外部 Skill 来弥补模型在特定场景下的不足。
生态兼容性壁垒：尽管模型能力强劲，但在与主流开发工具（如 Codex）的深度集成上，协议兼容性和稳定性仍是阻碍其大规模替代 OpenAI 生态的主要瓶颈。

这一案例表明，AI 编程的竞争已从单一的模型能力比拼，升级为包含工具链兼容性、开发者体验及系统稳定性在内的综合架构竞争。对于开发者而言，混合使用不同模型的优势（如用 Qwen 处理基础生成，用 OpenAI 处理复杂 Agent 逻辑）可能是当前阶段的最优解。

查看原文 →ifanr.com

实测五大AI编程模型：Qwen3.7 Max表现亮眼

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐