← 返回信息流
AI 资讯爱范儿·7 天前

实测五大AI编程模型:Qwen3.7 Max表现亮眼

原标题:国产AI编程冲上全球第二!实测五大模型,谁才是Vibe Coding神器

速览

阿里Qwen3.7 Max在编程竞技榜仅次于Claude Opus 4.7,获国产模型冠军。实测显示其在物理模拟、六边形2048游戏及复杂网页设计中表现强劲,部分场景超越GPT-5.5与Gemini。

AI 深度解读

背景

近期,国产 AI 编程模型在性能榜单上取得显著突破。阿里最新旗舰模型 Qwen3.7 Max 在编程竞技榜中排名全球第二,仅次于 Claude Opus 4.7,并超越了 GPT-5.5、Gemini 3.5 Flash 以及 DeepSeek V4 Pro。在传统的大模型固定评测榜单如 Terminal Bench 和 SWE Bench 中,Qwen3.7 Max 也拿下了国产模型的冠军。

尽管大模型迭代迅速,排行榜刷新已成常态,但 Qwen3.7 Max 的实际表现引发了关注。当前最热门的 Coding Agent 组合是搭配 GPT-5.5 的 Codex。本文旨在通过实测,探讨将 Qwen3.7 Max 接入 Codex 或其他平台后的实际能力,并分析其在 Vibe Coding(氛围编程/直觉式编程)场景下的竞争力。

核心内容

1. 模型获取与定价策略 阿里云百炼平台目前提供 100 万 Token 的免费使用额度。Qwen3.7 Max 的定价为限时五折:输入 6 元/每百万 tokens,输出 18 元/每百万 tokens。新用户可购买 10 元/月的节省计划,以 10 元价格获得 20 元 Token 额度。相较于 OpenRouter 数据显示的行业均价,该价格低于 Opus 4.7 和 GPT-5.5,但高于 DeepSeek 的低价策略。需注意,五折优惠仅支持单一套餐选择。

2. 基础编程能力实测:前端与动画

  • 液体模拟动画:在“用 HTML+CSS+JS 模拟液体晃动”的任务中,Qwen3.7 Max 顺利完成并增加了颜色自定义、摇晃幅度及液体量调节功能。DeepSeek V4 表现简单无误;GPT-5.5 生成的波浪效果略显出戏;Gemini 3.5 Flash 存在 UI 遮挡 Bug,但提供了丰富的自定义选项;Claude Opus 4.7 生成的液体在剧烈晃动时类似音波跳动,视觉效果简陋。
  • 六边形 2048 游戏
    • Qwen3.7 Max:页面美观,参考了 CSDN 教程,但逻辑偶有瑕疵(如数字叠加位置错误)。
    • DeepSeek V4:控制逻辑混乱(六边形游戏仅支持 WASD 滑动)。
    • Claude Opus 4.7:表现最佳,准确理解蜂巢规则,格子移动符合直觉。
    • GPT-5.5 (Codex):具备自我预览和修复控制台错误的能力,设计优秀,但在鼠标方向监控上略逊于 Opus 4.7。
    • Gemini 3.5 Flash:功能过剩,添加了赛博朋克风格背景及 Web Audio 复古音效,体验感强。
  • 地铁博物馆网站
    • Qwen3.7 Max:排版混乱,竖排文字虽像列车但整体观感不佳。
    • Gemini 3.5 Flash:创意丰富,增加了声效及地铁文创纪念票根生成器。
    • DeepSeek V4:承诺了票务和驾驶体验功能,但交付成果中未呈现。
    • GPT-5.5:设计风格在线,但信息量不足,未完全理解博物馆的信息展示需求。
  • 浏览器操作系统
    • Qwen3.7 Max & DeepSeek V4:实现简单,Qwen 额外提供了桌面风景图。
    • Gemini 3.5 Flash & GPT-5.5:表现优异,进行了详细的设计规划,风格统一且功能完整。

3. 提示词工程与 Agent 协作 测试发现,Qwen3.7 Max 在简单提示词下难以稳定超越 Gemini 或 GPT-5.5,但在长提示词(如 3D 地球项目)下表现与其他模型持平。这表明当前阶段,提示词质量对发挥模型潜力至关重要。

4. 接入 Codex 终端助手的实践

  • 配置过程:需将 API Key 保存在电脑环境变量(如 .bash_profile.zshrc)中,而非仅修改 ~/.codex/config.toml
  • 效果提升:结合 GitHub 上高 Star 的前端 Skill(如 taste-skill),Codex 能自动调用设计定位和头脑风暴技能,严格监控项目生成。在 Codex 环境下,Qwen3.7 Max 的表现优于千问官网直接对话。
  • 稳定性问题:在调用专门工具时,常出现 stream disconnected before completion: <400> InternalError.Algo.InvalidParameter 错误。原因是阿里云百炼 Responses API 对 Codex Agent 工具调用的支持尚不稳定,非标准 OpenAI 协议导致兼容性问题。建议长任务或频繁读文件时切回 OpenAI 官方模型以保证稳定。

关键要点

  • 性能排名:Qwen3.7 Max 在编程榜单全球第二,超越 GPT-5.5 和 Gemini 3.5 Flash,但 Claude Opus 4.7 在复杂逻辑(如六边形游戏)和 Agent 稳定性上仍具优势。
  • 性价比:阿里云提供限时五折及新用户优惠,价格介于 DeepSeek 和顶级欧美模型之间,适合对成本敏感的用户。
  • 提示词依赖性:模型能力发挥高度依赖提示词质量,简单指令下表现波动较大,长指令或结合 Skill 能显著提升效果。
  • Agent 集成瓶颈:虽然 Qwen3.7 Max 可接入 Codex 并通过 Skill 增强前端生成能力,但存在 API 协议兼容性问题(400 报错),导致工具调用不稳定,目前尚不适合完全替代 OpenAI 模型处理复杂 Agent 任务。
  • 产品化趋势:单纯依靠模型参数已不足以构成竞争优势,记忆管理、Harness 编排、验证机制及推理可持续性构成了完整的 AI 产品架构,缺一不可。

意义与影响

Qwen3.7 Max 的崛起标志着国产 AI 模型在编程能力上已具备与国际顶尖水平正面竞争的实力,尤其在基础代码生成和前端可视化方面表现亮眼。然而,实测也揭示了当前 AI 编程生态的两个关键挑战:

  1. 提示词与 Agent 的协同效应:用户需从“直接对话”转向“工程化使用”,通过优化提示词或引入外部 Skill 来弥补模型在特定场景下的不足。
  2. 生态兼容性壁垒:尽管模型能力强劲,但在与主流开发工具(如 Codex)的深度集成上,协议兼容性和稳定性仍是阻碍其大规模替代 OpenAI 生态的主要瓶颈。

这一案例表明,AI 编程的竞争已从单一的模型能力比拼,升级为包含工具链兼容性、开发者体验及系统稳定性在内的综合架构竞争。对于开发者而言,混合使用不同模型的优势(如用 Qwen 处理基础生成,用 OpenAI 处理复杂 Agent 逻辑)可能是当前阶段的最优解。

查看原文 →ifanr.com