国产大模型横评:GLM5.1至Codex GPT5.5生成iOS天气卡片能力对比
原标题:国产大模型横评,GLM5.1、kimi-k2.6、deepseek-v4-pro、MiMo-V2.5-Pro、qwen3.6-plus等
速览
本文对GLM5.1、Kimi-K2.6、DeepSeek-V4-Pro等9款主流大模型进行了横向评测,任务为使用HTML/CSS/JS生成具备动画效果的iOS 26风格横板天气卡片。测试不仅记录了各模型的思考阶段、耗时及Token消耗,还详细分析了其在Skills调用、工具链使用及代码客观指标(如动画复杂度、响应式布局)上的表现差异。
AI 深度解读
国产大模型横评:GLM-5.1、Kimi-K2.6、DeepSeek-V4-Pro 等 iOS 26 天气卡片生成能力深度解读
背景
本次测试由 LINUX DO 社区用户发起,旨在通过一个具体的前端开发任务——“生成带有动画效果的 iOS 26 风格横板天气卡片”,对当前主流的大语言模型(LLM)及代码生成模型进行横向能力评估。
测试于 2026 年 5 月 13 日进行,测试工具统一为 Claude Code。参与测试的模型共 9 个,包括 GLM-5.1、Kimi-K2.6、DeepSeek-V4-Pro、DeepSeek-V4-Flash、Qwen3.6-Plus、Qwen3.6-Flash、MiMo-V2.5-Pro、MiniMax M2.7 以及 Codex GPT5.5(高思考模式)。
测试的核心约束是“一次直出”:所有模型仅接收统一的初始提示词,不进行多轮对话引导或人工修正。提示词要求使用 HTML、CSS 和基础 JavaScript,实现包含晴天、大风、暴雨、暴雪四种状态的横板页面,并具备美观的视觉效果和一定的交互性。此外,测试还补充了 MiniMax M3 和 Qwen3.7 MAX 的数据,以观察模型迭代带来的变化。
核心内容
1. 模型执行行为与流程差异
各模型在“思考阶段”和“执行阶段”表现出显著的行为差异,主要体现在对 Skills(技能)的识别、工具链的调用以及自我验证机制上。
- GLM-5.1:耗时最长(21m 28s)。在思考阶段会自主识别 Skills 并推荐方案,但在执行过程中全程无主动引导,仅调用工具对代码页面进行审查。
- Kimi-K2.6:耗时较短(3m 5s)。无特殊思考阶段,未主动调用相关工具或 Skills,直接产出代码。
- DeepSeek 系列 (V4-Pro / V4-Flash):
- V4-Pro:耗时 12m 22s。思考阶段推荐 Skills 并确认,执行中调用工具查看网页,并对结果表示“满意”。
- V4-Flash:耗时 4m 11s。思考阶段推荐 Skills,但执行中未调用工具,直接产出。
- Qwen 系列 (3.6-Plus / 3.6-Flash):
- 3.6-Plus:耗时 3m 18s。直接产出,并额外执行了“打开生成好的代码页面”这一行为。
- 3.6-Flash:耗时极短(56s),为全场最快。直接产出并打开页面,交互功能中等。
- MiMo-V2.5-Pro:耗时 4m 57s。自主识别 Skills 并直接调用执行,未给确认机会。但在准备调用工具查看效果时中断,报错提示
claude-opus-4-7模型不存在或无权限,导致测试无法继续。 - MiniMax M2.7:耗时 2m 43s。思考阶段推荐 Skills 并确认,直接产出最终产物,无其他工具链调用。
- Codex GPT5.5:耗时 14m 45s。表现最为复杂和严谨。
- 步骤 1:调用多个 Skills,联网查询 iOS 26 规范,自我确认流程。
- 步骤 2:代码完成后进行二次思考,调用工具查看网页,并补充
favicon.ico。 - 步骤 3-5:进行多轮验证,包括报错检查、不同尺寸下的布局响应式检查(防止挤压或重叠)、交互流程检查及控制台报错检查。
- 步骤 6:自主删除调试过程中产生的临时文件。
2. 代码质量与客观指标对比
通过脚本分析生成的 HTML 文件,得出以下客观数据:
- 代码规模:
- 最重:MiMo-V2.5-Pro(1237 行,40KB),代码结构最为复杂。
- 最轻:Kimi-K2.6(629 行,20KB),代码最为精简。
- 动画实现技术:
- @keyframes 最多:DeepSeek-V4-Flash(16 个)。
- Canvas 驱动:GLM-5.1 和 DeepSeek-V4-Flash 使用 Canvas 实现动画,而非传统的 CSS
@keyframes。 - CSS/DOM 驱动:大多数模型(如 Kimi、DeepSeek V4-Pro、Qwen 系列、MiniMax)采用 CSS/DOM 操作实现动画。
- 设计系统完整性:
- CSS 变量:Codex GPT5.5 使用了 36 个 CSS 变量,构建了最完整的设计系统。DeepSeek-V4-Flash 则完全未使用 CSS 变量(0 个)。
- 毛玻璃效果:MiMo-V2.5-Pro 和 Codex GPT5.5 在毛玻璃边框实现上最完善(各有 3 处
rgba(255,255,255)玻璃边框),而 GLM-5.1 和 Kimi-K2.6 完全缺失该特性。
- 交互功能丰富度:
- GLM-5.1 和 Codex GPT5.5 并列第一,各拥有 9 个交互功能(如 3D 倾斜、点击展开、场景切换、动画开关等)。
- MiniMax M2.7 最少,仅 3 个交互功能。
- Codex GPT5.5 独有功能:支持 °C/°F 单位切换和动画开关,且是唯一联网查询 iOS 26 规范并据此实装的模型。
3. 天气动画细节表现
- 晴天:多数模型实现了“太阳脉冲”,Qwen3.6-Plus 和 MiMo-V2.5-Pro 额外实现了“光粒浮动”或“光环扩散”。Codex GPT5.5 实现了“光环旋转”。
- 大风:MiniMax M2.7 实现了“漩涡旋转”,Codex GPT5.5 实现了“风急流”,其他多为简单的“风线流动”。
- 暴雨:DeepSeek-V4-Pro 和 MiMo-V2.5-Pro 实现了“闪电闪烁”和“溅射效果”。
- 暴雪:MiMo-V2.5-Pro 效果最丰富,包含“冰霜覆盖”和“雪花旋转”。Codex GPT5.5 在暴雪动画上表现缺失(标记为“—”),但在其他维度表现优异。
4. 异常与补充情况
- MiMo-V2.5-Pro 报错:在测试过程中遭遇
claude-opus-4-7模型访问权限错误,导致流程中断,这可能与其内部模型切换机制或环境配置有关。 - Claude Code 路径异常:测试者发现,在指定目录下启动 Claude Code 时,部分模型(如 Qwen3.7 MAX)将输出结果错误地写入了桌面路径,而非当前工作目录,这是一个值得注意的工具使用 Bug。
- 补充模型:MiniMax M3 耗时 5m 54s,Qwen3.7 MAX 耗时 2m 8s,显示出模型迭代后在速度上的提升。
关键要点
查看原文 →linux.do
