Agent SkillLINUX DO · AI·28 天前

国产大模型横评：GLM5.1至Codex GPT5.5生成iOS天气卡片能力对比

原标题：国产大模型横评，GLM5.1、kimi-k2.6、deepseek-v4-pro、MiMo-V2.5-Pro、qwen3.6-plus等

速览

本文对GLM5.1、Kimi-K2.6、DeepSeek-V4-Pro等9款主流大模型进行了横向评测，任务为使用HTML/CSS/JS生成具备动画效果的iOS 26风格横板天气卡片。测试不仅记录了各模型的思考阶段、耗时及Token消耗，还详细分析了其在Skills调用、工具链使用及代码客观指标（如动画复杂度、响应式布局）上的表现差异。

AI 深度解读

国产大模型横评：GLM-5.1、Kimi-K2.6、DeepSeek-V4-Pro 等 iOS 26 天气卡片生成能力深度解读

背景

本次测试由 LINUX DO 社区用户发起，旨在通过一个具体的前端开发任务——“生成带有动画效果的 iOS 26 风格横板天气卡片”，对当前主流的大语言模型（LLM）及代码生成模型进行横向能力评估。

测试于 2026 年 5 月 13 日进行，测试工具统一为 Claude Code。参与测试的模型共 9 个，包括 GLM-5.1、Kimi-K2.6、DeepSeek-V4-Pro、DeepSeek-V4-Flash、Qwen3.6-Plus、Qwen3.6-Flash、MiMo-V2.5-Pro、MiniMax M2.7 以及 Codex GPT5.5（高思考模式）。

测试的核心约束是“一次直出”：所有模型仅接收统一的初始提示词，不进行多轮对话引导或人工修正。提示词要求使用 HTML、CSS 和基础 JavaScript，实现包含晴天、大风、暴雨、暴雪四种状态的横板页面，并具备美观的视觉效果和一定的交互性。此外，测试还补充了 MiniMax M3 和 Qwen3.7 MAX 的数据，以观察模型迭代带来的变化。

核心内容

1. 模型执行行为与流程差异

各模型在“思考阶段”和“执行阶段”表现出显著的行为差异，主要体现在对 Skills（技能）的识别、工具链的调用以及自我验证机制上。

GLM-5.1：耗时最长（21m 28s）。在思考阶段会自主识别 Skills 并推荐方案，但在执行过程中全程无主动引导，仅调用工具对代码页面进行审查。
Kimi-K2.6：耗时较短（3m 5s）。无特殊思考阶段，未主动调用相关工具或 Skills，直接产出代码。
DeepSeek 系列 (V4-Pro / V4-Flash)：
- V4-Pro：耗时 12m 22s。思考阶段推荐 Skills 并确认，执行中调用工具查看网页，并对结果表示“满意”。
- V4-Flash：耗时 4m 11s。思考阶段推荐 Skills，但执行中未调用工具，直接产出。
Qwen 系列 (3.6-Plus / 3.6-Flash)：
- 3.6-Plus：耗时 3m 18s。直接产出，并额外执行了“打开生成好的代码页面”这一行为。
- 3.6-Flash：耗时极短（56s），为全场最快。直接产出并打开页面，交互功能中等。
MiMo-V2.5-Pro：耗时 4m 57s。自主识别 Skills 并直接调用执行，未给确认机会。但在准备调用工具查看效果时中断，报错提示 claude-opus-4-7 模型不存在或无权限，导致测试无法继续。
MiniMax M2.7：耗时 2m 43s。思考阶段推荐 Skills 并确认，直接产出最终产物，无其他工具链调用。
Codex GPT5.5：耗时 14m 45s。表现最为复杂和严谨。
- 步骤 1：调用多个 Skills，联网查询 iOS 26 规范，自我确认流程。
- 步骤 2：代码完成后进行二次思考，调用工具查看网页，并补充 favicon.ico。
- 步骤 3-5：进行多轮验证，包括报错检查、不同尺寸下的布局响应式检查（防止挤压或重叠）、交互流程检查及控制台报错检查。
- 步骤 6：自主删除调试过程中产生的临时文件。

2. 代码质量与客观指标对比

通过脚本分析生成的 HTML 文件，得出以下客观数据：

代码规模：
- 最重：MiMo-V2.5-Pro（1237 行，40KB），代码结构最为复杂。
- 最轻：Kimi-K2.6（629 行，20KB），代码最为精简。
动画实现技术：
- @keyframes 最多：DeepSeek-V4-Flash（16 个）。
- Canvas 驱动：GLM-5.1 和 DeepSeek-V4-Flash 使用 Canvas 实现动画，而非传统的 CSS @keyframes。
- CSS/DOM 驱动：大多数模型（如 Kimi、DeepSeek V4-Pro、Qwen 系列、MiniMax）采用 CSS/DOM 操作实现动画。
设计系统完整性：
- CSS 变量：Codex GPT5.5 使用了 36 个 CSS 变量，构建了最完整的设计系统。DeepSeek-V4-Flash 则完全未使用 CSS 变量（0 个）。
- 毛玻璃效果：MiMo-V2.5-Pro 和 Codex GPT5.5 在毛玻璃边框实现上最完善（各有 3 处 rgba(255,255,255) 玻璃边框），而 GLM-5.1 和 Kimi-K2.6 完全缺失该特性。
交互功能丰富度：
- GLM-5.1 和 Codex GPT5.5 并列第一，各拥有 9 个交互功能（如 3D 倾斜、点击展开、场景切换、动画开关等）。
- MiniMax M2.7 最少，仅 3 个交互功能。
- Codex GPT5.5 独有功能：支持 °C/°F 单位切换和动画开关，且是唯一联网查询 iOS 26 规范并据此实装的模型。

3. 天气动画细节表现

晴天：多数模型实现了“太阳脉冲”，Qwen3.6-Plus 和 MiMo-V2.5-Pro 额外实现了“光粒浮动”或“光环扩散”。Codex GPT5.5 实现了“光环旋转”。
大风：MiniMax M2.7 实现了“漩涡旋转”，Codex GPT5.5 实现了“风急流”，其他多为简单的“风线流动”。
暴雨：DeepSeek-V4-Pro 和 MiMo-V2.5-Pro 实现了“闪电闪烁”和“溅射效果”。
暴雪：MiMo-V2.5-Pro 效果最丰富，包含“冰霜覆盖”和“雪花旋转”。Codex GPT5.5 在暴雪动画上表现缺失（标记为“—”），但在其他维度表现优异。

4. 异常与补充情况

MiMo-V2.5-Pro 报错：在测试过程中遭遇 claude-opus-4-7 模型访问权限错误，导致流程中断，这可能与其内部模型切换机制或环境配置有关。
Claude Code 路径异常：测试者发现，在指定目录下启动 Claude Code 时，部分模型（如 Qwen3.7 MAX）将输出结果错误地写入了桌面路径，而非当前工作目录，这是一个值得注意的工具使用 Bug。
补充模型：MiniMax M3 耗时 5m 54s，Qwen3.7 MAX 耗时 2m 8s，显示出模型迭代后在速度上的提升。

关键要点

查看原文 →linux.do