← 返回信息流
Agent SkillLINUX DO · AI·28 天前

国产大模型横评:GLM5.1至Codex GPT5.5生成iOS天气卡片能力对比

原标题:国产大模型横评,GLM5.1、kimi-k2.6、deepseek-v4-pro、MiMo-V2.5-Pro、qwen3.6-plus等

速览

本文对GLM5.1、Kimi-K2.6、DeepSeek-V4-Pro等9款主流大模型进行了横向评测,任务为使用HTML/CSS/JS生成具备动画效果的iOS 26风格横板天气卡片。测试不仅记录了各模型的思考阶段、耗时及Token消耗,还详细分析了其在Skills调用、工具链使用及代码客观指标(如动画复杂度、响应式布局)上的表现差异。

AI 深度解读

国产大模型横评:GLM-5.1、Kimi-K2.6、DeepSeek-V4-Pro 等 iOS 26 天气卡片生成能力深度解读

背景

本次测试由 LINUX DO 社区用户发起,旨在通过一个具体的前端开发任务——“生成带有动画效果的 iOS 26 风格横板天气卡片”,对当前主流的大语言模型(LLM)及代码生成模型进行横向能力评估。

测试于 2026 年 5 月 13 日进行,测试工具统一为 Claude Code。参与测试的模型共 9 个,包括 GLM-5.1Kimi-K2.6DeepSeek-V4-ProDeepSeek-V4-FlashQwen3.6-PlusQwen3.6-FlashMiMo-V2.5-ProMiniMax M2.7 以及 Codex GPT5.5(高思考模式)。

测试的核心约束是“一次直出”:所有模型仅接收统一的初始提示词,不进行多轮对话引导或人工修正。提示词要求使用 HTML、CSS 和基础 JavaScript,实现包含晴天、大风、暴雨、暴雪四种状态的横板页面,并具备美观的视觉效果和一定的交互性。此外,测试还补充了 MiniMax M3Qwen3.7 MAX 的数据,以观察模型迭代带来的变化。

核心内容

1. 模型执行行为与流程差异

各模型在“思考阶段”和“执行阶段”表现出显著的行为差异,主要体现在对 Skills(技能)的识别、工具链的调用以及自我验证机制上。

  • GLM-5.1:耗时最长(21m 28s)。在思考阶段会自主识别 Skills 并推荐方案,但在执行过程中全程无主动引导,仅调用工具对代码页面进行审查。
  • Kimi-K2.6:耗时较短(3m 5s)。无特殊思考阶段,未主动调用相关工具或 Skills,直接产出代码。
  • DeepSeek 系列 (V4-Pro / V4-Flash)
    • V4-Pro:耗时 12m 22s。思考阶段推荐 Skills 并确认,执行中调用工具查看网页,并对结果表示“满意”。
    • V4-Flash:耗时 4m 11s。思考阶段推荐 Skills,但执行中未调用工具,直接产出。
  • Qwen 系列 (3.6-Plus / 3.6-Flash)
    • 3.6-Plus:耗时 3m 18s。直接产出,并额外执行了“打开生成好的代码页面”这一行为。
    • 3.6-Flash:耗时极短(56s),为全场最快。直接产出并打开页面,交互功能中等。
  • MiMo-V2.5-Pro:耗时 4m 57s。自主识别 Skills 并直接调用执行,未给确认机会。但在准备调用工具查看效果时中断,报错提示 claude-opus-4-7 模型不存在或无权限,导致测试无法继续。
  • MiniMax M2.7:耗时 2m 43s。思考阶段推荐 Skills 并确认,直接产出最终产物,无其他工具链调用。
  • Codex GPT5.5:耗时 14m 45s。表现最为复杂和严谨。
    • 步骤 1:调用多个 Skills,联网查询 iOS 26 规范,自我确认流程。
    • 步骤 2:代码完成后进行二次思考,调用工具查看网页,并补充 favicon.ico
    • 步骤 3-5:进行多轮验证,包括报错检查、不同尺寸下的布局响应式检查(防止挤压或重叠)、交互流程检查及控制台报错检查。
    • 步骤 6:自主删除调试过程中产生的临时文件。

2. 代码质量与客观指标对比

通过脚本分析生成的 HTML 文件,得出以下客观数据:

  • 代码规模
    • 最重MiMo-V2.5-Pro(1237 行,40KB),代码结构最为复杂。
    • 最轻Kimi-K2.6(629 行,20KB),代码最为精简。
  • 动画实现技术
    • @keyframes 最多DeepSeek-V4-Flash(16 个)。
    • Canvas 驱动GLM-5.1DeepSeek-V4-Flash 使用 Canvas 实现动画,而非传统的 CSS @keyframes
    • CSS/DOM 驱动:大多数模型(如 Kimi、DeepSeek V4-Pro、Qwen 系列、MiniMax)采用 CSS/DOM 操作实现动画。
  • 设计系统完整性
    • CSS 变量Codex GPT5.5 使用了 36 个 CSS 变量,构建了最完整的设计系统。DeepSeek-V4-Flash 则完全未使用 CSS 变量(0 个)。
    • 毛玻璃效果MiMo-V2.5-ProCodex GPT5.5 在毛玻璃边框实现上最完善(各有 3 处 rgba(255,255,255) 玻璃边框),而 GLM-5.1Kimi-K2.6 完全缺失该特性。
  • 交互功能丰富度
    • GLM-5.1Codex GPT5.5 并列第一,各拥有 9 个交互功能(如 3D 倾斜、点击展开、场景切换、动画开关等)。
    • MiniMax M2.7 最少,仅 3 个交互功能。
    • Codex GPT5.5 独有功能:支持 °C/°F 单位切换和动画开关,且是唯一联网查询 iOS 26 规范并据此实装的模型。

3. 天气动画细节表现

  • 晴天:多数模型实现了“太阳脉冲”,Qwen3.6-PlusMiMo-V2.5-Pro 额外实现了“光粒浮动”或“光环扩散”。Codex GPT5.5 实现了“光环旋转”。
  • 大风MiniMax M2.7 实现了“漩涡旋转”,Codex GPT5.5 实现了“风急流”,其他多为简单的“风线流动”。
  • 暴雨DeepSeek-V4-ProMiMo-V2.5-Pro 实现了“闪电闪烁”和“溅射效果”。
  • 暴雪MiMo-V2.5-Pro 效果最丰富,包含“冰霜覆盖”和“雪花旋转”。Codex GPT5.5 在暴雪动画上表现缺失(标记为“—”),但在其他维度表现优异。

4. 异常与补充情况

  • MiMo-V2.5-Pro 报错:在测试过程中遭遇 claude-opus-4-7 模型访问权限错误,导致流程中断,这可能与其内部模型切换机制或环境配置有关。
  • Claude Code 路径异常:测试者发现,在指定目录下启动 Claude Code 时,部分模型(如 Qwen3.7 MAX)将输出结果错误地写入了桌面路径,而非当前工作目录,这是一个值得注意的工具使用 Bug。
  • 补充模型MiniMax M3 耗时 5m 54s,Qwen3.7 MAX 耗时 2m 8s,显示出模型迭代后在速度上的提升。

关键要点

查看原文 →linux.do