AI 资讯量子位·11 小时前

GPT-5.6首批实测出炉精准狙击Mythos

原标题：GPT-5.6首批实测来了！精准狙击Mythos

速览

本月发布的GPT-5.6迎来了首批实测数据。测试结果显示该模型表现精准，并在关键指标上成功狙击竞争对手Mythos。这一结果标志着大模型竞争进入新阶段。

AI 深度解读

背景

当前大模型赛道进入白热化竞争阶段，被称为“御三家”的 Anthropic、Google 和 OpenAI 在 6 月集中发布旗舰模型，形成正面交锋态势。Anthropic 近期发布了 Claude Fable 5 和 Mythos 5，迅速引发行业震动。与此同时，OpenAI 尚未正式官宣其下一代模型 GPT-5.6，但内部代号为 kepler 和 kindle 的检查点（checkpoint）已泄露，并在海外开发者社区引发大量实测。

此次竞争的核心焦点集中在推理、智能体（Agentic）、编码以及前端/UI 生成能力上。除了技术能力的比拼，定价策略也成为影响市场采用的关键变量。Anthropic 的新模型定价较高，而 OpenAI 若能通过更具竞争力的价格或稳定的性能表现，或许能在真实落地场景中扳回一城。

核心内容

1. Anthropic 率先发难：Claude Fable 5 与 Mythos 5 发布 Anthropic 在两个月前便着手准备此次发布，最终抛出 Claude Fable 5 和 Mythos 5 两款新模型。这一举动被业界视为一枚“炸弹”，直接将压力传导至 OpenAI。两款模型统一定价为每百万输入 Token 10 美元、每百万输出 Token 50 美元，约为现有 Opus 模型价格的两倍。

2. OpenAI 内部模型泄露：GPT-5.6 的代号与版本 OpenAI 对 GPT-5.6 保持零官宣状态，但内部测试已进入关键阶段。目前主要涉及两个内部检查点：

kepler：早期测试版本。
kindle：被选为发布候选版（RC），其中 kindle-alpha 版本受到较多关注。
Levi：近期从 Arena 中移除 kindle 后出现的新模型代号，有猜测其为 GPT-5.6 内部版本，也有调查指出其可能来自 Meta。

3. 实测反馈：前端生成能力显著提升，但稳定性存疑 根据海外开发者和泄露圈的实测反馈，GPT-5.6 最显著的升级在于前端/UI 生成能力。

优势：网友 Pankaj Kumar 指出，kindle-alpha 在前端生成上无需复杂提示词即可产出高质量界面。在视觉理解、图像引用、推理和编码方面也有明显改善。网友 Chris 的实测显示，使用 medium 档位时，kindle-alpha 生成的界面比此前在非推理版本 Joule 上的效果精美许多。
争议与退步：网友 Leo 在同一 prompt 和 xhigh 档位下对比 kepler 和 kindle，发现 kindle 的表现反而不如 kepler。这一结果导致外界对 OpenAI 是否最终弃用 kindle 产生怀疑。
对比 Mythos：尽管有用户 mark_k 声称 GPT-5.6 在多个 agentic coding 基准上击败 Mythos，但更直观的实测（如 Leo 的结果）显示，以当前 kindle 的形态，GPT-5.6 可能难以轻松击败 Mythos。

4. 竞争格局：6 月“速度与激情” 6 月成为大模型发布的密集期，三家巨头撞车发布：

Anthropic：已发布 Fable 5 和 Mythos 5。
Google：Gemini 3.5 Pro 在 5 月 19 日谷歌 I/O 大会上亮相，主打 200 万 token 上下文和 Deep Think 推理，官方定于 6 月正式可用，但尚未正式上线。
OpenAI：GPT-5.6 预计在本月晚些时候发布。

目前，OpenAI 面临“对手已交卷，自己还在纠结选哪一版 RC”的紧张局面。

关键要点

发布时间撞车：Anthropic、Google、OpenAI 的旗舰模型均集中在 6 月发布，竞争维度高度重合，涵盖推理、智能体、编码及前端生成。
GPT-5.6 状态：尚未正式发布，内部代号包括 kepler、kindle（候选版）及疑似 Levi。目前 kindle 在部分实测中表现不如前代 kepler，存在被弃用的风险。
核心升级点：GPT-5.6 的前端/UI 生成能力得到显著增强，无需复杂提示词即可输出高质量界面，视觉理解能力也有所提升。
定价策略差异：Anthropic 新模型定价较高（输入 $10/百万 token，输出 $50/百万 token），若 GPT-5.6 性能持平或略逊但价格更低，可能在市场采用率上获得优势。
竞争态势：Anthropic 已率先展示实力，Google 即将上线，OpenAI 处于内部抉择的最后阶段，真正的对决需等待 GPT-5.6 正式版与 Fable 的正面跑分对比。

意义与影响

此次“御三家”集中发布标志着大模型竞争从单纯的性能指标比拼，转向了综合应用能力（如前端生成、智能体工作流）和商业落地定价的双重较量。

对于 OpenAI 而言，GPT-5.6 的内部版本波动（如 kindle 的退步）反映出其在追求极致性能与保持版本稳定性之间的艰难平衡。若最终发布的版本无法在关键基准上超越 Anthropic 的 Mythos，OpenAI 可能需要依赖其庞大的用户基础和潜在的定价优势来维持市场地位。

对于整个行业，Anthropic 的高定价策略可能迫使其他厂商在“高性能高溢价”与“高性价比”之间做出更明确的市场定位。同时，前端生成能力的快速迭代表明，AI 正在从后台推理加速向直接面向用户的交互界面渗透，这将进一步降低开发门槛，加速 AI 应用的原型构建与落地。

查看原文 →qbitai.com

GPT-5.6首批实测出炉精准狙击Mythos

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐