GPT-5.6首批实测出炉精准狙击Mythos
速览
本月发布的GPT-5.6迎来了首批实测数据。测试结果显示该模型表现精准,并在关键指标上成功狙击竞争对手Mythos。这一结果标志着大模型竞争进入新阶段。
AI 深度解读
背景
当前大模型赛道进入白热化竞争阶段,被称为“御三家”的 Anthropic、Google 和 OpenAI 在 6 月集中发布旗舰模型,形成正面交锋态势。Anthropic 近期发布了 Claude Fable 5 和 Mythos 5,迅速引发行业震动。与此同时,OpenAI 尚未正式官宣其下一代模型 GPT-5.6,但内部代号为 kepler 和 kindle 的检查点(checkpoint)已泄露,并在海外开发者社区引发大量实测。
此次竞争的核心焦点集中在推理、智能体(Agentic)、编码以及前端/UI 生成能力上。除了技术能力的比拼,定价策略也成为影响市场采用的关键变量。Anthropic 的新模型定价较高,而 OpenAI 若能通过更具竞争力的价格或稳定的性能表现,或许能在真实落地场景中扳回一城。
核心内容
1. Anthropic 率先发难:Claude Fable 5 与 Mythos 5 发布 Anthropic 在两个月前便着手准备此次发布,最终抛出 Claude Fable 5 和 Mythos 5 两款新模型。这一举动被业界视为一枚“炸弹”,直接将压力传导至 OpenAI。两款模型统一定价为每百万输入 Token 10 美元、每百万输出 Token 50 美元,约为现有 Opus 模型价格的两倍。
2. OpenAI 内部模型泄露:GPT-5.6 的代号与版本 OpenAI 对 GPT-5.6 保持零官宣状态,但内部测试已进入关键阶段。目前主要涉及两个内部检查点:
kepler:早期测试版本。kindle:被选为发布候选版(RC),其中kindle-alpha版本受到较多关注。Levi:近期从 Arena 中移除kindle后出现的新模型代号,有猜测其为 GPT-5.6 内部版本,也有调查指出其可能来自 Meta。
3. 实测反馈:前端生成能力显著提升,但稳定性存疑 根据海外开发者和泄露圈的实测反馈,GPT-5.6 最显著的升级在于前端/UI 生成能力。
- 优势:网友 Pankaj Kumar 指出,
kindle-alpha在前端生成上无需复杂提示词即可产出高质量界面。在视觉理解、图像引用、推理和编码方面也有明显改善。网友 Chris 的实测显示,使用 medium 档位时,kindle-alpha生成的界面比此前在非推理版本 Joule 上的效果精美许多。 - 争议与退步:网友 Leo 在同一 prompt 和 xhigh 档位下对比
kepler和kindle,发现kindle的表现反而不如kepler。这一结果导致外界对 OpenAI 是否最终弃用kindle产生怀疑。 - 对比 Mythos:尽管有用户 mark_k 声称 GPT-5.6 在多个 agentic coding 基准上击败 Mythos,但更直观的实测(如 Leo 的结果)显示,以当前
kindle的形态,GPT-5.6 可能难以轻松击败 Mythos。
4. 竞争格局:6 月“速度与激情” 6 月成为大模型发布的密集期,三家巨头撞车发布:
- Anthropic:已发布 Fable 5 和 Mythos 5。
- Google:Gemini 3.5 Pro 在 5 月 19 日谷歌 I/O 大会上亮相,主打 200 万 token 上下文和 Deep Think 推理,官方定于 6 月正式可用,但尚未正式上线。
- OpenAI:GPT-5.6 预计在本月晚些时候发布。
目前,OpenAI 面临“对手已交卷,自己还在纠结选哪一版 RC”的紧张局面。
关键要点
- 发布时间撞车:Anthropic、Google、OpenAI 的旗舰模型均集中在 6 月发布,竞争维度高度重合,涵盖推理、智能体、编码及前端生成。
- GPT-5.6 状态:尚未正式发布,内部代号包括
kepler、kindle(候选版)及疑似Levi。目前kindle在部分实测中表现不如前代kepler,存在被弃用的风险。 - 核心升级点:GPT-5.6 的前端/UI 生成能力得到显著增强,无需复杂提示词即可输出高质量界面,视觉理解能力也有所提升。
- 定价策略差异:Anthropic 新模型定价较高(输入 $10/百万 token,输出 $50/百万 token),若 GPT-5.6 性能持平或略逊但价格更低,可能在市场采用率上获得优势。
- 竞争态势:Anthropic 已率先展示实力,Google 即将上线,OpenAI 处于内部抉择的最后阶段,真正的对决需等待 GPT-5.6 正式版与 Fable 的正面跑分对比。
意义与影响
此次“御三家”集中发布标志着大模型竞争从单纯的性能指标比拼,转向了综合应用能力(如前端生成、智能体工作流)和商业落地定价的双重较量。
对于 OpenAI 而言,GPT-5.6 的内部版本波动(如 kindle 的退步)反映出其在追求极致性能与保持版本稳定性之间的艰难平衡。若最终发布的版本无法在关键基准上超越 Anthropic 的 Mythos,OpenAI 可能需要依赖其庞大的用户基础和潜在的定价优势来维持市场地位。
对于整个行业,Anthropic 的高定价策略可能迫使其他厂商在“高性能高溢价”与“高性价比”之间做出更明确的市场定位。同时,前端生成能力的快速迭代表明,AI 正在从后台推理加速向直接面向用户的交互界面渗透,这将进一步降低开发门槛,加速 AI 应用的原型构建与落地。
