AI 资讯爱范儿·2 小时前

OpenAI发布GPT-5.6系列，Sol模型霸榜但安全审查严格

原标题：刚刚，GPT-5.6 正式发布，史上最强但被自己坑惨了

速览

OpenAI正式发布GPT-5.6系列，包含Sol、Terra、Luna三款型号，采用有限预览方式推出。其中旗舰模型Sol在Terminal-Bench等基准测试中刷新纪录，展现强大的Agentic能力，但在网络安全领域因风险考量被严格限制。此次发布标志着OpenAI对模型产品线进行重新分层，并强化了分层安全栈以平衡性能与风险。

AI 深度解读

背景

OpenAI 于近期发布了其最新一代大语言模型系列 GPT-5.6。此次发布并未采取全面开放的模式，而是以「有限预览」（Limited Preview）的形式先行试水。作为 OpenAI 迄今最强的模型代际，GPT-5.6 不仅代表了技术能力的跃升，更标志着 OpenAI 对模型产品线进行了重新分层与梳理。

与此同时，前沿 AI 模型的发布节奏正逐渐被纳入国家安全框架。受美国政府要求及行业安全考量影响，GPT-5.6 的首批访问权限受到严格限制，仅向少数经过审核的可信合作伙伴开放，个人用户暂无申请通道。这一变化反映了当模型能力逼近关键阈值时，使用资格与安全审查已成为比单纯性能更受关注的议题。

核心内容

1. 产品矩阵与命名体系重构 GPT-5.6 系列包含三款型号，采用天文意象命名，旨在清晰区分智能水平、速度与成本：

Sol（太阳）：旗舰模型，OpenAI 称其为目前最强的模型，面向高难复杂任务。
Terra（地球/大地）：平衡型模型，性能可与 GPT-5.5 竞争，但价格减半，覆盖日常工作流。
Luna（月亮）：主打速度与低成本，是系列中最便宜的模型。

这种命名方式借鉴了 Anthropic 的营销策略，通过数字表示代际，字母表示层级，便于用户根据需求选择。

2. 核心能力：Agentic Capabilities（代理式能力） GPT-5.6 Sol 的核心优势体现在编程、生物信息学和网络安全三个领域，这些场景共同特征是复杂、长链条且强依赖上下文。OpenAI 强调模型需具备「Agentic capabilities」，即像独立执行任务的 Agent 一样进行持续规划、推理、工具调用和错误修正。

编程与工具协调：
- Sol 不再局限于代码补全，而是深入命令行环境进行复杂操作。
- 在 Terminal-Bench 2.1 基准测试中，GPT-5.6 Sol Ultra 得分 91.9%，GPT-5.6 Sol 得分 88.8%，均高于 GPT-5.5（88.0%）及其他竞品（如 Claude Mythos 5 的 84.3%）。
- Ultra 模式：引入 max 级别推理强度，并调度多个子 Agent 拆分处理复杂任务后汇总结果，显著提升多步骤开发场景的效率。
生物信息学：
- 在 GeneBench v1（面向长周期基因组学和定量生物分析）上，Sol 相比 GPT-5.5 取得更强结果，且输出 tokens 更少。
- 低 token 消耗意味着在科研场景中具有更高的成本效率，利于大规模工作流部署。
网络安全：
- Sol 被 OpenAI 称为其迄今最强的网络安全模型，擅长漏洞研究和 exploitation 相关任务。
- 在 ExploitBench 上，Sol 表现接近 Mythos Preview，但仅使用约三分之一的输出 tokens。
- 安全边界：OpenAI 明确踩刹车，强调 Sol 虽能识别 bug 和程序缺陷，但尚未稳定完成端到端攻击（如自主生成完整攻击链）。Sol 未跨过 Preparedness Framework 中的网络安全关键风险阈值。

3. 安全体系与发布策略 为避免重蹈「Mythos」发布后的舆论与安全争议，GPT-5.6 的发布说明中安全篇幅大幅增加：

分层安全栈：涵盖模型拒答、实时分类器检测、账号审查、差异化访问及持续测试。
红队测试：投入超过 70 万 A100 等效 GPU 小时进行自动化越狱测试，并辅以专家人工测试。
有限预览机制：首批仅向约 20 家获得美国政府批准的可信合作伙伴（可能通过 Amazon Bedrock 等平台）开放，个人用户无法申请。OpenAI 虽不认为政府审核应成为长期默认机制，但为争取更广泛开放，选择接受此安排以建立可复制的发布流程。

4. 价格与可用性

定价（每百万 tokens）：
- Sol：输入 $5，输出 $30。
- Terra：输入 $2.5，输出 $15。
- Luna：输入 $1，输出 $6。
Prompt Caching：引入显式 cache breakpoints，缓存写入价格为未缓存输入的 1.25 倍，读取享受 90% 折扣。
上线计划：Sol 将于 7 月登陆 Cerebras，最高速度达每秒 750 tokens，初期仅面向部分客户。OpenAI 计划在未来几周内逐步扩展至 ChatGPT、Codex 及更广泛的 API 用户。

关键要点

模型分层策略：GPT-5.6 通过 Sol、Terra、Luna 三款型号实现了从旗舰高性能到低成本高速调用的全覆盖，重新定义了产品线定位。
代理式能力突破：Sol Ultra 模式通过多子 Agent 协作和深度推理，在 Terminal-Bench 2.1 等基准测试中刷新纪录，显著提升了复杂编程和工具协调任务的完成率。
安全与性能的平衡：尽管 Sol 在网络安全领域表现强劲，但 OpenAI 刻意强调其无法稳定执行端到端攻击，以规避极高的安全风险阈值，体现了发布策略的谨慎性。
政府监管介入：GPT-5.6 的首发权限受美国政府严格管控，仅对获批企业开放，标志着前沿 AI 模型发布正式进入国家安全审查周期。
成本优化机制：通过更低的 token 消耗（尤其在生物和网络安全场景）以及新的 Prompt Caching 计费模式，OpenAI 试图在提升性能的同时控制企业用户的调用成本。

意义与影响

GPT-5.6 的发布不仅是 OpenAI 技术实力的展示，更是 AI 行业从「能力竞赛」转向「安全与合规治理」的分水岭。

首先，技术范式转移。Sol 在编程和生物领域的表现证明，大模型正从被动响应转向主动规划与执行（Agentic Workflow）。多 Agent 协作机制的引入，使得模型能够处理以往需要人类专家介入的长链条复杂任务，这将深刻改变软件开发、科研分析等工作流。

其次，安全成为核心竞争力。OpenAI 在发布中花费大量篇幅阐述安全机制，并主动限制自身模型的攻击能力边界，表明在模型能力逼近关键阈值时，「可控性」和「可解释性」已成为比单纯性能更重要的产品属性。这种自我约束既是应对监管压力的结果，也是建立用户信任的必要手段。

最后，行业准入壁垒提高。政府审核机制的引入，使得前沿 AI 技术的获取不再完全由市场决定，而是受到地缘政治和国家安全的深刻影响。对于企业而言，能否获得 GPT-5.6 等前沿模型的访问权限，可能成为其技术竞争力的关键变量，同时也预示着未来 AI 基础设施将更加紧密地与政策监管绑定。

查看原文 →ifanr.com

OpenAI发布GPT-5.6系列，Sol模型霸榜但安全审查严格

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐