AI 资讯Hacker News·2 小时前

Previewing GPT‑5.6 Sol: a next-generation model

AI 深度解读

GPT-5.6 Sol 预览：下一代模型的安全与能力边界

背景

OpenAI 近期开始对 GPT-5.6 系列模型进行有限预览，该系列包含三个主要版本：旗舰级模型 GPT-5.6 Sol、面向日常工作的平衡型模型 Terra，以及快速且经济实惠的模型 Luna。其中，Terra 的性能可与 GPT-5.5 竞争，但成本降低了一半；Luna 则以最低成本提供强大的能力。

此次预览并非完全公开，而是基于与美国政府的持续互动。OpenAI 在发布前向美国政府展示了计划及模型能力，并应政府要求，首先向一小部分已告知政府的受信任合作伙伴开放有限预览。OpenAI 明确表示，这种政府准入流程不应成为长期的默认机制，因为它阻碍了用户、开发者、企业、网络防御者和全球合作伙伴获取最佳工具。采取这一短期步骤是为了在制定网络行政命令框架及未来模型发布的可重复流程期间，为几周后的广泛可用铺平道路。

核心内容

1. 模型性能与特性升级 GPT-5.6 Sol 是 OpenAI 迄今为止最强的模型，并配备了迄今为止最 robust（稳健）的安全堆栈。

新推理模式：引入了新的 max 推理努力选项，赋予 Sol 更多时间进行深度推理；同时引入 ultra 模式，通过利用子代理（subagents）超越单一代理的能力，加速复杂任务的处理。
编码能力：在 Terminal-Bench 2.1（测试需要规划、迭代和工具协调的命令行工作流）上创下新的最先进（SOTA）记录。
生物学能力：在 GeneBench v1（评估长周期基因组学和定量生物学分析）上，GPT-5.6 Sol 取得了比 GPT-5.5 更强的结果，且使用的 token 更少。
网络安全能力：这是 OpenAI 迄今为止在网络安全领域最强大的模型。在 ExploitBench² 上，其表现与 Mythos Preview 相当，但仅使用约 1/3 的输出 token。在由加州大学伯克利分校研究人员与 OpenAI 及其他前沿实验室合作创建的 ExploitGym 基准测试中，GPT-5.6 Sol、Terra 和 Luna 随着推理能力的增强，均展示了网络能力的显著改进。

2. 安全架构与防御策略 随着模型能力的提升，OpenAI 设计了更严格的安全措施，以在抵御现实世界对抗压力的同时，保留对代码审查、漏洞研究、补丁开发、调试、安全教育和防御性测试等合法工作的访问权限。

目标：使禁止的进攻性活动变得更困难、不确定且可检测，同时不过度限制有益的使用。
Cyber Critical 阈值：GPT-5.6 Sol 未跨越 OpenAI 准备框架中的“网络关键（Cyber Critical）”阈值。在涉及 Chromium 和 Firefox 的评估中，模型能识别漏洞和利用原语（exploit primitives），但在测试条件下并未自主生成功能性的完整链式利用代码。
多层防御体系：
- 模型级：训练模型拒绝禁止的网络协助，包括用户试图伪装意图或越狱（jailbreak）的情况。
- 实时检查：实时网络和生物学滥用分类器在生成过程中评估输出。对于高风险案例，若检测到潜在违规，生成可能会暂停，由更大的推理模型审查对话及其上下文。若判定为禁止输出，则在用户看到之前予以拦截。
- 账户级审查：标记的活动会触发对相关对话和风险信号的账户级审查，以区分持续的恶意行为与合法的“双重用途”安全工作。
- 差异化访问：通过监控、执法和差异化访问控制，在不过度默认开放最敏感能力的情况下，保留重要的防御性工作。

3. 预览期的反馈机制 在预览期间，用户可能会遇到阻止某些请求的安全措施，或因额外审查导致生成时间延长。OpenAI 指出，这包括在防御和进攻活动初期看起来相似的双重用途领域。预览的目的正是为了测试这些安全措施是否既能限制滥用，又能让合法用户可靠、高效地完成正常工作。反馈将用于减少不必要的阻止和延迟，改善安全措施对上下文的解读。

4. 企业级安全合作 OpenAI 正在与企业客户合作，探索长期方法，包括隐私保护检测、客户运营的安全控制，以及根据客户、用户或工作负载的风险进行校准的访问权限，以在支持企业隐私要求的同时推进安全性。

关键要点

产品矩阵：GPT-5.6 系列包含 Sol（旗舰）、Terra（平衡/性价比）和 Luna（快速/低成本）。
性能突破：Sol 在编码（Terminal-Bench 2.1）、生物学（GeneBench v1）和网络攻防（ExploitBench², ExploitGym）领域均达到新的高度，特别是在长周期任务中效率显著提升。
新推理功能：新增 max 深度推理模式和 ultra 多代理协作模式，以处理更复杂的任务。
安全优先：配备了迄今最强大的安全堆栈，旨在平衡前沿能力与风险控制，确保合法防御性使用不受阻碍，同时限制进攻性滥用。
未达“关键”阈值：尽管能力大幅增强，但模型在测试中未自主生成功能性完整链式漏洞利用，因此未跨越“网络关键”阈值。
有限预览策略：出于与美国政府的合作及风险管控，目前仅向受信任合作伙伴有限开放，旨在为后续广泛发布建立框架和流程。
多层防御逻辑：采用模型训练、实时生成检查、账户级行为分析和差异化访问控制相结合的多层防御体系，以应对适应性强的攻击者。

意义与影响

GPT-5.6 Sol 的发布标志着大语言模型在专业领域（特别是网络安全和生物信息学）的能力边界进一步拓展，同时也反映了 AI 开发者在应对日益复杂的安全挑战时的策略转变。

首先，AI 在专业领域的工具化趋势加速。通过在 Terminal-Bench 和 GeneBench 等基准测试上的优异表现，OpenAI 证明了其模型不仅能进行通用对话，还能胜任需要长期规划、迭代和工具协调的高难度专业工作。这对于依赖自动化进行代码审查、漏洞挖掘和基因组分析的企业而言，意味着生产力的潜在飞跃。

其次，安全与能力的博弈进入新阶段。OpenAI 明确承认“没有任何单一的安全措施足以防止蓄意或适应性滥用”，因此采取了“多层防御”和“差异化访问”的策略。这表明行业共识已从单纯的技术拦截转向系统性的风险管理。通过保留对“双重用途”技术（如漏洞研究）的合法访问，同时提高进攻性使用的成本和风险，OpenAI 试图在促进防御性安全研究与防止恶意攻击之间找到平衡点。

最后，政府监管与行业自律的互动常态化。此次有限预览及其背后的政府沟通机制，揭示了前沿 AI 模型发布正逐渐受到地缘政治和安全政策的深刻影响。OpenAI 虽然反对将政府准入作为长期默认流程，但承认在当前阶段，与政府合作是确保模型安全落地、建立可重复发布框架的必要步骤。这预示着未来顶级 AI 模型的发布将更加透明化、规范化，并可能面临更严格的合规审查。

查看原文 →openai.com