GPT-5.6 Candy测试:开启xhigh模式自动调用Computer Use技能
速览
该测试展示了GPT-5.6模型在Candy基准测试中的表现,三次运行均获得满分。值得注意的是,在仅开启xhigh而非ultra模式的情况下,模型在执行过程中似乎自动调用了Computer Use技能,引发了关于其能力边界的讨论。
AI 深度解读
背景
在 AI 模型能力评估与提示词工程(Prompt Engineering)的社区讨论中,LINUX DO 平台上的 AI 板块近期分享了一项关于 gpt-5.6-sol 模型的测试案例。该测试由用户执行,旨在验证该模型在特定逻辑或数学推理任务中的表现。测试脚本 codex_candy_eval.py 被用来自动化评估模型对“糖果测试”(Candy Test,通常指代经典的抽屉原理或最坏情况分析类逻辑题)的回答准确性。
此次分享的核心在于观察模型在有限资源或特定模式(xhigh)下的表现,以及 CLI 工具在执行过程中可能触发的额外能力(如 Computer Use)。这一案例为开发者提供了关于模型推理稳定性、Token 消耗效率以及自动化工具链行为的重要参考。
核心内容
测试通过命令行工具运行,具体指令为 % python codex_candy_eval.py -m gpt-5.6-sol -r xhigh -n 3。其中:
-m gpt-5.6-sol:指定使用gpt-5.6-sol模型。-r xhigh:指定推理模式为xhigh(高推理强度,但未开启ultra模式)。-n 3:生成 3 个样本进行评估。
测试结果显示,模型连续三次均正确回答了问题,准确率(accuracy)达到 100%。以下是三次运行的详细数据对比:
-
第一次运行:
- 回答内容:最少取出 21 个。利用手感,取...
- Token 消耗:输入 24,931 Tokens,输出 1,689 Tokens,推理(Reason)Token 1,467。
- 性能:耗时 35.2 秒,吞吐量(TPS)48.0。
- 结果:正确(✓)。
-
第二次运行:
- 回答内容:最少取出 21 个。做法:凭手感...
- Token 消耗:输入 24,941 Tokens,输出 3,878 Tokens,推理(Reason)Token 3,624。
- 性能:耗时 57.2 秒,吞吐量(TPS)67.8。
- 结果:正确(✓)。
-
第三次运行:
- 回答内容:最少需要取出 21 个。取法:凭...
- Token 消耗:输入 24,931 Tokens,输出 4,827 Tokens,推理(Reason)Token 4,626。
- 性能:耗时 68.7 秒,吞吐量(TPS)70.2。
- 结果:正确(✓)。
值得注意的是,尽管三次运行的输出长度和推理 Token 数量差异巨大(从 1,689 到 4,827 不等),但模型均给出了相同的最终答案“21 个”,且判定为正确。测试者观察到,虽然仅开启了 xhigh 模式而非 ultra,但 CLI 工具在执行过程中似乎自动调用了 computer use(计算机使用)技能,这可能解释了为何模型能够稳定且准确地完成此类需要逻辑推导的任务。
关键要点
- 高准确率:在
gpt-5.6-sol模型配合xhigh推理模式下,针对该逻辑测试题实现了 100% 的正确率(3/3)。 - 推理深度差异:尽管结果一致,但模型的“思考过程”长度波动显著。第三次运行的推理 Token 数量是第一次的三倍多,表明模型在解决同一问题时,内部推理路径的复杂度或详细程度并不固定。
- 性能与效率:
- 第一次运行速度最快(35.2 秒),但推理深度最浅。
- 第三次运行耗时最长(68.7 秒),但吞吐量(TPS)最高(70.2),这可能反映了后端处理机制在不同负载下的优化差异。
- 自动技能触发:测试者指出,即使未显式开启
ultra模式,CLI 工具似乎自动激活了computer use技能。这一发现暗示底层工具链可能存在隐式的技能路由机制,或者xhigh模式在某些条件下会自动增强环境交互能力。 - 答案一致性:无论推理过程长短,模型最终输出的关键数值“21 个”保持高度一致,显示出该模型在该特定任务上的收敛性。
意义与影响
- 模型能力边界探索:此次测试表明,
gpt-5.6-sol在中等推理强度(xhigh)下已具备解决复杂逻辑问题的能力,无需强制使用最高强度的ultra模式即可保证准确性。这为开发者在成本与性能之间寻找平衡点提供了实证数据。 - 自动化工具链的透明度:CLI 工具自动调用
computer use技能的现象值得警惕和研究。如果开发者未明确配置此技能,但系统自动启用,可能导致不可预期的资源消耗或行为偏差。明确工具链的自动行为机制对于构建可靠的生产环境至关重要。 - 推理 Token 的性价比分析:数据显示,更长的推理 Token 并不一定带来更高的吞吐量或更快的响应时间,反而可能增加延迟。开发者在优化提示词或配置推理参数时,需权衡“推理深度”与“执行效率”,避免不必要的 Token 浪费。
- 社区协作价值:此类来自 LINUX DO 等开发者社区的实战测试,为 AI 模型的基准测试提供了多样化的视角,补充了官方基准测试可能忽略的实际应用场景和工具链交互细节。
