← 返回信息流
AI 资讯Hacker News·1 小时前

GPT-5.5 Codex推理token聚类或致性能下降

原标题:GPT-5.5 Codex reasoning-token clustering may be leading to degraded performance

速览

GPT-5.5 Codex引入推理token聚类技术,旨在优化推理效率,但最新报告显示该技术可能引发性能退化,影响模型生成质量。这一发现促使团队重新评估技术路线,或对后续版本迭代产生重要影响。

AI 深度解读

背景

Hacker News 上出现了一篇关于 OpenAI 旗下代码生成产品 Codex 的性能问题报告。该报告指出,在最新 GPT-5.5 模型驱动的 Codex 响应中,推理 token(reasoning_token)数量出现了高度异常的聚类现象——大量响应的推理 token 数正好落在 516、1034 或 1552 这几个固定值上,且这一模式与模型整体推理 token 强度的下降同步发生。这可能解释了 GPT-5.5 在处理复杂/高难度 Codex 任务时表现下降的原因。报告基于 Codex 的 token_count 元数据,涵盖 2026 年 2 月 1 日至 6 月 27 日的数据窗口。

核心内容

问题描述

用户在 Codex 的 token_count 元数据中发现了一个聚合模式:GPT-5.5 模型的响应中,推理输出 token 数显著集中在 516 这个精确数值上,同时在 1034 和 1552 附近也出现了固定边界尖峰。这种模式似乎是模型特有的,并且与整体推理 token 强度(推理 token 在总 token 中的占比或使用量)的下降同时发生。该用户认为,这可能是造成 GPT-5.5 在复杂/高难度 Codex 任务上表现下降的原因。

该问题与此前报告的 issue #29353 相关。在那份 issue 中,用户复现了一个任务级案例:GPT-5.5 运行结束时刚好使用了 516 个推理 token,并返回了错误答案。本报告在此基础上提供了在更长时间窗口(2月-6月)内的聚合证据。

用户强调,他并非声称这证明了“隐藏的思维链截断”(hidden chain-of-thought truncation),而只是提出一个更窄的主张:Codex 遥测数据显示了 GPT-5.5 特有的固定 token 聚类异常,这看起来与某种阈值化的推理预算行为(thresholded reasoning-budget behavior)一致。

环境信息

  • 产品:Codex
  • 最受影响的模型:GPT-5.5
  • 数据来源:Codex 的 token_count 元数据
  • 分析时间窗口:2026年2月1日-2026年6月27日(UTC)
  • 相关 issue:gpt-5.5 xhigh 有时在推理输出 token=516 时短路并给出错误答案(Codex Desktop #29353)

证据

模型层面的结果:

  • 每月精确达到 516 个推理 token 的聚类比例急剧上升。
  • 与此同时,整体推理 token 强度(如平均值和P90分位值)下降。

为什么这个模式看起来可疑:

  • 异常并非简单的推理 token 使用量整体升高。实际上,从2-4月到5-6月,推理 token 强度的均值和P90都下降了,而精确 516 聚类却在急剧上升。
  • 聚类也不是均匀分布在各个模型上。GPT-5.5 只占所有响应的 19.3%,但却占据了精确 516 事件的 82.0%。其精确 516 与 >=516 的比值比非 GPT-5.5 基线高出约 33.6 倍。
  • 固定值本身也很显眼:516、1034、1552 看起来像是重复的阈值边界,而不是自然变化的推理 token 分布。

预期行为: 复杂 Codex 任务的推理 token 数量应根据任务复杂性自然变化,不应在某一模型系列中过度聚类于精确的固定值。

实际行为: GPT-5.5 的回答大量集中在恰好 516 个推理 token 上,并在 1034 和 1552 附近有相关尖峰。这一模式在另外几个模型中则显著减弱或不存在。

问题请求(Ask)

用户请求 Codex 团队调查 GPT-5.5 是否存在某种推理预算(reasoning-budget)、路由(routing)、截断(truncation)、降级(fallback)或调度(scheduler)行为,从而导致响应恰好终止于 516/1034/1552 个推理 token。如果这是预期行为,用户希望知道精确的 516 代表一个正常停止点、预算上限、降级服务等级还是其他内部阈值。

用户还建议了有用的内部验证检查方法:

  • 按模型查询 token_count 事件中 reasoning_output_tokens 的分布。
  • 比较精确值为 0、516、1034、1552 的计数。
  • 按模型和天计算 count(reasoning_output_tokens = 516) / count(reasoning_output_tokens >= 516) 的比值。
  • 将 GPT-5.5 与 GPT-5.2、GPT-5.4 以及 Codex 特定变体进行对比。
  • 重放匹配的复杂任务,在 GPT-5.2 和 GPT-5.5 上进行质量评估,特别是分离出精确 516 的响应和更长推理的响应。

关键要点

  • 异常现象: GPT-5.5 模型的推理 token 输出数量高度集中在 516、1034、1552 这三个固定值上,而非自然分布。
  • 时间相关性: 该聚类现象在 2026年2月至6月期间急剧增加,同时整体推理 token 强度(平均和 P90 分位值)下降。
  • 模型特异性: GPT-5.5 仅占总响应的 19.3%,却贡献了精确 516 事件的 82.0%,精确 516 占 >=516 的比例是非 GPT-5.5 模型的 33.6 倍。
  • 潜在影响: 这种固定 token 聚类与推理 token 强度下降重叠,可能解释了 GPT-5.5 在复杂 Codex 任务上表现下降的问题。
  • 关联 case: 此前已有 issue 报告了单个任务中 GPT-5.5 在 516 推理 token 处给出错误答案的案例。
  • 请求调查方向: 用户怀疑存在推理预算、路由、截断、降级或调度机制,导致响应在特定 token 计数处被截断/终止。
  • 验证建议: 提出了一系列内部交叉检查方法,包括跨模型对比、比值计算和重放评估。

意义与影响

  • 对 Codex 用户的直接影响: 如果 GPT-5.5 确实存在强制性的推理预算或截断机制,那么复杂代码任务(尤其是高难度、高风险的代码生成/修复)可能会得到不完整或错误的推理链,导致输出质量下降。用户需要关注模型版本对任务复杂度的适应性。
  • 对 OpenAI 的启示: 该报告揭示了模型推理行为中的一个可量化的异常模式,为诊断模型性能退化提供了明确线索。Codex 团队需要立即检查是否引入了非预期的阈值逻辑(如为了节省计算成本而设置推理 token 上限),以及这种逻辑是否过于激进地截断了深层推理。
  • 对行业研究的意义: 这是公开报道中少数直接基于遥测数据指出“推理 token 聚类”与“性能下降”之间关联的案例。它为其他 AI 服务(尤其是提供多步推理的模型)的监控和调试提供了一个范本——固定 token 计数尖峰可能预示着模型内部行为发生了非自然的改变,值得作为质量异常预警信号。
  • 透明性呼吁: 用户明确不假设是“隐藏截断”,而是要求团队说明这是否为预期行为。这反映了社区对模型行为透明度的普遍期待——用户希望了解模型的停止条件、预算限制或降级策略,以便合理调整使用预期。若 OpenAI 确认该行为是设计使然,则应将其文档化;反之则表明存在 bug 或退化,需要紧急修复。
查看原文 →github.com