AI 资讯Hacker News·1 小时前

GPT-5.5 Codex推理token聚类或致性能下降

原标题：GPT-5.5 Codex reasoning-token clustering may be leading to degraded performance

速览

GPT-5.5 Codex引入推理token聚类技术，旨在优化推理效率，但最新报告显示该技术可能引发性能退化，影响模型生成质量。这一发现促使团队重新评估技术路线，或对后续版本迭代产生重要影响。

AI 深度解读

背景

Hacker News 上出现了一篇关于 OpenAI 旗下代码生成产品 Codex 的性能问题报告。该报告指出，在最新 GPT-5.5 模型驱动的 Codex 响应中，推理 token（reasoning_token）数量出现了高度异常的聚类现象——大量响应的推理 token 数正好落在 516、1034 或 1552 这几个固定值上，且这一模式与模型整体推理 token 强度的下降同步发生。这可能解释了 GPT-5.5 在处理复杂/高难度 Codex 任务时表现下降的原因。报告基于 Codex 的 token_count 元数据，涵盖 2026 年 2 月 1 日至 6 月 27 日的数据窗口。

核心内容

问题描述

用户在 Codex 的 token_count 元数据中发现了一个聚合模式：GPT-5.5 模型的响应中，推理输出 token 数显著集中在 516 这个精确数值上，同时在 1034 和 1552 附近也出现了固定边界尖峰。这种模式似乎是模型特有的，并且与整体推理 token 强度（推理 token 在总 token 中的占比或使用量）的下降同时发生。该用户认为，这可能是造成 GPT-5.5 在复杂/高难度 Codex 任务上表现下降的原因。

该问题与此前报告的 issue #29353 相关。在那份 issue 中，用户复现了一个任务级案例：GPT-5.5 运行结束时刚好使用了 516 个推理 token，并返回了错误答案。本报告在此基础上提供了在更长时间窗口（2月-6月）内的聚合证据。

用户强调，他并非声称这证明了“隐藏的思维链截断”（hidden chain-of-thought truncation），而只是提出一个更窄的主张：Codex 遥测数据显示了 GPT-5.5 特有的固定 token 聚类异常，这看起来与某种阈值化的推理预算行为（thresholded reasoning-budget behavior）一致。

环境信息

产品：Codex
最受影响的模型：GPT-5.5
数据来源：Codex 的 token_count 元数据
分析时间窗口：2026年2月1日－2026年6月27日（UTC）
相关 issue：gpt-5.5 xhigh 有时在推理输出 token=516 时短路并给出错误答案（Codex Desktop #29353）

证据

模型层面的结果：

每月精确达到 516 个推理 token 的聚类比例急剧上升。
与此同时，整体推理 token 强度（如平均值和P90分位值）下降。

为什么这个模式看起来可疑：

异常并非简单的推理 token 使用量整体升高。实际上，从2-4月到5-6月，推理 token 强度的均值和P90都下降了，而精确 516 聚类却在急剧上升。
聚类也不是均匀分布在各个模型上。GPT-5.5 只占所有响应的 19.3%，但却占据了精确 516 事件的 82.0%。其精确 516 与 >=516 的比值比非 GPT-5.5 基线高出约 33.6 倍。
固定值本身也很显眼：516、1034、1552 看起来像是重复的阈值边界，而不是自然变化的推理 token 分布。

预期行为： 复杂 Codex 任务的推理 token 数量应根据任务复杂性自然变化，不应在某一模型系列中过度聚类于精确的固定值。

实际行为： GPT-5.5 的回答大量集中在恰好 516 个推理 token 上，并在 1034 和 1552 附近有相关尖峰。这一模式在另外几个模型中则显著减弱或不存在。

问题请求（Ask）

用户请求 Codex 团队调查 GPT-5.5 是否存在某种推理预算（reasoning-budget）、路由（routing）、截断（truncation）、降级（fallback）或调度（scheduler）行为，从而导致响应恰好终止于 516/1034/1552 个推理 token。如果这是预期行为，用户希望知道精确的 516 代表一个正常停止点、预算上限、降级服务等级还是其他内部阈值。

用户还建议了有用的内部验证检查方法：

按模型查询 token_count 事件中 reasoning_output_tokens 的分布。
比较精确值为 0、516、1034、1552 的计数。
按模型和天计算 count(reasoning_output_tokens = 516) / count(reasoning_output_tokens >= 516) 的比值。
将 GPT-5.5 与 GPT-5.2、GPT-5.4 以及 Codex 特定变体进行对比。
重放匹配的复杂任务，在 GPT-5.2 和 GPT-5.5 上进行质量评估，特别是分离出精确 516 的响应和更长推理的响应。

关键要点

异常现象： GPT-5.5 模型的推理 token 输出数量高度集中在 516、1034、1552 这三个固定值上，而非自然分布。
时间相关性： 该聚类现象在 2026年2月至6月期间急剧增加，同时整体推理 token 强度（平均和 P90 分位值）下降。
模型特异性： GPT-5.5 仅占总响应的 19.3%，却贡献了精确 516 事件的 82.0%，精确 516 占 >=516 的比例是非 GPT-5.5 模型的 33.6 倍。
潜在影响： 这种固定 token 聚类与推理 token 强度下降重叠，可能解释了 GPT-5.5 在复杂 Codex 任务上表现下降的问题。
关联 case： 此前已有 issue 报告了单个任务中 GPT-5.5 在 516 推理 token 处给出错误答案的案例。
请求调查方向： 用户怀疑存在推理预算、路由、截断、降级或调度机制，导致响应在特定 token 计数处被截断/终止。
验证建议： 提出了一系列内部交叉检查方法，包括跨模型对比、比值计算和重放评估。

意义与影响

对 Codex 用户的直接影响： 如果 GPT-5.5 确实存在强制性的推理预算或截断机制，那么复杂代码任务（尤其是高难度、高风险的代码生成/修复）可能会得到不完整或错误的推理链，导致输出质量下降。用户需要关注模型版本对任务复杂度的适应性。
对 OpenAI 的启示： 该报告揭示了模型推理行为中的一个可量化的异常模式，为诊断模型性能退化提供了明确线索。Codex 团队需要立即检查是否引入了非预期的阈值逻辑（如为了节省计算成本而设置推理 token 上限），以及这种逻辑是否过于激进地截断了深层推理。
对行业研究的意义： 这是公开报道中少数直接基于遥测数据指出“推理 token 聚类”与“性能下降”之间关联的案例。它为其他 AI 服务（尤其是提供多步推理的模型）的监控和调试提供了一个范本——固定 token 计数尖峰可能预示着模型内部行为发生了非自然的改变，值得作为质量异常预警信号。
透明性呼吁： 用户明确不假设是“隐藏截断”，而是要求团队说明这是否为预期行为。这反映了社区对模型行为透明度的普遍期待——用户希望了解模型的停止条件、预算限制或降级策略，以便合理调整使用预期。若 OpenAI 确认该行为是设计使然，则应将其文档化；反之则表明存在 bug 或退化，需要紧急修复。

查看原文 →github.com