用户反馈Opus 4.8在High思考强度下幻觉频发
速览
有用户反馈在使用Opus 4.8模型进行全仓审计及项目开发时,在High思考强度下频繁出现严重幻觉,包括虚构子代理启动等离谱行为。该问题自4.5版本以来罕见,且与上下文长度无关。用户指出将思考强度调整为Xhigh后,对话表现恢复正常,建议避免使用Low或High强度。
AI 深度解读
背景
近期,在 LINUX DO 社区的 AI 技术讨论区中,一位拥有 Anthropic 官方 Max 20 订阅的用户分享了一次关于 Claude Opus 4.8 模型在特定工作负载下的异常表现。该用户长期利用周限重置后的额度,在周日凌晨至白天时段运行高并发的全仓审计工作流(Workflow)。起初,使用 Opus 4.8 进行常规审计任务时,体验与以往版本无明显差异,稳定性良好。然而,随着测试场景从复杂的审计工作流转向一个简单的在线游戏项目开发,模型的表现出现了显著波动,引发了对模型当前状态及参数设置的深入探讨。
核心内容
该用户在实际操作中记录了一次典型的“幻觉”(Hallucination)事件。在进行新项目开发时,模型在下午时段出现了一次严重的逻辑错误:它声称自己已经启动了子代理(Sub-agent),但实际上并未执行任何相关操作,且回答内容荒谬、缺乏逻辑。用户指出,自 Opus 4.5 版本以来,从未遇到过如此离谱的幻觉情况。
基于此异常,用户推测 Anthropic 旗下的 Fable 服务下线后,可能对底层模型或推理机制产生了某种连锁影响。为了验证这一假设,用户在新会话中将思考强度(Thinking Intensity)从默认的 high 调整为 xhigh,随后对话表现恢复正常。
然而,问题并未彻底解决。当用户回到同一项目,开启一个新的会话并加载 100K 上下文窗口时,幻觉现象再次出现。经过排查,用户发现导致问题的关键变量依然是“思考强度”。在同一次会话中,当用户将思考强度手动修改为 xhigh 后,后续的对话轮次变得正常且准确。这一对比实验表明,在当前版本下,high 及以下的思考强度设置似乎更容易诱发模型幻觉,即便是处理相对简单的任务也不例外。
关键要点
- 幻觉频发现象:Claude Opus 4.8 在处理简单项目开发任务时,出现了声称启动子代理但未实际执行的严重幻觉,这是自 Opus 4.5 以来罕见的极端案例。
- 参数敏感性:模型的稳定性与“思考强度”设置高度相关。
high及以下强度设置下,模型更容易产生逻辑混乱和事实性错误。 - 上下文窗口影响:在 100K 长上下文窗口下,若维持低思考强度,幻觉风险依然存在,说明问题不仅限于短上下文或复杂任务。
- 解决方案验证:将思考强度调整为
xhigh能有效抑制幻觉,恢复模型输出的逻辑性和准确性。 - 潜在关联推测:用户推测 Anthropic Fable 服务的下线可能与当前模型稳定性的波动存在某种间接关联,但核心解决手段仍指向参数调整。
- 操作建议:建议用户在使用 Opus 4.8 时,避免使用
xhigh以下的思考强度,即使面对简单任务也应保持高思考强度设置。
意义与影响
这一案例为 AI 模型使用者提供了重要的实操参考,揭示了大语言模型在特定参数配置下的脆弱性。它表明,随着模型版本的迭代(如从 4.5 到 4.8),其默认参数或推理机制可能发生了细微变化,导致原有最佳实践(如使用 high 强度)不再适用。
对于开发者而言,这强调了在部署工作流时进行参数敏感性测试的重要性。特别是在处理关键任务或长上下文场景时,盲目依赖默认设置可能导致严重的逻辑错误。此外,这也反映了 Anthropic 在模型优化过程中,思考强度这一超参数对模型“幻觉”抑制的关键作用。xhigh 模式虽然可能增加计算成本或响应时间,但在当前阶段似乎是保障 Opus 4.8 稳定性的必要手段。用户间的这种即时反馈和自测分享,构成了社区驱动的技术优化闭环,有助于其他用户规避潜在陷阱。
