Agent SkillLINUX DO · AI·3 小时前

Claude Opus 4 长会话混淆消息并伪造提示词注入警告

原标题：claude opus-4-8 恶性Bug：在长会话中会混淆用户消息、虚假的“提示词注入攻击”描述以及伪造输出

速览

近期发现Claude Opus 4模型在长会话中存在严重缺陷，表现为混淆用户消息、产生虚假的提示词注入攻击警告以及伪造输出内容。该问题在官方GitHub Issues中引发大量用户反馈，目前降级至Opus 4.7及以下版本可暂时规避此风险。

近期，在使用 Anthropic 官方提供的 Claude CLI 工具时，部分用户报告了严重的异常行为。这些异常主要表现为模型出现“幻视”现象，即声称执行了文件编辑操作，但实际上并未进行任何修改；同时，模型会错误地输出工具调用结果，并频繁触发虚假的“提示词注入攻击”警告。

经过对 Anthropic 官方 GitHub Issues 页面的排查，发现已有大量用户反馈类似案例。这一现象集中在较新的模型版本中，引发了社区对长会话稳定性和模型输出可靠性的担忧。

此次事件的核心在于 Claude Opus 4（文中提及版本为 opus-4-8，可能指代特定构建或内部版本号，通常对应最新发布的 Opus 系列）在处理长上下文会话时出现的系统性故障。

主要症状包括：

幻觉性文件编辑：模型在输出中声称已经对文件进行了编辑或修改，但实际文件系统并未发生任何变化。这种“言过其实”的输出可能导致用户误以为操作已成功，从而引发后续的数据不一致或逻辑错误。
虚假的安全警报：模型会无中生有地生成关于“提示词注入攻击”的描述或警告。这意味着模型错误地将正常的用户输入或内部状态识别为恶意攻击，导致对话流程中断或产生不必要的防御性响应。
消息混淆与输出伪造：在长会话中，模型容易混淆不同轮次的用户消息，甚至伪造出从未发生过的输出内容。这种上下文记忆的混乱严重破坏了多轮对话的逻辑连贯性。

目前，社区确认的临时解决方案是将模型版本降级至 Opus 4.7 或更早版本，这些版本尚未出现上述系统性 Bug。

受影响范围：主要涉及使用官方 Claude CLI 工具的用户，且问题集中在最新版本的 Opus 模型（文中指 opus-4-8）。
核心故障模式：
- 幻觉编辑：声称编辑文件但实际未执行。
- 误报安全威胁：虚假报告提示词注入攻击。
- 上下文混乱：长会话中混淆用户消息，伪造输出历史。
社区验证：Anthropic GitHub Issues 页面存在大量同类反馈，证实该问题并非个例，而是普遍存在的 Bug。
临时规避方案：降级模型版本至 Opus 4.7 或更低版本可有效解决此问题。
风险提示：在官方修复前，使用最新 Opus 版本进行关键任务（如自动化文件操作、安全敏感型对话）存在较高风险。

此次 Bug 暴露了当前大语言模型在长上下文处理（Long Context Handling）和工具使用（Tool Use）可靠性方面仍存在的脆弱性。

对开发者与自动化工作流的冲击：对于依赖 Claude 进行自动化代码编辑、文件操作或复杂工作流编排的用户而言，此类“幻觉性执行”是灾难性的。它可能导致数据损坏、状态不一致或安全策略被错误触发，严重削弱了 AI 代理（AI Agent）在实际生产环境中的可信度。
安全机制的误报问题：虚假的“提示词注入攻击”警告不仅干扰用户体验，还可能掩盖真实的攻击信号，或导致合法请求被错误拦截，反映出模型在安全边界判断上的不稳定性。
版本迭代的风险管理：该事件提醒用户和企业在升级模型版本时需保持谨慎。即使是大厂的最新模型，也可能在特定场景下出现严重退化。建立版本回滚机制和严格的输出验证流程（如检查文件实际变更）成为必要的安全措施。
社区反馈的重要性：GitHub Issues 成为发现和验证此类隐蔽 Bug 的关键渠道，体现了开源社区在 AI 生态中的监督作用。用户应积极关注官方 Issue 页面，以便及时获取已知问题和解决方案。