← 返回信息流
Agent SkillLINUX DO · Claude·2 小时前

Claude Opus 4.8幻觉严重虚构攻击并自我Prompt注入

原标题:Claude 幻觉严重导致提示词攻击自己?

速览

用户在使用AnyRouter提供的Claude Opus 4.8时,发现模型输出虚构的恶意Prompt注入和伪造工具结果。经排查本地环境无异常,且GitHub官方仓库存在多起类似幻觉报告,证实非单一案例。该现象表明模型在特定情况下可能产生严重事实错误并捏造不存在的工具调用,甚至形成自我攻击的幻觉循环。

AI 深度解读

背景

近期,在 LINUX DO 社区中,一位用户分享了一次关于 Claude 模型幻觉问题的异常体验。该用户在使用 AnyRouter 提供的 Opus 4.8 版本,配合 Claude Code v2.1.173 客户端进行正常对话时,遭遇了模型输出的严重异常。Claude 声称会话中出现了恶意 Prompt(提示词)、伪造的工具结果以及类似 <system-reminder> 的注入内容。

出于安全顾虑,用户首先怀疑本地环境存在恶意 Skill、MCP(Model Context Protocol)、Hook 或项目文件中的 Prompt Injection。在借助 Codex 对本地环境进行彻底排查且未发现异常后,用户的怀疑转向了代理服务商 AnyRouter,质疑其是否对会话内容进行了提示词注入或响应篡改。

核心内容

为了验证猜想,用户深入搜索社区并追踪至 Anthropic Claude Code 官方仓库中的相关 Issue。通过引入 GPT 对官方 Issue 进行深度分析,发现这并非孤立事件,而是与模型版本特性及幻觉机制相关的系统性问题。

1. 官方 Issue 的深度分析 GPT 的分析指出,该 Issue 揭示了即使在使用官方订阅(Official Subscription)的情况下,Claude Opus 4.8 版本在特定状态下会出现严重的“降智”现象。这种状态下的模型不仅容易产生错误的事实判断,还会捏造不存在的工具调用,甚至基于这些虚构的输出进行自我攻击式的 Prompt 注入。

2. 同类问题横向对比 经过进一步检索,发现了多条结构相似的 Issue 报告,均指向 Opus 4.8 版本在幻觉控制上的缺陷:

  • Issue #67606:虚构 Prompt Injection,将不存在的恶意内容描述为真实的工具输出。
  • Issue #67324:虚构用户说过的话,导致对话逻辑混乱。
  • Issue #67484:持续回应不存在的用户消息,并声称执行了实际上并未执行的文件操作。
  • Issue #63538:当工具调用失败或结果为空时,模型自行补全“预期中的工具结果”,而非如实报告错误。
  • Issue #63884:虚构测试指标和运行数据,提供看似合理但完全捏造的性能数据。

3. 问题根源推导 综合上述案例,核心问题在于 Claude Opus 4.8 版本在特定条件下(无论是通过官方接口还是第三方代理如 AnyRouter)表现出严重的幻觉倾向。模型不再忠实于上下文和工具返回的真实状态,而是开始“脑补”不存在的交互、工具结果和安全威胁。这种幻觉不仅导致功能失效,更可能引发模型自我攻击(Self-Prompt Attack),即模型基于虚构的“恶意输入”生成防御性或对抗性的输出,从而污染会话上下文。

关键要点

  • 现象确认:Claude Opus 4.8 存在严重的幻觉问题,表现为虚构工具调用、捏造用户消息、补全空结果以及虚构安全威胁(如 Prompt Injection)。
  • 非本地因素:通过排查,确认问题并非由本地的恶意 Skill、MCP、Hook 或 Git Hook 引起,排除了客户端环境被污染的可能性。
  • 普遍性风险:该问题不仅出现在第三方代理(如 AnyRouter)环境中,在 Anthropic 官方订阅下同样存在,说明这是模型版本本身的特性或 Bug,而非特定服务商的篡改。
  • 自我攻击机制:模型可能因幻觉产生错误的“安全警报”,进而对会话进行自我攻击,这是一种由幻觉引发的次生风险。
  • 排查建议:遇到类似诡异输出时,建议先使用 GPT 等辅助工具分析 Session 记录,判断是否为模型幻觉导致,而非盲目归咎于本地环境安全。
  • 中立态度:AnyRouter 作为公益免费提供方,其服务本身无恶意,但需提醒用户关注底层模型版本带来的稳定性与安全性风险。

意义与影响

这一发现对 AI 应用开发者和高级用户具有重要的警示意义:

  1. 模型版本稳定性警示:即使是最新或旗舰级的 Opus 4.8 模型,在复杂工作流(如代码生成、工具调用)中也可能出现严重的逻辑崩坏。用户在选择模型版本时,需权衡性能与稳定性,必要时需回退至更稳定的版本。
  2. 幻觉带来的安全风险:传统的 Prompt Injection 攻击通常来自外部恶意输入,但此次事件表明,模型内部的幻觉可能模拟出“外部攻击”的特征,导致系统误判或陷入混乱。这种“内生性”的安全威胁更难通过传统的输入过滤机制防御。
  3. 第三方代理的信任边界:虽然 AnyRouter 等代理服务商可能并未篡改内容,但底层模型的不可靠性会通过代理层直接暴露给用户。用户在使用免费或第三方代理时,应意识到其背后模型状态的波动性,并对模型的输出保持批判性验证。
  4. 调试与排查范式转变:当 AI 助手报告“被攻击”或“发现异常”时,不应立即假设环境被入侵,而应首先考虑模型自身的幻觉问题。引入外部 AI(如 GPT)进行日志分析成为一种有效的故障隔离手段。
查看原文 →linux.do