还得是Claude Code牛!
AI 深度解读
背景
随着大语言模型的普及,AI 安全与对齐(Alignment)成为厂商关注的重点。以 Anthropic 的 Claude 系列模型为例,其以强大的能力和相对严格的安全限制著称。然而,社区中一直存在探索模型边界、试图绕过安全限制的“越狱”或“破限”行为。传统的破限方式多依赖于在聊天框中精心设计提示词(Prompt),但往往效果有限且容易被模型的安全机制拦截。近期,有社区用户发现了一种基于 Claude Code 工具特性的新型破限路径,引发了广泛讨论。
核心内容
本文源自 LINUX DO 社区的一篇帖子,作者分享了一种利用 Claude Code 的 CLAUDE.md 配置文件实现模型“破限”的方法。
据作者所述,用户只需在 Claude Code 的项目目录下创建或编辑 CLAUDE.md 文件,并在其中写入特定的“破限提示词”,即可实现对 Claude 模型限制的突破。其核心原理在于:Anthropic 会将 CLAUDE.md 文件中的内容作为系统提示词(System Prompt)发送给 Claude 模型。由于系统提示词在模型交互中具有更高的优先级和更强的约束力,这种注入方式实测效果远优于在普通聊天对话中直接输入破限提示词,能够更彻底地绕过模型的安全限制。
关于该方法的潜在风险,作者透露自己的账号已经因此出现了三对黄牌(包含1级和2级违规),不过似乎均已解除。同时,作者特别强调,无论是通过官方渠道、公益站还是 API 调用,使用此方法均有可能导致账号被封禁(Ban),本人对此不负责任。至于具体的破限提示词内容,作者并未直接提供,仅以“焚诀”代称,表示需用户自行寻找。
关键要点
- 破限路径:利用 Claude Code 项目下的
CLAUDE.md文件注入破限提示词。 - 技术原理:Anthropic 会将
CLAUDE.md的内容作为系统提示词(System Prompt)发送给 Claude,系统级注入比对话级注入更具强制力。 - 效果优势:相比在聊天框中直接输入提示词,通过
CLAUDE.md进行系统提示词注入的破限效果更佳。 - 违规风险:该操作违反 Anthropic 的使用条款,可能导致账号收到黄牌甚至永久封禁(Ban)。
- 全渠道风险:无论是官方订阅、公益站还是 API 调用,均存在被封号的可能性。
- 免责与隐秘性:分享者对封号后果免责,且未公开具体的破限提示词,需用户自行探索。
意义与影响
- 暴露产品侧的安全漏洞:该事件揭示了 Claude Code 在读取本地配置文件时存在的安全盲区。将本地文件内容直接作为系统提示词,缺乏足够的安全校验,使得系统提示词注入(System Prompt Injection)成为可能,这对所有支持类似上下文加载
查看原文 →linux.do
