安全研究员测试Fable 5越狱成功 揭秘90%拦截策略
速览
安全研究员Vitto Rivabella在X平台披露对Fable 5越狱测试的详细过程与结果。测试中发现模型构建了多层防御体系,包括输入端分类器、实时输出分类器和基于语义意图识别的拒绝机制,成功拦截约90%攻击请求。研究员形容这是有生以来最累的一次测试,测试发现Fable对祈使句和部分小众语言防御有轻微下降,并已向Anthropic团队反馈。但最终破解成功,研究员称此方法为脑洞大开的组合拳,强调该测试不具备实际滥用价值。
AI 深度解读
深度解读:安全研究员 Vitt o Rivabella 详细披露 Fable 5 越狱测试过程与结果
背景
Anthropic 推出的 Fable 5 模型于近期在 X(Twitter)平台上线后,因其多层安全防护机制引发广泛关注。该模型被描述为采用分层降级设计,底层核心能力接近 Mythos 系列强模型,同时叠加输入端与输出端双重检测机制。近期,一位名为 Vitt o Rivabella 的安全研究员在 X 上发布贴文,披露其对 Fable 5 进行的越狱测试情况。此前相关安全事件(如 Pliny 团队使用多代理协作攻击,以及亚马逊研究人员极限测试引发美国政府出口管制)已使 Fable 5 短暂下架并重新上架后再次被测试。该研究员此次测试耗时约 20 小时,坦言为“有生以来最累的一次测试”,并向 Anthropic 团队致敬,强调此次测试不具备实际滥用价值,仅供安全研究。
核心内容
研究员 Vitt o Rivabella 表示,大多数越狱尝试均以失败告终,模型的防御体系多层叠加,安全性极高,成功拦截约 90% 的攻击请求,并部署输入端与输出端双重安全检测机制。拒绝响应机制并非简单的关键词过滤,而是基于跨语言语义与意图识别。研究员形容这是有生以来最累的一次测试,耗时约 20 小时。
在测试过程中,研究员至发现模型中共有 3 个独立分类器:输入端分类器(扫描对话历史及系统提示词)、实时输出分类器(监控生成内容,一旦触发即中断输出)。随后测试发现 Fable 对祈使句(指令性语气)极为敏感,一旦检测到潜在恶意意图,立即触发,测试须从零重来。研究员还发现模型在小众语言上的防御性能略有下降,具体包括桑塔利语(Santali)和阿姆哈拉语(Amharic),并已向 Anthropic 反馈。
尽管 Fable 的防御体系很强大,但最终也被破解。研究员将成功方法描述为“令人脑洞大开的组合拳”,使用了多种方法最终成功,例如使用轻度思维链(CoT)劫持与拒绝回应反驳,并使用冷僻语言等。并成功获取一些虚假信息、违法/有害内容和骚扰/霸凌内容等。研究员强调,此次测试不具备实际滥用价值:目前来看,直接谷歌搜索比走这套流程快得多、也便宜得多。而且阅读学术文献更加深入,说真的,也更愉快。在不触发防护机制的前提下,维持长期越狱状态,我目前还做不到。研究员表示将持续推进相关安全研究,并承诺持续公开更新进展。同时向 Anthropic 团队致敬:GGs to Anthropic,也向过去几周为此彻夜工作的工程师们道歉。
关键要点
- 测试规模与耗时:耗时约 20 小时,多数尝试失败。
- 防御机制概述:约 90% 攻击请求被拦截,输入端分类器(扫描对话历史及系统提示词)+ 实时输出分类器(生成时监控并中断)。
- 拒绝机制特性:非简单关键词过滤,而是基于跨语言语义与意图识别。
- 敏感性发现:对祈使句极为敏感,指令性语气触发拒绝;小众语言(Santali、Amharic)防御性能略有下降,已反馈 Anthropic。
- 成功案例:使用轻度思维链(CoT)劫持拒绝回应 + 冷僻语言等“组合拳”,获得虚假信息、违法/有害内容及骚扰/霸凌内容。
- 测试定位:不具备实际滥用价值,长期维持越狱状态目前难以实现;仅供持续安全研究。
- 态度与承诺:感谢 Anthropic 工程师,计划持续公开更新进展。
意义与影响
此次披露是 Anthropic Fable 5 安全研究的重要里程碑,展示了前沿模型在开放能力与严格防护之间的动态平衡。研究员的测试不仅验证了模型约 90% 的拦截率和多分类器设计的高效性,还揭示了现有对齐技术在结构化多步骤攻击面前的局限性——例如通过轻度 CoT 劫持拒绝机制及冷僻语言组合绕过意图识别。尽管 Fable 5 的安全层被公认为比普通模型更具现实意义(分层降级、分类器拦截而非一刀切),但该事件也凸显高水平攻击者(如专业安全研究员)在现有防御下仍能取得突破的现实挑战。
与此前 Pliny 团队多代理文本混淆攻击及亚马逊极限测试直接导致美国政府管制事件形成呼应,Fable 5 的安全评估再次成为行业焦点。该研究员的“脑洞大开组合拳”提示开发者,在评估前沿模型风险时需关注非直白提示词、语义理解及长期持久攻击的演进。同时,向 Anthropic 团队的致敬与道歉体现了安全研究与产品改进的良性循环:越狱测试虽未造成实际滥用,但有助于工程师们持续优化防御。
长期来看,此类公开披露将加速行业对齐技术的迭代,推动模型在企业级任务(如代码开发、Agent 工作流)中实现更可控的开放性,同时提醒用户与开发者:前沿 AI 模型的可用性始终受监管、能力与安全三重因素影响。在不触发防护的前提下,维持长期越狱状态仍属挑战,这也为学术文献阅读与直接搜索等替代路径提供了额外佐证。整体而言,此事件强化了“安全护栏拦得住普通用户,但拦截不了高水平攻击者”的行业共识,对推动规范性评估和分级处理具有积极意义。
