← 返回信息流
GitHub 热榜GitHub Trending · 日·7 天前

Heretic:全自动大模型审查绕过工具

原标题:p-e-w/heretic
Python21,986 stars+219 今日

速览

该项目提供了一套自动化流程,能够针对主流大语言模型(如LLaMA、Mistral等)去除其安全对齐和审查层。它通过修改模型权重或推理逻辑,使用户能够获取被常规模型拒绝的回答,适用于需要无限制访问模型能力的研究或开发场景。

AI 深度解读

这是什么

Heretic 是一个基于 Python 的开源工具,旨在通过自动化流程移除基于 Transformer 架构的大语言模型(LLM)中的“安全对齐”(Safety Alignment),即俗称的“审查”或“拒绝机制”。该项目在 GitHub 上获得了极高的关注度(Star 数超过 21,000),其核心理念是无需昂贵的后训练(Post-training),即可生成高质量的“去审查”模型。

Heretic 的技术基础结合了两种前沿方法:

  1. 方向性消融(Directional Ablation):也被称为 "Abliteration"(引用自 Arditi et al. 2024, Lai 2025)。这是一种通过修改模型权重向量来改变模型行为的技术。
  2. 基于 TPE 的参数优化器:利用 Optuna 库进行自动化搜索,以找到最佳的消融参数。

该工具支持大多数密集模型(Dense Models)、多模态模型、多种混合专家架构(MoE),甚至包括 Qwen3.5 等混合模型。它不要求用户深入理解 Transformer 的内部机制,只需具备命令行操作能力即可使用。

解决的问题

传统的大语言模型在训练过程中引入了严格的安全对齐,导致模型在面对敏感话题、潜在违规指令或特定格式要求时,倾向于拒绝回答或输出受限内容。现有的去审查方法(如手动 Abliteration)通常存在以下痛点:

  • 高昂的成本:传统的去审查往往需要大量的计算资源进行微调或复杂的后训练。
  • 人力依赖:手动寻找最佳的消融参数(如方向向量、缩放因子)需要深厚的领域知识和大量的试错成本。
  • 能力损失:许多去审查方法在移除审查的同时,严重损害了模型原有的推理能力和知识储备。

Heretic 通过自动化优化流程,解决了上述问题。它能够在移除审查机制的同时,最大程度地保留原始模型的智能水平,且整个过程完全自动化,无需人工干预参数调优。

核心功能

  1. 自动化去审查(Automated Decensoring)

    • 通过联合最小化“拒绝次数”和“与原始模型的 KL 散度”,Heretic 自动搜索最优的 Abliteration 参数。
    • 生成的模型在保持原有智力水平的同时,显著降低了对敏感话题的拒绝率。
    • 支持模型量化(使用 bitsandbytes),设置 quantization 选项为 bnb_4bit 可大幅降低显存需求。
  2. 广泛的架构支持

    • 支持密集模型、多模态模型、MoE 架构。
    • 兼容混合模型(如 Qwen3.5)。
    • 注意:纯状态空间模型(Pure state-space models)及某些特定研究架构目前尚未开箱即用支持。
  3. 内置评估与基准测试

    • 提供内置的评估功能,可运行标准基准测试(如 MMLU, GSM8K)。
    • 支持在去审查完成后,直接上传模型至 Hugging Face、进行聊天测试或运行基准测试。
  4. 可解释性研究工具(Research Features)

    • 通过安装 heretic-llm[research] 扩展包,用户可深入分析模型内部语义。
    • PaCMAP 投影:计算残差向量(Hidden States),将高维残差空间投影至 2D 空间,生成每层的散点图和动画 GIF,直观展示“有害”与“无害”提示在模型层间的变换过程。
    • 定量分析:生成包含多种指标(如向量模长、相似度等)的详细表格,辅助理解模型内部机制。

亮点 / 与同类相比

  • 零人工干预的高质量输出: 在默认配置下,Heretic 生成的去审查模型质量可与人类专家手动创建的 Abliteration 相媲美。基准测试显示,Heretic 生成的模型在拒绝抑制水平相当的情况下,具有更低的 KL 散度,意味着对原始模型能力的破坏更小。

  • 社区验证与用户反馈: 社区已使用 Heretic 创建并发布了超过 3000 个模型。用户反馈表明,生成的模型(如 GPT-OSS 20B Heretic 版本)能够以预期的非审查方式输出长格式、格式良好的响应(包括 Markdown 表格等),且未显著破坏模型智能。

  • 独立基准测试优势: 在 MMLU 和 GSM8K 等标准指标上,Heretic 生成的模型表现优于或持平于其他竞争性的 Abliteration 工具。

  • 易用性与自动化: 无需理解 Transformer 内部原理,一条命令即可完成从模型下载、参数优化到去审查模型生成的全过程。

适合谁用 / 上手

适合人群

  • 本地部署爱好者:希望在不牺牲模型智能的前提下,解除本地运行 LLM 的安全限制,获取更自由交互体验的用户。
  • AI 研究人员:对模型内部机制、可解释性(Interpretability)及 Abliteration 技术感兴趣的研究者,可利用其研究工具进行残差向量分析。
  • 开发者:希望自动化流程生成去审查模型,无需手动调参的技术人员。

快速上手指南

1. 环境准备

  • Python 3.10+
  • PyTorch 2.2+(推荐更高版本,如 2.6+ 以支持 MXFP4 量化等新特性)
  • 建议使用 uv 进行依赖管理,以确保版本一致性。

2. 安装

pip install -U heretic-llm
# 如需使用研究功能
pip install -U heretic-llm[research]

3. 运行去审查

heretic Qwen/Qwen3-4B-Instruct-2507
  • Qwen/Qwen3-4B-Instruct-2507 替换为你希望去审查的模型 ID。
  • 过程完全自动,Heretic 会自动基准测试硬件以优化批次大小。
  • 在 RTX 3090 上,处理 Qwen3-4B-Instruct-2507 大约需要 20-30 分钟。

4. 高级配置

  • 查看命令行选项:heretic --help
  • 使用配置文件:参考 config.default.toml 进行详细参数调整。
  • 启用量化以节省显存:在配置中设置 quantization = "bnb_4bit"

5. 研究功能示例 安装 research 扩展后,可通过特定标志运行以生成残差向量的 PaCMAP 投影图和定量分析表格,深入探索模型内部对“有害”与“无害”提示的处理差异。

查看原文 →github.com