GitHub 热榜GitHub Trending · 日·7 天前

Heretic：全自动大模型审查绕过工具

原标题：p-e-w/heretic

Python★ 21,986 stars+219 今日

速览

该项目提供了一套自动化流程，能够针对主流大语言模型（如LLaMA、Mistral等）去除其安全对齐和审查层。它通过修改模型权重或推理逻辑，使用户能够获取被常规模型拒绝的回答，适用于需要无限制访问模型能力的研究或开发场景。

AI 深度解读

这是什么

Heretic 是一个基于 Python 的开源工具，旨在通过自动化流程移除基于 Transformer 架构的大语言模型（LLM）中的“安全对齐”（Safety Alignment），即俗称的“审查”或“拒绝机制”。该项目在 GitHub 上获得了极高的关注度（Star 数超过 21,000），其核心理念是无需昂贵的后训练（Post-training），即可生成高质量的“去审查”模型。

Heretic 的技术基础结合了两种前沿方法：

方向性消融（Directional Ablation）：也被称为 "Abliteration"（引用自 Arditi et al. 2024, Lai 2025）。这是一种通过修改模型权重向量来改变模型行为的技术。
基于 TPE 的参数优化器：利用 Optuna 库进行自动化搜索，以找到最佳的消融参数。

该工具支持大多数密集模型（Dense Models）、多模态模型、多种混合专家架构（MoE），甚至包括 Qwen3.5 等混合模型。它不要求用户深入理解 Transformer 的内部机制，只需具备命令行操作能力即可使用。

解决的问题

传统的大语言模型在训练过程中引入了严格的安全对齐，导致模型在面对敏感话题、潜在违规指令或特定格式要求时，倾向于拒绝回答或输出受限内容。现有的去审查方法（如手动 Abliteration）通常存在以下痛点：

高昂的成本：传统的去审查往往需要大量的计算资源进行微调或复杂的后训练。
人力依赖：手动寻找最佳的消融参数（如方向向量、缩放因子）需要深厚的领域知识和大量的试错成本。
能力损失：许多去审查方法在移除审查的同时，严重损害了模型原有的推理能力和知识储备。

Heretic 通过自动化优化流程，解决了上述问题。它能够在移除审查机制的同时，最大程度地保留原始模型的智能水平，且整个过程完全自动化，无需人工干预参数调优。

核心功能

自动化去审查（Automated Decensoring）：
- 通过联合最小化“拒绝次数”和“与原始模型的 KL 散度”，Heretic 自动搜索最优的 Abliteration 参数。
- 生成的模型在保持原有智力水平的同时，显著降低了对敏感话题的拒绝率。
- 支持模型量化（使用 bitsandbytes），设置 quantization 选项为 bnb_4bit 可大幅降低显存需求。
广泛的架构支持：
- 支持密集模型、多模态模型、MoE 架构。
- 兼容混合模型（如 Qwen3.5）。
- 注意：纯状态空间模型（Pure state-space models）及某些特定研究架构目前尚未开箱即用支持。
内置评估与基准测试：
- 提供内置的评估功能，可运行标准基准测试（如 MMLU, GSM8K）。
- 支持在去审查完成后，直接上传模型至 Hugging Face、进行聊天测试或运行基准测试。
可解释性研究工具（Research Features）：
- 通过安装 heretic-llm[research] 扩展包，用户可深入分析模型内部语义。
- PaCMAP 投影：计算残差向量（Hidden States），将高维残差空间投影至 2D 空间，生成每层的散点图和动画 GIF，直观展示“有害”与“无害”提示在模型层间的变换过程。
- 定量分析：生成包含多种指标（如向量模长、相似度等）的详细表格，辅助理解模型内部机制。

亮点 / 与同类相比

零人工干预的高质量输出：在默认配置下，Heretic 生成的去审查模型质量可与人类专家手动创建的 Abliteration 相媲美。基准测试显示，Heretic 生成的模型在拒绝抑制水平相当的情况下，具有更低的 KL 散度，意味着对原始模型能力的破坏更小。
社区验证与用户反馈：社区已使用 Heretic 创建并发布了超过 3000 个模型。用户反馈表明，生成的模型（如 GPT-OSS 20B Heretic 版本）能够以预期的非审查方式输出长格式、格式良好的响应（包括 Markdown 表格等），且未显著破坏模型智能。
独立基准测试优势：在 MMLU 和 GSM8K 等标准指标上，Heretic 生成的模型表现优于或持平于其他竞争性的 Abliteration 工具。
易用性与自动化：无需理解 Transformer 内部原理，一条命令即可完成从模型下载、参数优化到去审查模型生成的全过程。

适合谁用 / 上手

适合人群

本地部署爱好者：希望在不牺牲模型智能的前提下，解除本地运行 LLM 的安全限制，获取更自由交互体验的用户。
AI 研究人员：对模型内部机制、可解释性（Interpretability）及 Abliteration 技术感兴趣的研究者，可利用其研究工具进行残差向量分析。
开发者：希望自动化流程生成去审查模型，无需手动调参的技术人员。

快速上手指南

1. 环境准备

Python 3.10+
PyTorch 2.2+（推荐更高版本，如 2.6+ 以支持 MXFP4 量化等新特性）
建议使用 uv 进行依赖管理，以确保版本一致性。

2. 安装

pip install -U heretic-llm
# 如需使用研究功能
pip install -U heretic-llm[research]

3. 运行去审查

heretic Qwen/Qwen3-4B-Instruct-2507

将 Qwen/Qwen3-4B-Instruct-2507 替换为你希望去审查的模型 ID。
过程完全自动，Heretic 会自动基准测试硬件以优化批次大小。
在 RTX 3090 上，处理 Qwen3-4B-Instruct-2507 大约需要 20-30 分钟。

4. 高级配置

查看命令行选项：heretic --help
使用配置文件：参考 config.default.toml 进行详细参数调整。
启用量化以节省显存：在配置中设置 quantization = "bnb_4bit"。

5. 研究功能示例 安装 research 扩展后，可通过特定标志运行以生成残差向量的 PaCMAP 投影图和定量分析表格，深入探索模型内部对“有害”与“无害”提示的处理差异。

查看原文 →github.com