技术博客arXiv cs.CL·2 小时前

BPE分词边界漏洞让LLM安全对齐失效

原标题：Breaking Safety at the Token Boundary: How BPE Tokenization Creates Exploitable Gaps in LLM Alignment

速览

论文分析BPE分词如何在安全关键词边界制造可利用漏洞，即使字符扰动保留可读性也无法被LLM安全对齐。作者在Qwen、Llama、Mistral等多家族模型上测试优化攻击，验证激活信号中断位置，并确认三公开对齐数据集缺失碎片化输入。SFT训练碎片化提示虽能关闭攻击成功率，但引发全局拒绝行为失控。文章呼吁LLM研究者关注分词分布问题，推动更健壮的对齐方法。

AI 深度解读

背景

大型语言模型（LLMs）在部署前通常会进行安全对齐（alignment），以避免生成有害或不安全的内容。主流做法是采用人类反馈的强化学习（RLHF）等技术，对齐模型，使其拒绝请求有害问题的提示。字符级扰动作为一种隐蔽攻击方式，允许攻击者以人类可读的格式修改提示，却能有效绕过这些对齐机制。这类攻击在现代LLMs中被广泛观察到。

BPE（Byte Pair Encoding）是一种常见的子词分词方法，通过将常见字符对合并为子词单元，显著减少词汇量并提升计算效率。它在多个开源LLMs中被广泛采用，包括Qwen系列、Gemma系列、Llama系列和Mistral系列。

针对BPE分词机制的漏洞，研究者指出：在标准对齐数据集中，安全关键术语（如拒绝有害内容的关键词）通常未被有意拆分成子词片段。这种拆分不均衡可能在攻击时创造可利用的空白，促使模型在特定输入下偏离安全对齐。

该研究特别强调，BPE的特性与对齐数据集的缺失之间存在系统性差距，这为安全机制的破坏提供了理论基础。

核心内容

机制概述

BPE分词将输入文本拆分成子词单元，而非完整词汇。这意味着安全对齐模型中用于触发拒绝响应的关键词（如“拒绝”“harmful”等）可能被分割成多个子词片段。例如，“refuse”可能被拆分为“ref”+“use”，导致模型对这些片段的联合表示与完整词语存在差异。这打破了安全对齐在词汇层面的完整性，从而在提示边界处形成可被利用的空隙。

数据集扫描发现

研究者对三个人工对齐数据集（被调查的三个公共对齐数据集）进行全面扫描，发现其中零个输入提示被有意设计为碎片化形式。碎片化输入在这些数据集中完全缺失，这表明对齐过程未针对BPE特性进行优化。

端到端测试

通过在五个模型家族上进行全流程验证，证实了该机制的有效性：

Qwen-3-4B
Qwen-2.5-7B
Gemma-3-4B
Llama-3.1-8B
Mistral-7B

研究采用优化算法专门针对安全-token的分词碎片化，攻击效果显著：在80%-100%的HarmBench提示中，能够成功翻转第一个token的拒绝触发器。这一攻击生成的输出中，有48%属于真正有害内容（具体范围：各模型29%-65%）。攻击的整体性能通过行为ROC-AUC（0.66-0.98）和池化值（0.84）体现。

信号定位

使用激活修补（activation patching）技术，将受干扰的信号精准定位到模型最后约30%的层级。这一结果表明，安全对齐信号主要在模型的后期层中受损，早期层可能主要负责基础表示。

对齐数据扫描

进一步扫描了包含30,000个示例的对齐数据集，未发现任何碎片化提示。积极控制实验（positive-control）在攻击相关强度下，召回率达到99%以上，确认扫描方法的可靠性。

靶向突变实验

通过针对性突变实验，研究者成功将安全对齐破坏的根源精确归因于安全关键词的子词分割位置。

防御机制分析

在68个配置网格（包含55个训练检查点）中，对DPO（Direct Preference Optimization）算法进行全面测试，未实现对三个模型家族的种子稳定性和池大小混杂条件的ASR（攻击成功率）完全关闭。SFT（Supervised Fine-Tuning）在碎片化提示上训练可有效关闭3个模型家族的ASR，但这种修复方式仅通过全局崩溃实现，导致对无害提示的拒绝率也显著上升。这表明，在LoRA-16配方下，缺失的分布是必要的但不充分的修复条件。

诊断工具

为区分选择性修复与全局崩溃，研究者提出了Conv-Benign作为候选配对诊断工具。所有ASR主张均通过三法官校准（cell rankings在不同法官间稳定，绝对水平偏差±18pp），确保结果的可靠性（详情见附录B.13）。

关键要点

BPE分词将安全关键词（如拒绝词汇）拆分为子词片段，导致模型无法完整捕捉对齐信号。
三个人工对齐数据集完全缺失碎片化输入，这为攻击者提供了未被对齐的数据分布。
优化攻击可将80%-100% HARM BENCH提示的第一个token拒绝触发器翻转，48%输出为有害内容。
激活修补将安全信号破坏范围锁定在模型最后30%层。
对齐数据扫描确认零碎片化提示，阳性控制召回率≥99%。
靶向突变实验证明安全关键词分割是唯一破坏点。
DPO防御无法稳定关闭ASR（三个模型家族）；SFT修复需全局崩溃，代价是降低对无害提示的拒绝。
Conv-Benign作为新型诊断工具，可有效区分选择性与全局修复。

意义与影响

该研究揭示了BPE分词在现代LLMs安全对齐中的结构性脆弱性：即使提示保持人类可读，字符级扰动仍能有效绕过对齐机制。模型对齐未能充分考虑BPE的特性，导致在提示边界处形成可利用空白。这一发现不仅验证了早期观察到的字符级攻击的有效性，更为系统性安全漏洞提供了理论框架和可重现的测试基准。

研究结果强调了迫切需要对齐数据集和训练配方进行更新，以适应子词分词范式。目前，针对DPO和SFT的防御尝试虽有进展，但未能在保留模型行为的前提下实现稳定ASR关闭。Conv-Benign等新工具的提出，为未来的防御研究提供了实用的评估框架。

长远来看，这一发现将推动LLM安全研究从词汇级对齐转向子词级和层级信号的全面理解，从而为更鲁棒的AI安全框架奠定基础。研究者希望社区能基于此工作构建更具防御性的模型架构和对齐策略，以应对未来类似攻击的演进。

查看原文 →arxiv.org