← 返回信息流
技术博客arXiv cs.CL·4 小时前

VASAE:通过词汇对齐锚点为稀疏自编码器特征命名

原标题:VASAE: Naming SAE Dictionary Directions with Vocabulary-Aligned Anchoring

速览

稀疏自编码器(SAE)通常事后命名特征,缺乏与Transformer词汇表的直接联系。VASAE通过词汇对齐锚点训练SAE特征,将每个特征分配为嵌入向量最接近的Token字符串作为固有名称。实验显示,该方法在不降低重构质量的前提下,使GPT-2-small和Llama-3.1-8B的多数特征与词汇表高度对齐,为模型可解释性提供了新途径。

AI 深度解读

VASAE:通过词汇对齐锚点为稀疏自编码器特征命名

背景

在大型语言模型(LLM)的可解释性研究中,稀疏自编码器(Sparse Autoencoders, SAEs)已成为一种关键工具。SAE 的主要作用是将 Transformer 模型的残差流(residual streams)分解为一系列稀疏的特征表示。这种分解使得研究人员能够更清晰地观察模型内部的信息处理过程,识别出哪些特定的“特征”在激活时对应于特定的语义或语法概念。

然而,现有的 SAE 方法存在一个显著的局限性:它们学习到的特征通常是事后(post hoc)进行命名的。也就是说,SAE 本身在训练过程中并没有直接将特征与 Transformer 的词表(token vocabulary)建立联系。研究人员往往需要在训练完成后,通过额外的分析步骤来手动或半自动地给这些特征贴上标签。这种方法不仅效率低下,而且缺乏内在的一致性,导致特征命名与模型底层的词汇表示脱节。

为了解决这一问题,研究人员提出了 VASAE(Vocabulary-Aligned Sparse Autoencoder,词汇对齐稀疏自编码器)。该方法旨在通过一种新的训练机制,使 SAE 的特征在训练阶段就直接与词汇表对齐,从而赋予每个特征一个内在的、基于词汇的标识符。

核心内容

VASAE 的核心创新在于引入了“词汇对齐锚点”(Vocabulary-Aligned Anchoring)机制。传统的 SAE 训练主要关注重构误差,即尽可能准确地重建输入信号,而 VASAE 在此基础上增加了一个约束条件,迫使 SAE 学习到的特征方向与 Transformer 词表中 token 的嵌入向量(embedding)保持一致。

具体而言,VASAE 为每个学习到的特征分配了一个内在的 token 名称。这个名称被定义为:在词表中,嵌入向量与该特征方向距离最近的 token 字符串。这意味着,如果一个特征在激活时强烈对应于单词 "king",那么该特征的内在名称就是 "king",且这一关联是在训练过程中通过锚点机制直接建立的,而非事后分析的结果。

研究团队在多个模型上验证了 VASAE 的有效性,主要关注点包括重构质量、特征对齐比例以及特征与输入 token 的相关性。

1. 重构质量保持 首先,研究证实 VASAE 并没有因为引入词汇对齐约束而牺牲重构性能。与标准的 SAE 相比,VASAE 在重建 Transformer 残差流时的质量相当,证明了这种对齐机制是可行的,且不会破坏 SAE 原有的分解能力。

2. GPT-2-small 的实验结果 在 GPT-2-small 模型的 post-residual streams(残差流后处理数据)上训练的字典中,研究者使用了一个 0.8 的阈值来衡量最近 token 的对齐得分。结果显示,在模型的第 0 层到第 10 层中,大约有 90% 的特征都实现了与词汇表的对齐。这表明在模型的浅层和中间层,SAE 特征能够非常有效地捕捉到具体的 token 语义。

3. Llama-3.1-8B 的实验结果 研究进一步在更大的模型 Llama-3.1-8B 上进行了测试,结果呈现出分层差异:

  • 浅层和中间层:具有代表性的浅层和中间层字典包含了大量强对齐的特征。例如,在浅层中,高达 92.8% 的特征显示出强烈的词汇对齐。
  • 最终层:相比之下,具有代表性的最终层字典显示出有限的对齐性。这可能意味着在模型的深层,特征更多地代表了抽象的句法结构、逻辑推理或全局语义,而非具体的 token 实体。

4. 特征相关性分析 为了进一步验证这些内在 token 名称的有效性,研究者在减去句子级别的平均稀疏代码(sparse code)后进行了案例研究。结果显示,许多剩余的内在 token 名称与附近的输入 token 高度相关。这证明了 VASAE 学习到的特征不仅与词表对齐,而且确实反映了模型在处理具体文本时的局部注意力模式。

关键要点

  • 方法创新:VASAE 提出了一种“词汇对齐锚点”训练机制,使 SAE 特征在训练过程中直接关联到 Transformer 的词表,而非依赖事后命名。
  • 命名机制:每个 SAE 特征被赋予一个内在的 token 名称,该名称由词表中嵌入向量与该特征方向最近的 token 决定。
  • 性能无损:引入词汇对齐约束并未降低 SAE 的重构质量,其重建效果与标准 SAE 相当。
  • 层级差异显著
    • 在 GPT-2-small 的第 0-10 层中,约 90% 的特征实现了词汇对齐。
    • 在 Llama-3.1-8B 中,浅层特征的对齐率高达 92.8%,而最终层的对齐率较低,暗示深层特征更偏向抽象语义。
  • 语义相关性:通过减去句子级平均稀疏代码后的案例研究表明,VASAE 提取的内在 token 名称与输入文本中的局部 token 具有显著的相关性。
  • 互补性:VASAE 提供的内在命名机制可以补充传统的事后解释方法,为理解 SAE 字典提供更直接、更结构化的视角。

意义与影响

VASAE 的提出对大语言模型的可解释性研究具有重要的理论和实践意义。

首先,它解决了 SAE 特征命名“黑盒化”的问题。传统方法中,特征名称往往是研究人员根据直觉或简单启发式规则赋予的,缺乏统一的基准。VASAE 通过词汇对齐,为特征提供了一个客观、可量化的命名标准,使得不同研究之间的结果更具可比性。

其次,VASAE 揭示了模型不同层级处理信息的本质差异。浅层特征与具体 token 的高度对齐,印证了 NLP 领域中“浅层处理句法/词汇,深层处理语义/逻辑”的普遍认知。而最终层对齐度的下降,则提示我们可能需要开发专门的机制来解释深层的抽象特征,或者承认深层特征可能不再直接对应于离散的 token。

最后,这种方法为自动化模型解释提供了新的路径。通过直接连接特征与词汇表,研究人员可以更快速地定位和理解模型内部的关键概念,从而加速调试、安全对齐以及模型改进的过程。VASAE 不仅是一种技术改进,更是一种范式转变,它将特征解释从“事后分析”推向了“内生理解”。

查看原文 →arxiv.org