技术博客arXiv cs.CL·4 小时前

VASAE：通过词汇对齐锚点为稀疏自编码器特征命名

原标题：VASAE: Naming SAE Dictionary Directions with Vocabulary-Aligned Anchoring

速览

稀疏自编码器（SAE）通常事后命名特征，缺乏与Transformer词汇表的直接联系。VASAE通过词汇对齐锚点训练SAE特征，将每个特征分配为嵌入向量最接近的Token字符串作为固有名称。实验显示，该方法在不降低重构质量的前提下，使GPT-2-small和Llama-3.1-8B的多数特征与词汇表高度对齐，为模型可解释性提供了新途径。

AI 深度解读

VASAE：通过词汇对齐锚点为稀疏自编码器特征命名

背景

在大型语言模型（LLM）的可解释性研究中，稀疏自编码器（Sparse Autoencoders, SAEs）已成为一种关键工具。SAE 的主要作用是将 Transformer 模型的残差流（residual streams）分解为一系列稀疏的特征表示。这种分解使得研究人员能够更清晰地观察模型内部的信息处理过程，识别出哪些特定的“特征”在激活时对应于特定的语义或语法概念。

然而，现有的 SAE 方法存在一个显著的局限性：它们学习到的特征通常是事后（post hoc）进行命名的。也就是说，SAE 本身在训练过程中并没有直接将特征与 Transformer 的词表（token vocabulary）建立联系。研究人员往往需要在训练完成后，通过额外的分析步骤来手动或半自动地给这些特征贴上标签。这种方法不仅效率低下，而且缺乏内在的一致性，导致特征命名与模型底层的词汇表示脱节。

为了解决这一问题，研究人员提出了 VASAE（Vocabulary-Aligned Sparse Autoencoder，词汇对齐稀疏自编码器）。该方法旨在通过一种新的训练机制，使 SAE 的特征在训练阶段就直接与词汇表对齐，从而赋予每个特征一个内在的、基于词汇的标识符。

核心内容

VASAE 的核心创新在于引入了“词汇对齐锚点”（Vocabulary-Aligned Anchoring）机制。传统的 SAE 训练主要关注重构误差，即尽可能准确地重建输入信号，而 VASAE 在此基础上增加了一个约束条件，迫使 SAE 学习到的特征方向与 Transformer 词表中 token 的嵌入向量（embedding）保持一致。

具体而言，VASAE 为每个学习到的特征分配了一个内在的 token 名称。这个名称被定义为：在词表中，嵌入向量与该特征方向距离最近的 token 字符串。这意味着，如果一个特征在激活时强烈对应于单词 "king"，那么该特征的内在名称就是 "king"，且这一关联是在训练过程中通过锚点机制直接建立的，而非事后分析的结果。

研究团队在多个模型上验证了 VASAE 的有效性，主要关注点包括重构质量、特征对齐比例以及特征与输入 token 的相关性。

1. 重构质量保持 首先，研究证实 VASAE 并没有因为引入词汇对齐约束而牺牲重构性能。与标准的 SAE 相比，VASAE 在重建 Transformer 残差流时的质量相当，证明了这种对齐机制是可行的，且不会破坏 SAE 原有的分解能力。

2. GPT-2-small 的实验结果 在 GPT-2-small 模型的 post-residual streams（残差流后处理数据）上训练的字典中，研究者使用了一个 0.8 的阈值来衡量最近 token 的对齐得分。结果显示，在模型的第 0 层到第 10 层中，大约有 90% 的特征都实现了与词汇表的对齐。这表明在模型的浅层和中间层，SAE 特征能够非常有效地捕捉到具体的 token 语义。

3. Llama-3.1-8B 的实验结果 研究进一步在更大的模型 Llama-3.1-8B 上进行了测试，结果呈现出分层差异：

浅层和中间层：具有代表性的浅层和中间层字典包含了大量强对齐的特征。例如，在浅层中，高达 92.8% 的特征显示出强烈的词汇对齐。
最终层：相比之下，具有代表性的最终层字典显示出有限的对齐性。这可能意味着在模型的深层，特征更多地代表了抽象的句法结构、逻辑推理或全局语义，而非具体的 token 实体。

4. 特征相关性分析 为了进一步验证这些内在 token 名称的有效性，研究者在减去句子级别的平均稀疏代码（sparse code）后进行了案例研究。结果显示，许多剩余的内在 token 名称与附近的输入 token 高度相关。这证明了 VASAE 学习到的特征不仅与词表对齐，而且确实反映了模型在处理具体文本时的局部注意力模式。

关键要点

方法创新：VASAE 提出了一种“词汇对齐锚点”训练机制，使 SAE 特征在训练过程中直接关联到 Transformer 的词表，而非依赖事后命名。
命名机制：每个 SAE 特征被赋予一个内在的 token 名称，该名称由词表中嵌入向量与该特征方向最近的 token 决定。
性能无损：引入词汇对齐约束并未降低 SAE 的重构质量，其重建效果与标准 SAE 相当。
层级差异显著：
- 在 GPT-2-small 的第 0-10 层中，约 90% 的特征实现了词汇对齐。
- 在 Llama-3.1-8B 中，浅层特征的对齐率高达 92.8%，而最终层的对齐率较低，暗示深层特征更偏向抽象语义。
语义相关性：通过减去句子级平均稀疏代码后的案例研究表明，VASAE 提取的内在 token 名称与输入文本中的局部 token 具有显著的相关性。
互补性：VASAE 提供的内在命名机制可以补充传统的事后解释方法，为理解 SAE 字典提供更直接、更结构化的视角。

意义与影响

VASAE 的提出对大语言模型的可解释性研究具有重要的理论和实践意义。

首先，它解决了 SAE 特征命名“黑盒化”的问题。传统方法中，特征名称往往是研究人员根据直觉或简单启发式规则赋予的，缺乏统一的基准。VASAE 通过词汇对齐，为特征提供了一个客观、可量化的命名标准，使得不同研究之间的结果更具可比性。

其次，VASAE 揭示了模型不同层级处理信息的本质差异。浅层特征与具体 token 的高度对齐，印证了 NLP 领域中“浅层处理句法/词汇，深层处理语义/逻辑”的普遍认知。而最终层对齐度的下降，则提示我们可能需要开发专门的机制来解释深层的抽象特征，或者承认深层特征可能不再直接对应于离散的 token。

最后，这种方法为自动化模型解释提供了新的路径。通过直接连接特征与词汇表，研究人员可以更快速地定位和理解模型内部的关键概念，从而加速调试、安全对齐以及模型改进的过程。VASAE 不仅是一种技术改进，更是一种范式转变，它将特征解释从“事后分析”推向了“内生理解”。

查看原文 →arxiv.org

VASAE：通过词汇对齐锚点为稀疏自编码器特征命名

速览

AI 深度解读

VASAE：通过词汇对齐锚点为稀疏自编码器特征命名

背景

核心内容

关键要点

意义与影响

相关推荐