技术博客arXiv cs.CL·2 天前

跨语言脚本改写下自动解释标签泛化能力受限

原标题：How Far Do Auto-Interpretation Labels Generalize: A Controlled Study Across Languages, Scripts, and Rewordings

速览

稀疏自编码器（SAE）特征常用于解释大模型，其自动生成的自然语言标签是主要理解接口。研究以塞尔维亚语拉丁与西里尔字母为测试集，发现SAE特征虽具跨语言语义共性，但自动标签在跨语言场景下准确率显著下降，且随网络深度增加而恶化。这表明自动标签更多反映训练数据分布而非概念本身。

AI 深度解读

自动解释标签的泛化能力边界：跨语言、文字与重述的控制性研究

背景

随着大语言模型（LLMs）规模的不断扩大，其内部机制的可解释性研究变得愈发重要。稀疏自编码器（Sparse Autoencoders, SAEs）作为一种主流技术，被广泛用于提取和解释语言模型中的特征（Features）。在这些研究中，自动生成的自然语言标签（Auto-generated natural-language labels）成为了理解每个特征具体含义的主要接口。

然而，一个关键问题长期悬而未决：这些由算法自动生成的标签是否具有真正的泛化能力？也就是说，如果一个特征在英语中被标记为表示某个概念，它是否真的在塞尔维亚语、西里尔字母、拉丁字母或不同的措辞方式中追踪到了相同的语义概念？现有的研究往往缺乏跨语言、跨文字系统的严格验证，导致我们难以确定自动标签是捕捉到了真正的语义本质，还是仅仅反映了模型在训练数据中表现良好的特定输入形式。

核心内容

本研究以塞尔维亚语（Serbian）独特的双文字系统（Digraphia）作为受控测试床，对 SAE 特征的泛化能力及自动标签的有效性进行了系统性评估。塞尔维亚语是一种可以使用拉丁字母和西里尔字母两种文字系统书写同一语言的语言，且两者之间通过确定性转写（deterministic transliteration）相互转换。这种特性消除了语言差异带来的混淆，使得研究者可以纯粹地考察文字系统和重述方式对特征激活及标签准确性的影响。

1. SAE 特征的真实跨语言泛化能力

研究首先验证了 SAE 特征本身是否具备跨语言的语义一致性。通过对比在不同语言、文字系统和措辞下激活的 SAE 特征集，研究发现它们之间存在显著的重叠。具体数据显示，峰值 Jaccard 相似系数达到 0.57，远高于随机基线的 0.13。这一结果有力地证明了 SAE 提取的特征确实捕捉到了真实的跨语言语义概念，而非仅仅是表面形式的噪声。

2. 自动解释标签的泛化失败

尽管特征本身具有泛化能力，但用于解释这些特征的“自动标签”却表现不佳。研究通过测试标签在不同语言环境下的准确性，发现了以下关键现象：

跨语言准确率下降：对于那些标签描述为特定语义内容的特征，它们在塞尔维亚语中未能正确匹配相同含义的频率，比在英语中高出多达 4 倍。
文字系统偏差：自动标签在塞尔维亚西里尔字母上的表现优于拉丁字母。考虑到这两种文字是确定性转写的，这种差异并非源于语义不同，而是反映了模型在训练数据中对这两种文字形式的表征程度不同。也就是说，标签的准确性追踪的是训练数据的覆盖度，而非概念本身。
深度网络的恶化：随着网络深度的增加，自动标签与特征实际行为之间的差距进一步拉大。
缺乏自我感知：最令人担忧的是，这些自动标签本身没有任何迹象表明它们已经失效或不可靠。它们依然自信地给出解释，即使这些解释在跨语言场景下往往是错误的。

3. 结论：标签反映的是“表现良好的输入”而非“概念”

综合上述发现，研究得出结论：当前的自动解释标签可能更多地反映了特征在“训练数据中表征良好”的输入上的行为，而不是特征所代表的抽象概念本身。这意味着，我们目前依赖的自动解释工具存在严重的幻觉风险，特别是在处理非英语、非主流文字系统或罕见措辞时。

关键要点

特征具有泛化性，标签缺乏泛化性：SAE 特征集在不同语言、文字和措辞下表现出高重叠度（Jaccard 相似度 0.57 vs 0.13），证明其捕捉了真实语义；但自动生成的自然语言标签在跨语言场景下准确率大幅下降。
塞尔维亚语作为理想测试床：利用塞尔维亚语拉丁文与西里尔文的确定性转写关系，排除了语言差异干扰，精准定位了标签失败源于训练数据表征偏差而非语义差异。
4 倍的准确率落差：自动标签在塞尔维亚语中遗漏正确语义的频率是英语中的 4 倍，且在西里尔文上的表现甚至不如拉丁文，揭示了训练数据分布对解释工具的深远影响。
深度加剧误差且无预警：随着模型层数加深，标签与特征行为的偏差增大，且自动标签无法自我检测或报告这种失效，导致用户可能误信错误的解释。
根本原因：自动解释标签本质上是特征对“高表征度输入”的响应映射，而非对抽象概念的恒定描述。

意义与影响

这项研究对可解释性人工智能（XAI）领域具有重要的警示意义：

重新评估自动解释工具的可信度：目前广泛使用的基于 SAE 的自动解释工具（如用于分析 Llama、GPT 等模型内部机制的工具）可能存在系统性偏差。研究人员和工程师在使用这些标签进行模型调试或安全分析时，必须意识到它们可能仅适用于训练数据中高频出现的语言形式（主要是英语）。
多语言模型评估的必要性：对于旨在服务全球用户的多语言模型，仅基于英语的自动解释评估是不足的。需要建立跨语言、跨文字系统的标准化评估基准，以检测模型内部表征的真实泛化能力。
改进特征解释方法：未来的研究需要开发更鲁棒的特征解释方法，例如引入人工验证、跨语言一致性检查机制，或开发能够感知自身置信度并标记不确定性的解释器，以避免“自信的幻觉”。
数据偏差的可见性：该研究揭示了训练数据分布如何深刻地塑造了我们对模型内部机制的理解。如果训练数据中某种文字或语言形式占比低，不仅会影响模型性能，还会导致我们对该部分功能的“解释”失效。这强调了在构建可解释性工具时，必须考虑数据多样性的影响。

查看原文 →arxiv.org