技术博客arXiv cs.AI·1 天前

Pythia多跳推理实验：跨模型激活迁移未能提升性能

原标题：A Negative Result on Cross-Model Activation Transfer in a Pythia Multi-Hop Setting

速览

最新研究探讨了语言模型在推理时能否通过翻译和注入隐藏激活状态，而非自然语言文本，将中间推理状态直接传递给另一模型。实验在Pythia-160M到Pythia-410M的多跳推理设置中进行，发现尽管离线学习到的线性映射在归一化空间中具有高度相似性，但注入这些激活并未改善下游回答性能。结果表明，在该设定下，离线表征对齐不足以实现接收模型内部有用的因果通信，属于明确的负面结果。

AI 深度解读

跨模型激活转移的负面结果：在 Pythia 多跳推理场景下的实验分析

背景

近年来，大语言模型（LLM）的研究焦点逐渐从单纯的模型训练转向了模型间的知识交互与能力迁移。已有研究表明，语言模型可以通过在训练数据生成的文本中嵌入“隐藏信号”，将行为特征传递给其他模型。这种间接的通信方式依赖于自然语言文本作为载体。

然而，这一领域仍有一个未被充分探索的核心问题：是否存在一种更直接、更严格的通信通道？具体而言，在推理（inference）阶段，一个语言模型能否通过“翻译”并注入隐藏层激活值（hidden activations），将中间推理状态直接传递给另一个模型，从而绕过自然语言文本这一中间环节？

为了回答这一问题，研究人员在一个受控的实验环境中进行了测试：使用 Pythia-160M 作为发送方（Sender），Pythia-410M 作为接收方（Receiver），在多跳推理（multi-hop reasoning）任务中评估这种跨模型激活转移的有效性。

核心内容

本研究的核心在于验证“离线表示对齐”（offline representational alignment）是否足以在接收方内部实现有效的因果通信。实验设计如下：

线性映射层的构建：研究人员训练了一个线性翻译层（linear translation layer），旨在建立发送方和接收方隐藏状态之间的强映射关系。实验结果显示，在归一化空间中，该映射表现出极高的相关性，跨不同随机种子（seeds）的归一化余弦相似度（normalized cosine similarity）接近 0.97。这表明，从统计学的角度来看，两个模型在隐藏层表示上存在高度可对齐的结构。
推理阶段的注入测试：尽管表示对齐效果显著，但当这些经过翻译的激活值在推理时被注入接收方模型时，下游任务的回答准确率并未得到提升。研究测试了两种主要的注入方式：
- 低强度加法注入（Low-strength additive injection）：将翻译后的激活值以较小权重加到接收方的隐藏状态中。结果显示，这种方法的效果与“无注入”基线（no-injection baseline）几乎持平，且置信区间跨越零值，意味着没有统计学上的显著改善。
- 替换式注入（Replacement-style injection）：直接用翻译后的激活值替换接收方的原始隐藏状态。这种方法不仅没有提升性能，反而一致地破坏了模型的表现。
归一化调整的失败：为了排除量级不匹配的问题，研究人员尝试将翻译后的向量重新缩放（rescaling），使其符合接收方隐藏状态的范数（norm）。然而，这一调整并未能挽救性能，结果依然负面。

综上所述，实验得出了一个范围受限的负面结果（scoped negative result）：在当前的 Pythia 多跳推理设置下，仅仅实现离线表示对齐并不足以支持接收方内部有用的因果通信。

关键要点

高相关性不等于功能性：发送方和接收方隐藏状态在归一化空间中具有极高的相似度（余弦相似度 ~0.97），但这并不意味着这些信号可以直接被接收方利用。
加法注入无效：低强度的加法注入无法带来性能提升，其效果等同于基线模型。
替换注入有害：直接替换隐藏状态会破坏模型原有的推理机制，导致性能下降。
量级调整无济于事：即使将激活值重新缩放以匹配接收方的特征范数，也无法恢复或提升性能。
结论局限性：该负面结果仅适用于当前的实验设置（Pythia-160M 到 Pythia-410M 的多跳推理），不能直接推广到所有模型架构或任务类型，但强烈暗示了直接激活转移的复杂性。

意义与影响

这项研究对理解大语言模型内部的表征机制以及模型间通信的可行性具有重要意义：

挑战“直接激活转移”的直觉：许多研究者假设，如果两个模型的内部表示足够相似，那么直接共享这些表示应该能实现高效的知识迁移。本研究的负面结果打破了这一直觉，表明“表示相似性”与“功能可迁移性”之间存在巨大鸿沟。
强调因果结构的复杂性：结果暗示，语言模型的推理能力不仅仅依赖于静态的隐藏状态值，还高度依赖于这些状态在模型动态计算图（computational graph）中的因果角色。简单的线性映射无法捕捉这种动态的因果依赖。
为未来研究划定边界：该研究明确了在特定规模（160M-410M）和特定任务（多跳推理）下，基于线性映射的跨模型激活转移是行不通的。未来的研究可能需要探索更复杂的非线性映射、注意力机制的交互，或者回到基于文本的间接通信路径。
对模型压缩与蒸馏的启示：在模型压缩和知识蒸馏领域，通常假设教师模型和学生模型之间存在可迁移的表征。本研究提醒我们，在跨架构或跨规模迁移时，仅靠对齐隐藏层输出可能不足以保证性能，需要更精细的机制设计。

查看原文 →arxiv.org