技术博客arXiv cs.CL·1 天前

深层值向量无需残差流上下文即可提升模型性能

原标题：Do Value Vectors in Deep Layers Need Context from the Residual Stream?

速览

研究发现深层Transformer网络中的值向量无需依赖残差流的上下文信息即可保留原始Token特征。基于此发现，团队提出Bank of Values（BoV）方法，为模型最后三分之一的层学习特定Token的值向量查找表。实验显示，该方法在135M和780M参数规模的模型上均优于标准注意力机制，且以更低计算和内存成本匹配了现有最佳性能。

AI 深度解读

深度解读：深层 Value 向量是否需要残差流上下文？

背景

Transformer 架构之所以能成为现代大型语言模型（LLMs）的核心骨干，很大程度上归功于其注意力机制（Attention Mechanism）的成功应用。在标准的 Transformer 架构中，注意力层遵循经典的神经网络范式：它接收来自**残差流（Residual Stream）**的输入，并据此生成依赖于上下文的查询（Query）、键（Key）和值（Value）向量。

这种设计使得模型能够根据当前输入序列的上下文动态调整信息处理的方式。然而，这种动态计算也带来了显著的计算开销和内存压力，特别是在深层网络中，每次前向传播都需要重新计算或持久缓存这些上下文相关的向量。

核心内容

本文通过系统性实验发现，在 Transformer 的深层网络中，Value 向量实际上并不需要完全依赖残差流中的上下文信息。相反，如果让深层层的 Value 向量仅学习一个**与上下文无关（Context-free）**的向量以保留原始 Token 信息，模型的整体性能反而会有实质性的提升。

1. 核心发现：上下文无关的 Value 向量

研究人员观察到，当模型在深层层（特别是最后三分之一的层）使用固定的、与上下文无关的 Value 向量时，其表现优于传统的动态 Value 向量。

性能提升：使用上下文无关的 Value 向量可以显著降低验证集损失（Validation Loss）。
冗余性分析：一旦模型拥有了这种上下文无关的 Value 向量，再额外添加基于残差流上下文的动态组件，对整体基准测试（Benchmark）性能的提升微乎其微。这表明，在深层网络中，Token 的固有语义信息比动态上下文信息更为关键。

2. 方法创新：Bank of Values (BoV)

基于上述发现，作者提出了 Bank of Values (BoV) 这一新机制。

机制原理：BoV 不再为每个位置动态计算 Value 向量，而是为深层网络（最后三分之一的层）中的每个 Token 学习一个查找表（Lookup Table），其中存储了特定于 Token 的 Value 向量。
存储优势：这些上下文无关的 Value 向量可以作为稀疏模型参数进行存储。这意味着在推理或训练过程中，无需重复计算这些值，也无需在内存中持久缓存它们，从而大幅降低了计算和内存需求。

3. 实验验证

作者在 135M 和 780M 参数规模的模型上进行了系统性的消融实验（Ablation Studies），以验证关键设计选择的有效性。

结果：BoV 在验证集损失上优于标准注意力机制。
基准对比：在 780M 模型规模下，BoV 在 21 个基准测试中的平均得分，达到了此前最佳方法（即向 Value 向量添加 Token 信息的方法）的水平，但所需的计算量和内存更少。

关键要点

深层 Value 向量的静态化：在 Transformer 的深层网络中，Value 向量可以从“动态上下文依赖”转变为“静态 Token 特定”。这种转变不仅没有损害性能，反而提升了模型效率。
上下文信息的冗余性：在拥有基础 Token 语义信息（通过上下文无关 Value 向量提供）的前提下，额外的残差流上下文信息对最终性能贡献有限。
BoV 机制的高效性：Bank of Values 通过引入查找表机制，将 Value 向量预计算并存储为稀疏参数，消除了运行时重新计算或缓存的开销。
资源优化：BoV 在保持甚至超越现有 SOTA（State-of-the-Art）性能的同时，显著降低了计算成本和内存占用，特别是在中等规模模型（如 780M）上表现优异。
适用范围：该机制主要应用于模型的最后三分之一层，而非整个网络。

意义与影响

这项研究对 LLM 的架构设计和部署具有重要的理论与实践意义：

推理效率的提升：通过消除深层网络中 Value 向量的动态计算需求，BoV 可以显著加速推理过程，并减少 GPU/TPU 的内存带宽压力。这对于部署大规模模型至关重要。
模型压缩与存储优化：将 Value 向量存储为稀疏参数而非动态生成，可能为模型量化和压缩提供新的思路，进一步降低存储成本。
对注意力机制理解的深化：该发现挑战了“注意力必须完全依赖上下文”的传统观念，提示我们在深层网络中，Token 的固有语义表征可能比动态交互更为稳定且重要。
未来架构设计的启示：BoV 提供了一种新的注意力计算范式，未来研究可以探索是否可以在更广泛的网络层或不同架构（如 Mixture of Experts）中应用类似的“静态+动态”混合机制，以平衡性能与效率。

总之，Bank of Values (BoV) 不仅是一个具体的优化技术，更是对 Transformer 内部信息流动机制的一次深刻洞察，为构建更高效、更轻量级的大语言模型开辟了新的路径。

查看原文 →arxiv.org