技术博客arXiv cs.CL·4 小时前

通过分层位置嵌入缩放缓解Transformer位置偏差

原标题：Mitigating Position Bias in Transformers via Layer-Specific Positional Embedding Scaling

速览

针对大语言模型在长上下文输入中出现的“中间丢失”问题，研究提出分层位置嵌入缩放（LPES）方法。该方法为每一层分配独特的缩放因子，无需微调参数或增加推理延迟即可实现更平衡的注意力分布。通过结合贝塞尔曲线的遗传算法高效搜索最优缩放因子，LPES有效缓解了位置注意力偏差。实验显示，该方法在多个长上下文基准测试中表现一致，关键值检索数据集准确率提升达11.2%。

AI 深度解读

通过层特定位置嵌入缩放缓解 Transformer 中的位置偏差

背景

大型语言模型（LLMs）在处理长上下文输入时，普遍面临所谓的“迷失在中间”（lost-in-the-middle）问题。具体表现为：位于长文本输入中间部分的关键信息往往得不到充分的表征，甚至完全丢失。尽管现有的解决方案尝试通过结合多尺度旋转位置嵌入（Rotary Position Embeddings, RoPE）来缓解这一现象，但这些方法通常存在两个主要缺陷：一是推理延迟较高，二是依赖次优的手工设计缩放策略，难以达到最佳效果。

核心内容

为克服上述局限，研究人员提出了一种名为层特定位置嵌入缩放（Layer-specific Positional Embedding Scaling, LPES）的新方法。该方法的核心思想是为 Transformer 的每一层分配独特的缩放因子，从而在不微调模型参数也不增加推理延迟的前提下，实现更平衡的注意力分布。

1. 方法论：LPES 机制

LPES 不再对模型所有层使用统一的缩放策略，而是针对每一层独立优化位置嵌入的缩放比例。这种细粒度的控制允许模型在不同深度的网络层中灵活调整对位置信息的敏感度，从而更有效地捕获长距离依赖关系。

2. 优化策略：遗传算法与贝塞尔曲线

为了高效地确定每一层的最优缩放因子，研究团队设计了一种特殊的遗传算法。该算法引入了贝塞尔曲线（Bézier curves）来显著减少搜索空间。通过参数化缩放因子的变化趋势，算法能够在保证搜索效率的同时，快速收敛到全局或局部最优解，避免了暴力搜索带来的计算开销。

3. 实验结果

广泛的实验表明，LPES 能有效缓解位置注意力偏差，并在多个长上下文基准测试中带来一致的性能提升。特别是在键值检索（key-value retrieval）数据集上，该方法实现了高达 11.2% 的准确率增益。

关键要点

解决痛点：针对 LLMs 在长文本处理中“迷失在中间”的信息丢失问题，LPES 提供了一种无需重新训练模型的即插即用式解决方案。
零额外延迟：与许多需要修改架构或增加计算复杂度的方法不同，LPES 在推理阶段不增加任何延迟，且无需微调（fine-tuning）模型参数。
智能搜索优化：利用贝塞尔曲线约束搜索空间，结合遗传算法，高效地找到了每层最优的位置嵌入缩放因子。
显著性能提升：在关键任务如键值检索中，准确率提升幅度达到 11.2%，证明了其在长上下文理解任务中的有效性。
通用性：该方法在多个长上下文基准测试中均表现出一致的改进，显示出良好的泛化能力。

意义与影响

LPES 方法的提出为长上下文建模提供了一种轻量级且高效的优化路径。其核心价值在于平衡了性能提升与计算效率：

工程友好性：由于不需要微调模型参数且不增加推理延迟，LPES 极易集成到现有的 LLM 部署流程中，降低了实际应用的门槛。
理论启示：通过实验验证了不同网络层对位置信息的需求存在差异，为后续研究位置编码的动态调整提供了新的视角。
推动长上下文应用：随着 AI 应用对长文档分析、长视频理解等场景需求的增加，缓解“迷失在中间”问题对于提升模型在实际业务中的可靠性具有重要意义。

这项研究不仅改进了 Transformer 架构在长序列处理上的短板，也为未来设计更智能、自适应的位置编码机制奠定了基础。

查看原文 →arxiv.org