技术博客arXiv cs.CL·2 小时前

解码器大型语言模型重复令牌提升推理性能

原标题：PARTREP: Learning What to Repeat for Decoder-only LLMs

速览

PartRep针对解码器-only大型语言模型提出选择性重复方法，仅在低可预测性令牌上重复提示。利用令牌负对数似然作为选择信号，通过轻量级门控网络在早期层隐藏状态预测高NLL令牌，实现中途提前退出。实验在Qwen2.5、Llama3.2、Gemma4等三家模型家族及八个基准上验证，保留全重复的绝大部分收益，但仅需其59.4%的KV缓存和79%的预填充FLOPs。这一创新使长上下文场景下的因果注意力不对称问题得到实用缓解，推动大型语言模型在推理任务中的效率与性能平衡。

AI 深度解读

背景

在解码器-only的大语言模型（LLMs）中，因果注意力机制带来了一种不对称的信息流动：后续位置的标记（tokens）在上下文 grounding 方面比早期位置更丰富。这种结构性限制限制了模型在推理任务上的表现。

一种简单且有效的补救措施是提示词重复（prompt repetition）：在生成前简单追加原提示词的第二份副本，便能将 grounding 分布到更多位置，从而提升推理性能。

然而，全量重复原提示词会使 KV cache footprint 增加一倍，并将 prefill 阶段的注意力成本增加四倍，这在长上下文场景下变得不切实际。

核心内容

原文提出 PARTREP 作为一种选择性增强方法，在生成前仅追加最具信息量的标记，而不是整个提示词。

模型通过标记级别的负对数似然（token-wise negative log-likelihood，NLL）作为选择信号。作者假设，信息密度低的标记（less predictable tokens）从周围上下文中可恢复性较弱，因此从后期位置的重复中获益最大。

为避免在评分阶段进行完整的前向传播，作者训练了一个轻量级门控机制（lightweight gate），该机制从早期层隐藏状态中预测高 NLL 标记。借助这一机制，标记选择可在 mid-prefill 阶段通过提前退出（early exit）实现，显著降低计算开销。

在八个基准测试（包括 MMLU、GSM8K 和 RULER）及三个模型家族（Qwen2.5、Llama3.2、Gemma4）上进行验证，PARTREP 保留了全量重复方法的绝大部分收益，同时仅使用其 59.4% 的 KV cache 和 79.0% 的 prefill FLOPs。

关键要点

因果注意力导致后期标记 grounding 更丰富，早期标记相对较弱
提示词重复是简单有效的策略，但全量重复在长上下文下因 KV cache 膨胀和注意力开销激增而不实用
PARTREP 通过 token-wise NLL 筛选最具信息量的标记，仅追加选定部分而非完整提示词
轻量级门控从早期隐藏状态预测高 NLL 标记，实现 mid-prefill 阶段的早期退出与低成本选择
跨八个基准与三个模型家族，PARTREP 实现收益保留率高（全量重复的绝大部分），同时 KV cache 使用率仅 59.4%，prefill FLOPs 仅 79.0%

意义与影响

PARTREP 为解码器-only LLMs 提供了一个轻量级、可扩展的路径，使模型在推理任务中充分利用后期标记的丰富上下文，而无需支付全量重复带来的计算与内存代价。尤其在长上下文场景下，这一方法显著降低了实际部署门槛，预计将推动更多高效推理优化技术的落地应用。

查看原文 →arxiv.org

解码器大型语言模型重复令牌提升推理性能

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐