技术博客arXiv cs.CL·2 天前

ART：一种高效的大语言模型解码注意力运行时终止机制

原标题：ART: Attention Run-time Termination for Efficient Large Language Model Decoding

速览

针对大语言模型长上下文解码中KV缓存带来的内存带宽瓶颈，研究提出ART（Attention Run-time Termination）机制。该轻量级运行时方案在核执行期间跟踪累积注意力输出，当后续贡献可忽略时终止KV块访问。ART与现有基于键的KV缓存管理正交，可无缝集成。实验显示，ART在保持精度相当的情况下，比基线方法提升20%的大批量生成吞吐量。

AI 深度解读

ART: 注意力运行时终止，高效大模型解码新范式

背景

在大语言模型（LLMs）的长上下文解码过程中，性能瓶颈主要源于内存带宽的限制。为了生成下一个 token，模型需要从 Key-Value (KV) 缓存中读取大量的历史状态数据。随着上下文窗口的延长，KV 缓存的体积急剧膨胀，导致 Fetch 这些数据的开销成为制约生成吞吐量的关键因素。

目前，业界主流的 KV 缓存管理方法大多依赖于“解码前”（pre-decoding）的 Key-only 剪枝策略。这种方法仅基于 Key 向量来判断哪些历史信息是重要的，从而在解码开始前剔除冗余的 KV 块。然而，这种简化处理存在明显的理论缺陷：注意力机制（Attention）的输出实际上是 Key 和 Value 共同作用的结果，仅看 Key 无法完全反映该块对最终输出的贡献度。尽管将 Value 纳入评估能更精准地判断重要性，但由于 Value 数据量巨大且计算复杂，将其引入现有方法会带来难以承受的额外计算开销。因此，如何在保证精度的前提下，高效地利用 Value 信息进行动态管理，仍是该领域的一大挑战。

核心内容

针对上述痛点，本文提出了 Attention Run-time Termination (ART)，即“注意力运行时终止”机制。这是一种轻量级的运行时优化方案，旨在解决长上下文解码中的内存带宽瓶颈。

ART 的核心思想是在 Kernel（内核）执行期间，实时追踪累积的注意力输出。传统方法通常一次性加载所有相关的 KV 块并计算完整的注意力权重，而 ART 则采用了一种增量式的评估策略：

动态追踪：在注意力计算过程中，ART 持续监控当前已访问的 KV 块对输出结果的累积贡献。
早期终止：一旦检测到后续 KV 块带来的边际贡献变得微乎其微（即低于预设阈值），ART 会立即终止对剩余 KV 块的访问和计算。
正交性设计：ART 的设计使其与现有的基于 Key 的 KV 缓存管理方法完全正交（orthogonal）。这意味着 ART 可以无缝集成到任何现有的 KV 缓存管理系统中，无需对底层缓存管理逻辑进行大规模重构。

通过这种机制，ART 能够在解码阶段动态地跳过那些对最终生成结果影响极小的 KV 块，从而显著减少内存读取次数和计算量。

关键要点

突破 Key-only 局限：ART 首次将 Value 信息的影响纳入运行时评估，解决了仅基于 Key 剪枝无法准确反映注意力贡献的问题，同时避免了将 Value 纳入预计算带来的高昂开销。
运行时动态优化：不同于传统的静态或解码前剪枝，ART 在 Kernel 执行期间动态判断，能够更精细地捕捉注意力分布的变化，实现更高效的资源利用。
即插即用架构：ART 是一个独立的运行时机制，与现有的 KV 缓存管理策略（如基于 Key 的剪枝）互不冲突，可组合使用以发挥最大效能。
显著的性能提升：在 LongBench 基准测试中，ART 在大批量（large batch size）场景下，相比最先进的基线模型，将生成吞吐量提高了 20%，同时保持了相当的生成精度。

意义与影响

ART 的提出为大语言模型的高效部署提供了新的思路。它证明了在解码阶段引入轻量级的动态终止机制，可以在不牺牲模型精度的前提下，显著缓解内存带宽压力。

对于工业界而言，ART 的价值在于其极高的兼容性和易用性。由于其正交性设计，现有的 LLM 推理引擎（如 vLLM、TensorRT-LLM 等）可以相对容易地集成 ART 机制，无需推翻现有的 KV 缓存管理架构。这对于支持超长上下文（Long-context）的应用场景（如长文档分析、长视频理解等）具有重要意义，能够大幅降低推理成本并提升响应速度。

此外，ART 也启示了未来研究的方向：在注意力机制的优化中，不应仅局限于静态的结构剪枝，动态的、基于运行时反馈的细粒度控制可能蕴含着更大的性能潜力。

查看原文 →arxiv.org