← 返回信息流
技术博客arXiv cs.CL·2 小时前

Kara:高效推理大模型通过滑动窗口KV缓存压缩提升推理速度

原标题:Kara: Efficient Reasoning LLM Serving via Sliding-Window KV Cache Compression

速览

Kara提出了一种滑动窗口KV缓存压缩方法,针对推理语言模型解码阶段KV缓存积累导致的内存开销和延迟问题。在解码时仅操作最近生成的上下文,利用双向注意力对KV对进行评分和选择,并通过Token2Chunk模块将重要KV对扩展为灵活大小的语义块,实现信息的高效保留。Kara已适配PagedAttention,开发出基于vLLM的KvLLM推理框架,该框架大幅降低KV缓存内存占用并有效提升输出吞吐量。实验结果显示,Kara和KvLLM在推理性能上带来一致的提升,有望推动长链思维推理模型在实际应用中的部署效率和可行性。

AI 深度解读

背景

随着大语言模型(LLM)推理能力的不断提升,推理型模型(如支持长链式思考的模型)在生成过程中会产生极长的链式思考(chain-of-thought,简称 CoT),导致解码阶段 KV cache 规模急剧膨胀。这一现象直接引发了两个严重问题:一是内存开销显著增加,二是解码延迟和吞吐量受限,影响了实际部署的效率。现有 KV cache 压缩技术作为缓解这一矛盾的潜在方案,通过选择性地移除不重要的 KV 对,同时保留有用的 KV 对,为后续解码提供压缩后的上下文。尽管这一方向已引起广泛关注,但现有方法仍存在两处核心缺陷:其一,基于阈值的触发式压缩策略在部分场景下难以提升吞吐量,甚至可能导致吞吐量下降,并且可能完全删除序列中某些固定块的 KV 对,从而加剧信息丢失;其二,方法通常仅保留孤立的 KV 对或固定尺寸的块,并以刚性边界分隔,无法在任意 token 位置灵活保留重要且尺寸可变的语义块。针对这些局限,Kara 提出了一种滑动窗口 KV cache 压缩方法,在解码时仅针对最近生成的上文进行操作,利用双向注意力对窗口内的 KV 对进行评分与筛选,并通过 Token2Chunk 模块将筛选出的子集扩展为灵活的语义块,最终适配 PagedAttention 架构并构建于 vLLM 之上,开发出 KvLLM 推理框架。

核心内容

推理型语言模型在生成长链式思考时,解码阶段会不断累积 KV cache,导致内存消耗和解码延迟大幅上升,进而限制吞吐量。现有 KV cache 压缩方法试图通过选择性删除不重要 KV 对来减轻内存压力,但仍面临两大局限:第一种方法依赖阈值触发压缩,实际效果有限,甚至可能降低吞吐量,且容易完全移除序列特定块的 KV 对,加剧信息丢失;第二种方法往往只保留孤立的 KV 对或固定大小的块,并设定严格的边界划分,无法在任意 token 位置灵活保留尺寸可变的语义块。为了解决这些问题,Kara 提出了一种滑动窗口 KV cache 压缩方法,在解码时刻仅针对最近生成的上文进行压缩操作。Kara 充分利用双向注意力机制,对窗口内的 KV 对进行评分与选择,以保留关键信息。进一步地,Kara 设计了一个 Token2Chunk 模块,将筛选出的部分 KV 对扩展为灵活的语义块,从而更好地保留重要语义。Kara 还被适配到 PagedAttention 架构,并在此基础上构建了 KvLLM 推理框架,基于 vLLM 实现。KvLLM 通过压缩 KV cache 有效降低内存使用,同时显著提升输出吞吐量。实验结果表明,Kara 及 KvLLM 在一致性和性能上均取得显著提升。

关键要点

  • Kara 仅在解码时针对最近生成的上文进行滑动窗口压缩,避免全局压缩带来的信息不连续性问题。
  • 利用双向注意力机制对 KV cache 窗口内的 KV 对进行评分与选择,优先保留语义重要性高的 KV 对。
  • Token2Chunk 模块将选中的 KV 对扩展为灵活尺寸的语义块,在任意 token 位置均可保留重要上下文片段。
  • Kara 适配 PagedAttention 架构,并构建于 vLLM 之上,形成 KvLLM 推理框架,有效减少 KV cache 内存占用并提升吞吐量。
  • 现有方法存在阈值触发导致吞吐量不升反降,以及固定块边界无法灵活保留语义块的局限,Kara 通过滑动窗口 + 双向注意力 + Token2Chunk 机制有效克服。
  • 实验验证表明,Kara 及 KvLLM 在推理效率和性能指标上均实现持续性改进。

意义与影响

Kara 的提出为推理型 LLM 的高效部署提供了新的技术路径,在降低 KV cache 内存开销的同时显著提升解码吞吐量,这对大规模推理服务场景具有直接的应用价值。KvLLM 框架的构建进一步降低了部署门槛,使得更多研究者和工程师能够基于 vLLM 生态实现高效推理优化。整体而言,Kara 及 KvLLM 的工作推动了 KV cache 压缩技术的实用化与工程化,为构建更具成本效益的推理系统奠定了基础,有望在未来语言模型推理加速领域产生广泛影响。

查看原文 →arxiv.org