技术博客arXiv cs.CL·2 小时前

Kara：高效推理大模型通过滑动窗口KV缓存压缩提升推理速度

原标题：Kara: Efficient Reasoning LLM Serving via Sliding-Window KV Cache Compression

速览

Kara提出了一种滑动窗口KV缓存压缩方法，针对推理语言模型解码阶段KV缓存积累导致的内存开销和延迟问题。在解码时仅操作最近生成的上下文，利用双向注意力对KV对进行评分和选择，并通过Token2Chunk模块将重要KV对扩展为灵活大小的语义块，实现信息的高效保留。Kara已适配PagedAttention，开发出基于vLLM的KvLLM推理框架，该框架大幅降低KV缓存内存占用并有效提升输出吞吐量。实验结果显示，Kara和KvLLM在推理性能上带来一致的提升，有望推动长链思维推理模型在实际应用中的部署效率和可行性。

AI 深度解读

背景

随着大语言模型（LLM）推理能力的不断提升，推理型模型（如支持长链式思考的模型）在生成过程中会产生极长的链式思考（chain-of-thought，简称 CoT），导致解码阶段 KV cache 规模急剧膨胀。这一现象直接引发了两个严重问题：一是内存开销显著增加，二是解码延迟和吞吐量受限，影响了实际部署的效率。现有 KV cache 压缩技术作为缓解这一矛盾的潜在方案，通过选择性地移除不重要的 KV 对，同时保留有用的 KV 对，为后续解码提供压缩后的上下文。尽管这一方向已引起广泛关注，但现有方法仍存在两处核心缺陷：其一，基于阈值的触发式压缩策略在部分场景下难以提升吞吐量，甚至可能导致吞吐量下降，并且可能完全删除序列中某些固定块的 KV 对，从而加剧信息丢失；其二，方法通常仅保留孤立的 KV 对或固定尺寸的块，并以刚性边界分隔，无法在任意 token 位置灵活保留重要且尺寸可变的语义块。针对这些局限，Kara 提出了一种滑动窗口 KV cache 压缩方法，在解码时仅针对最近生成的上文进行操作，利用双向注意力对窗口内的 KV 对进行评分与筛选，并通过 Token2Chunk 模块将筛选出的子集扩展为灵活的语义块，最终适配 PagedAttention 架构并构建于 vLLM 之上，开发出 KvLLM 推理框架。

核心内容

推理型语言模型在生成长链式思考时，解码阶段会不断累积 KV cache，导致内存消耗和解码延迟大幅上升，进而限制吞吐量。现有 KV cache 压缩方法试图通过选择性删除不重要 KV 对来减轻内存压力，但仍面临两大局限：第一种方法依赖阈值触发压缩，实际效果有限，甚至可能降低吞吐量，且容易完全移除序列特定块的 KV 对，加剧信息丢失；第二种方法往往只保留孤立的 KV 对或固定大小的块，并设定严格的边界划分，无法在任意 token 位置灵活保留尺寸可变的语义块。为了解决这些问题，Kara 提出了一种滑动窗口 KV cache 压缩方法，在解码时刻仅针对最近生成的上文进行压缩操作。Kara 充分利用双向注意力机制，对窗口内的 KV 对进行评分与选择，以保留关键信息。进一步地，Kara 设计了一个 Token2Chunk 模块，将筛选出的部分 KV 对扩展为灵活的语义块，从而更好地保留重要语义。Kara 还被适配到 PagedAttention 架构，并在此基础上构建了 KvLLM 推理框架，基于 vLLM 实现。KvLLM 通过压缩 KV cache 有效降低内存使用，同时显著提升输出吞吐量。实验结果表明，Kara 及 KvLLM 在一致性和性能上均取得显著提升。

关键要点

Kara 仅在解码时针对最近生成的上文进行滑动窗口压缩，避免全局压缩带来的信息不连续性问题。
利用双向注意力机制对 KV cache 窗口内的 KV 对进行评分与选择，优先保留语义重要性高的 KV 对。
Token2Chunk 模块将选中的 KV 对扩展为灵活尺寸的语义块，在任意 token 位置均可保留重要上下文片段。
Kara 适配 PagedAttention 架构，并构建于 vLLM 之上，形成 KvLLM 推理框架，有效减少 KV cache 内存占用并提升吞吐量。
现有方法存在阈值触发导致吞吐量不升反降，以及固定块边界无法灵活保留语义块的局限，Kara 通过滑动窗口 + 双向注意力 + Token2Chunk 机制有效克服。
实验验证表明，Kara 及 KvLLM 在推理效率和性能指标上均实现持续性改进。

意义与影响

Kara 的提出为推理型 LLM 的高效部署提供了新的技术路径，在降低 KV cache 内存开销的同时显著提升解码吞吐量，这对大规模推理服务场景具有直接的应用价值。KvLLM 框架的构建进一步降低了部署门槛，使得更多研究者和工程师能够基于 vLLM 生态实现高效推理优化。整体而言，Kara 及 KvLLM 的工作推动了 KV cache 压缩技术的实用化与工程化，为构建更具成本效益的推理系统奠定了基础，有望在未来语言模型推理加速领域产生广泛影响。

查看原文 →arxiv.org

Kara：高效推理大模型通过滑动窗口KV缓存压缩提升推理速度

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐