技术博客arXiv cs.CL·3 小时前

从KV缓存压缩视角重新审视LoRA内存机制

原标题：Rethinking LoRA Memory Through the Lens of KV Cache Compression

速览

该研究通过逐步驱逐文档键值状态，分析了参数侧记忆与上下文侧记忆的交互。发现当KV缓存完整时LoRA作用有限，但在激进压缩下能显著提升性能。结果表明LoRA更适合作为解码时的参数记忆，且QA风格监督能产生更强的适配器。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）