从KV缓存压缩视角重新审视LoRA内存机制
原标题:Rethinking LoRA Memory Through the Lens of KV Cache Compression
速览
该研究通过逐步驱逐文档键值状态,分析了参数侧记忆与上下文侧记忆的交互。发现当KV缓存完整时LoRA作用有限,但在激进压缩下能显著提升性能。结果表明LoRA更适合作为解码时的参数记忆,且QA风格监督能产生更强的适配器。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
