NVIDIA发布SparDA:解耦稀疏注意力加速长上下文大模型推理
原标题:SparDA: Sparse Decoupled Attention for Efficient Long-Context LLM Inference
速览
SparDA是一种解耦稀疏注意力架构,引入Forecast投影预测下一层所需的KV块,实现CPU-GPU预取与当前层执行重叠。该方案仅增加不到0.5%参数,在8B模型上实现最高1.7倍解码加速和5.3倍吞吐量提升。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
