技术博客arXiv cs.CL·11 小时前

NVIDIA发布SparDA：解耦稀疏注意力加速长上下文大模型推理

原标题：SparDA: Sparse Decoupled Attention for Efficient Long-Context LLM Inference

速览

SparDA是一种解耦稀疏注意力架构，引入Forecast投影预测下一层所需的KV块，实现CPU-GPU预取与当前层执行重叠。该方案仅增加不到0.5%参数，在8B模型上实现最高1.7倍解码加速和5.3倍吞吐量提升。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）