技术博客arXiv cs.CL·3 小时前

骁龙X Elite移动端NPU实现高效RAG推理

原标题：Energy-Efficient On-Device RAG on a Mobile NPU: System Design and Benchmark on Snapdragon X Elite

速览

研究团队在骁龙X Elite的Hexagon NPU上实现了端到端的检索增强生成（RAG）流水线，涵盖嵌入、重排序和大模型生成。基准测试显示，相比CPU，NPU方案在索引阶段吞吐量提升9.1倍、能耗降低12.3倍；查询阶段延迟降低4倍、能耗降低4倍，且答案质量与CPU/GPU相当。该成果证明了移动端NPU实现高效、绿色边缘智能的可行性。

AI 深度解读

能效优先：在移动 NPU 上实现端侧 RAG 的系统设计与基准测试

背景

检索增强生成（Retrieval-Augmented Generation, RAG）已成为大语言模型（LLM）落地应用的关键架构。然而，标准的 RAG 管线是一个计算密集型任务，它串联了嵌入（Embedding）、检索（Retrieval）、重排序（Reranking）以及 LLM 生成等多个阶段。

尽管将 RAG 完全运行在设备端（On-Device）能够带来隐私保护、低延迟以及离线可用性等显著优势，但传统的 CPU 推理方式面临着巨大的能耗障碍。对于笔记本电脑、智能手机等移动设备而言，持续的高功耗不仅缩短电池寿命，还可能引发过热降频问题。因此，如何充分利用现代移动 SoC 中的专用神经网络处理器（NPU）来优化 RAG 管线的能效，成为边缘智能领域亟待解决的核心问题。

核心内容

本文介绍了业界首个端到端的 RAG 管线，该管线将所有神经阶段——包括嵌入、重排序和 LLM 生成——全部运行在 Snapdragon X Elite 处理器集成的 Qualcomm Hexagon NPU 上。研究团队在 Dell XPS 13 笔记本电脑上进行了详细的性能剖析，并将 NPU 加速的 RAG 与 CPU 基线以及基于 OpenCL/Adreno GPU 的基线进行了对比，测试场景涵盖索引构建（Indexing）和查询处理（Query）两个阶段。

1. 索引阶段性能：吞吐量与能效的双重飞跃

在构建向量索引的过程中，NPU 展现出了压倒性的优势：

吞吐量提升：NPU 的嵌入吞吐量比 CPU 高出 9.1 倍。
能耗降低：系统整体能耗降低了 12.3 倍。

2. 查询阶段性能：延迟与能效的显著优化

研究团队使用包含 120 个查询的 Wikipedia 段落基准测试来评估查询性能。与 CPU 基线相比，NPU 方案取得了以下成果：

LLM Prefilling 加速：LLM 预填充（Prefilling）速度提升了 18.1 倍。
端到端延迟降低：整体查询延迟降低了 4.0 倍。
系统能耗降低：系统整体能耗降低了 4.0 倍。

相比之下，集成 GPU（Adreno）的表现并不理想。在同一 workload 下，GPU 比 CPU 慢 1.7 倍，且其能耗是 NPU 的 6.5 倍。这表明在当前软件栈下，针对 RAG 这类特定负载，NPU 比 GPU 更具能效优势。

3. 质量评估：无质量退化

为了验证 NPU 加速是否牺牲了回答质量，研究团队采用了 GPT-4.1 作为“裁判”（LLM-as-a-judge）进行自动化评估。结果如下：

评分对比：在 1-10 的量表中，NPU、CPU 和 GPU 的平均得分分别为 9.32、8.95 和 9.03。
一致性：在 86.7% 的查询中，三个后端给出的评分完全一致。
结论：NPU 的回答质量与 CPU 和 GPU 相当，差异处于评估器的噪声范围内，证明了 NPU 加速并未导致质量退化。

关键要点

首个全 NPU RAG 管线：这是目前已知首个将嵌入、重排序和 LLM 生成所有神经阶段完全卸载至移动 NPU（Qualcomm Hexagon）运行的端到端 RAG 系统。
NPU 优于 CPU 和 GPU：
- 在索引阶段，NPU 在吞吐量和能效上均大幅领先 CPU。
- 在查询阶段，NPU 在延迟和能效上显著优于 CPU，且远优于当前软件栈下的集成 GPU。
能效是核心驱动力：NPU 的主要优势在于极低的系统能耗（降低 4-12 倍），这对于移动设备的电池续航和散热管理至关重要。
质量无损：通过 GPT-4.1 裁判评估，NPU 生成的答案质量与 CPU/GPU 基线无统计学显著差异，实现了“绿色边缘智能”的目标。
通用性展望：作者认为，随着软件栈的成熟，这一设计模式可推广至其他移动 NPU 平台，如 Apple Neural Engine、Intel NPU 和 MediaTek APU。

意义与影响

这项研究标志着端侧 AI 应用从“可行”向“高效”迈进的重要一步。

打破隐私与性能的权衡：传统上，用户为了获得更好的性能往往需要依赖云端 API，从而牺牲数据隐私。本文证明，通过利用 NPU，用户可以在本地高效运行复杂的 RAG 应用，既保护了隐私，又保持了低延迟和离线可用性。
重新定义移动设备的 AI 算力分配：研究结果挑战了“GPU 万能”的假设。对于 RAG 这种包含大量矩阵运算但并行度特征独特的负载，专用的 NPU 在当前阶段比通用 GPU 更具能效优势。这提示开发者在优化端侧 AI 应用时，应优先考虑 NPU 卸载。
推动绿色边缘智能：在数据中心能耗日益受到关注的背景下，将计算负载从云端转移到能效比更高的边缘设备 NPU 上，是降低整体碳足迹的有效途径。
生态系统的成熟信号：该成果依赖于 Qualcomm Hexagon NPU 的软件栈支持。它的成功运行预示着移动 NPU 的编程模型和工具链正在走向成熟，为未来更多复杂的 AI 工作负载在端侧部署铺平了道路。

查看原文 →arxiv.org