技术博客arXiv cs.AI·2 小时前

Hawk框架解决NPU内核生成硬件难题，训练无需完美性能提升2.2倍

原标题：Hawk: Harnessing Hardware-Aware Knowledge for High-Performance NPU Kernel Generation

速览

开发高性能NPU内核是行业关键瓶颈，现有方法无法处理硬件隐含约束和内存层次结构。Hawk框架采用三种核心模块：运行时知识合成、瓶颈感知检索和效果驱动蒸馏，通过Triple-Part Executable Knowledge Representation等机制实现自动化生成。评估显示其在真实NPU工作负载上显著超越基线，标志着AI辅助硬件优化技术新突破，有望加速下一代智能设备部署。

AI 深度解读

背景

开发高性能的神经处理单元（NPU）内核一直是行业中的重大瓶颈。这是因为开发者必须手动处理隐含的硬件约束以及严格的内存层次结构。尽管大型语言模型具备巨大的自动化潜力，但它们在NPU上应用时会严重失效，核心原因是缺乏硬件特定的先验知识。单纯地将来自相似NPU内核的代码片段直接移植过来，虽然可能通过编译器检查，但却容易在运行时触发崩溃并导致性能下降，因为它们盲目违反了底层的硬件约束。

核心内容

Hawk是一个无需训练的框架，旨在通过三个核心模块利用硬件感知知识来实现高性能NPU内核生成：

运行时知识合成模块：采用三部分可执行知识表示（Triple-Part Executable Knowledge Representation），这能将错误上下文天然地与可执行语义耦合。
瓶颈感知知识检索模块：实现一种二维检索范式（2D-Retrieval paradigm），将查询投射到正交的句法空间和硬件对齐的语义空间。
效果驱动知识蒸馏模块：利用大语言模型驱动的语义仲裁，基于经验执行反馈持续蒸馏知识，通过修剪错误和消除冗余来实现。

在真实世界的NPU工作负载上进行广泛评估表明，Hawk将生成准确率从49.4%提升至80.0%，同时相比现有最佳基线实现高达2.2倍的执行速度提升。

关键要点

Hawk无需训练即可工作，直接利用硬件感知知识生成高性能NPU内核。
运行时知识合成模块使用三部分可执行知识表示，将错误上下文与可执行语义天然耦合。
瓶颈感知知识检索模块采用二维检索范式，将查询投影到句法空间和硬件对齐语义空间。
效果驱动知识蒸馏模块通过大语言模型语义仲裁，基于实际执行反馈持续修剪错误并消除冗余。
真实NPU工作负载评估中，生成准确率提升49.4%至80.0%，执行速度提升最高2.2倍。

意义与影响

Hawk填补了大型语言模型在NPU硬件约束处理上的关键空白，通过硬件感知知识的系统性利用，有望显著降低高性能NPU内核开发的成本和风险。这为自动化AI系统开发提供了新的可行路径，尤其在边缘计算和智能硬件领域，其2.2倍的执行速度提升将直接惠及实际部署场景，推动NPU相关技术的进一步普及与优化。

查看原文 →arxiv.org

Hawk框架解决NPU内核生成硬件难题，训练无需完美性能提升2.2倍

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐