AI 资讯Hacker News·2 小时前

Intel发布AI计算扩展ACE规范

原标题：[x86] AI Compute Extensions (ACE) Specification

速览

Intel发布了AI计算扩展（ACE）规范，这是一项旨在提升x86架构AI性能的关键技术。该规范定义了新的指令集和架构特性，专门用于优化大规模并行计算任务。此举有助于在通用处理器上更高效地运行深度学习模型，降低AI部署成本。

AI 深度解读

[x86] AI计算扩展 (ACE) 规范深度解读

背景

随着人工智能（AI）和机器学习（ML）工作负载的爆炸式增长，传统通用处理器架构在应对大规模矩阵运算时逐渐显露出瓶颈。虽然现有的 x86 指令集（如 AVX）已经提供了强大的向量处理能力，但在特定的深度学习场景中，其效率仍有提升空间。

在此背景下，Intel 提出了 AI Compute Extensions (ACE) 规范。该规范旨在为 x86 架构引入专门的扩展指令，以加速计算密集型任务。ACE 的初始设计重点在于优化矩阵乘法内核（Matrix Multiplication Kernels）以及支持机器学习工作负载中至关重要的低精度数据格式。这一举措标志着 x86 架构正从单纯的通用计算向更加专业化、针对 AI 优化的方向演进，试图在保持 x86 生态兼容性的同时，缩小与专用 AI 加速器之间的性能差距。

核心内容

ACE 规范定义了一系列矩阵乘法原语，旨在通过新增功能来增强现有的 AVX（Advanced Vector Extensions）和标量代码处理能力。具体而言，ACE 引入了以下核心机制：

ACE 寄存器状态管理：新增了专门的寄存器状态，包括 Tile（瓦片） 寄存器和 Block Scale（块缩放） 寄存器。这些寄存器专门用于存储和处理大规模矩阵数据块，以支持高密度的并行计算。
数据处理操作：定义了新的数据处理指令，这些指令能够消耗 AVX 寄存器的输入数据，并在 ACE 寄存器状态（即 Tile 寄存器）上执行操作。这种设计允许在向量数据和矩阵瓦片数据之间进行高效的混合运算。
数据移动操作：提供了专门的数据移动指令，用于在 ACE 寄存器状态（Tile 寄存器）与 AVX 寄存器之间传输数据。这确保了数据可以在不同的计算域之间无缝流动，避免了不必要的内存拷贝或格式转换开销。
系统管理与状态操作：包含用于系统管理和状态控制的指令，确保 ACE 扩展在操作系统和底层硬件层面的稳定运行与安全隔离。

ACE 的核心设计理念是实现 AVX 向量 与 ACE Tile 寄存器 之间的紧密集成。这种集成将高计算密度的 Tile 处理操作与 AVX 全面的数据处理功能结合在一起，从而在单个指令集中兼顾了灵活性与吞吐量。

此外，除了矩阵加速功能外，ACE 还在 AVX10 框架下提供了一系列专用的格式转换操作。这对于处理机器学习模型中常见的低精度数据类型（如 FP8、INT8 等）至关重要，能够显著减少数据预处理的时间开销。

关键要点

针对性优化：ACE 并非通用的新指令集，而是专门针对矩阵乘法内核和 ML 工作负载中的低精度数据格式进行优化。
混合架构设计：ACE 不取代 AVX，而是与之互补。它通过新增 Tile 和 Block Scale 寄存器，与现有的 AVX 向量寄存器形成协同工作关系。
紧密集成：规范强调 AVX 向量与 ACE Tile 寄存器之间的紧密集成，旨在结合两者优势：AVX 提供全面的数据处理能力，ACE 提供高计算密度的矩阵处理能力。
数据流转效率：通过专门的数据移动指令，优化了 ACE 寄存器与 AVX 寄存器之间的数据交换效率，减少了计算瓶颈。
AVX10 框架支持：ACE 的功能扩展依托于 AVX10 框架，该框架还包含了针对特定数据格式的专用转换操作，进一步提升了 ML 数据处理的效率。

意义与影响

ACE 规范的提出对 x86 生态系统和 AI 计算领域具有深远的影响：

提升 x86 在 AI 领域的竞争力：通过引入专门的矩阵加速指令，x86 处理器在处理大规模深度学习训练和推理任务时将具备更强的原生支持能力，减少对专用 AI 芯片（如 NPU 或 TPU）的过度依赖，降低系统复杂度和成本。
优化软件栈效率：ACE 提供的 Tile 寄存器和专用格式转换操作，使得编译器可以生成更高效的机器码，直接利用硬件特性进行低精度数据处理，从而提升整体应用的性能和能效比。
推动标准化进程：作为 x86 架构的一次重要扩展，ACE 规范有助于统一 AI 加速指令的标准，促进开发者社区围绕 x86 平台构建更丰富的 AI 工具链和库，进一步巩固 x86 在服务器和边缘 AI 计算中的地位。
促进低精度计算普及：通过 AVX10 框架下的专用格式转换操作，ACE 降低了使用低精度数据类型（如 FP8）进行计算的门槛，有助于推动更高效的量化模型在实际生产环境中的部署。

查看原文 →x86ecosystem.org