AI 资讯Hacker News·12 天前

GPU上的矩阵乘法在输入“可预测”数据时运行更快

原标题：Matrix Multiplications on GPUs Run Faster When Given "Predictable" Data (2024)

速览

最新研究表明，当输入数据具有可预测性时，GPU上的矩阵乘法运算速度会显著加快。这一发现揭示了数据特性对硬件执行效率的潜在影响。该成果有助于优化深度学习等依赖大规模矩阵运算的应用性能。

AI 深度解读

矩阵乘法在 GPU 上运行更快，当输入数据具有“可预测性”时

背景

在高性能计算领域，尤其是深度学习框架中，矩阵乘法（Matrix Multiplication, MatMul）是最核心的运算之一。NVIDIA 的 CUDA 基础线性代数子程序（CuBLAS）和 CUTLASS 等库经过高度优化，旨在最大化 GPU 的浮点运算性能（FLOPS）。

2022年，一位开发者在测试 CUTLASS 这一新兴的高性能矩阵乘法库时，发现了一个令人困惑的现象：在命令行 profiler 中，CUTLASS 的表现比 CuBLAS 高出 10%。然而，当通过 Python 绑定进行实际基准测试时，这种优势消失了。经过细致的消融实验（ablation study），作者发现 CUTLASS 的 profiler 默认使用整数初始化输入，而 Python 脚本默认使用随机数。进一步测试表明，输入矩阵的具体数值分布（如全零、全一、正态分布等）竟然会显著影响矩阵乘法的运行速度和 GPU 功耗。这一发现挑战了传统的计算机体系结构认知，即矩阵乘法的计算量、内存访问模式是固定的，不应受数据内容影响。

核心内容

1. 异常现象的发现与排查

作者首先使用 PyTorch 调用 CuBLAS 对一个 $8192 \times 8192 \times 8192$ 的大矩阵进行基准测试，得到 258 Teraflops 的性能，利用率约为 83%。随后，使用 CUTLASS 的命令行 profiler 测试相同规模矩阵，性能达到 288 Teraflops，高出约 10%。

为了复现这一结果，作者将 CUTLASS 内核绑定到 Python 中进行对比测试，结果 CUTLASS 的性能降至 257 Teraflops，与 CuBLAS 持平。作者怀疑是 Python 绑定的开销或基准测试设置不一致导致的。经过 tedious 的代码剥离和变量控制，作者发现 CUTLASS 的 profiler 默认将输入矩阵初始化为整数（实际上接近全零或简单模式），而 Python 脚本默认使用 torch.randn（正态分布随机数）。

2. 数据分布对性能的影响

作者进一步测试了不同数据分布对性能的影响：

全零输入 (torch.zeros)：性能达到 295 Teraflops，显著高于随机输入。
正态分布随机输入 (torch.randn)：性能为 257 Teraflops。

这引发了一个根本性的疑问：矩阵乘法是确定性的线性代数运算，无论矩阵内容如何，它执行的计算次数、顺序、内存访问地址和顺序都是完全相同的。为什么数据值会影响运行时性能？

3. 根本原因：动态功耗与频率调节

作者指出，罪魁祸首是半导体中的动态功耗（Dynamic/Switching Power）。

静态功耗 vs. 动态功耗：
- 静态功耗（Leakage Power）：即使电路不通电或处于空闲状态，由于漏电流也会消耗功率。这与硅片通电面积成正比。例如，NVIDIA A100 GPU 在完全空闲时功耗约为 88W。
- 动态功耗（Switching Power）：当晶体管状态发生翻转（从 0 变 1 或从 1 变 0）时消耗的能量。晶体管翻转越频繁，动态功耗越高。GPU 拥有数十亿个晶体管，微小的翻转累积起来会导致巨大的功耗增加。
功耗墙（Power Wall）与节流（Throttling）： NVIDIA A100 的功耗限制（Power Limit）通常为 400W。当 GPU 负载增加时，功耗会飙升。为了不超过功耗限制，芯片上的电压调节模块（VRM）会降低供给电压，进而降低时钟频率（Clock Frequency），导致性能下降。
数据内容与功耗的关系：
- 全零输入：计算过程中，累加器始终保持为零，晶体管状态几乎不发生翻转，动态功耗极低，GPU 可以维持最高时钟频率。
- 全一输入：虽然也有翻转，但模式固定，可能比随机数据稍快。
- 正态分布：数据随机性高，导致涉及计算的晶体管频繁翻转，动态功耗高，容易触发功耗限制，从而降低时钟频率，导致性能下降。

4. 不同数据分布的性能对比

作者测试了多种有趣的数据分布，结果如下：

Zeros（全零）：最快，因为几乎没有晶体管翻转。
Twos（全2）：非常快，模式固定。
All Pies（全PI）：由于 PI 的二进制表示固定，性能也较好。
Ternary（三值：1, -1, 0）：性能中等。
Rand（均匀分布 [0,1]）：比正态分布稍快，因为累加器不需要在正负值之间频繁翻转（符号位变化较少）。
Randn（正态分布）：性能最差，因为数据随机性最高，导致晶体管翻转最频繁。
Sparse（稀疏，75% 掩码）：有趣的是，即使是非结构化稀疏，在 Tensor Core 上也能保持较高效率。
One Bit（每值仅第4位为1）：特定模式下的性能表现。
Checkerboard（棋盘格模式）：在正态分布基础上加入零值棋盘格。

5. 功耗限制与时钟频率的交互实验

为了验证动态功耗是主因，作者进行了两组控制变量实验：

实验一：降低功耗限制（Power Limit） 作者将 A100 的功耗限制从 330W 逐步降低到 100W（最低值）。
- 随着功耗限制降低，使用“可预测输入”（如全零）相对于“不可预测输入”（如 randn）的性能优势显著增加。
- 在最低功耗限制（100W）时，趋势反转。作者推测，此时 GPU 功耗约束过严，即使使用全零输入，其他非计算相关的晶体管（如程序计数器、循环计数器、信号传输等）的功耗也可能导致触发节流。评论者 Uma Kelkar 指出，降低功耗限制本身也会直接限制时钟频率。
实验二：降低时钟频率（Clock Speed） 作者固定功耗限制为 200W，并手动降低 GPU 的时钟频率上限。
- 在高频率下，即使使用可预测输入，GPU 仍可能因其他因素触发功耗节流，因此性能差异不大。
- 随着时钟频率降低，可预测输入的性能优势缩小。
- 在极低频率下，两者性能相同。因为此时性能完全受限于手动设置的时钟频率上限，不再受动态功耗引起的自动节流影响。

关键要点

数据内容影响性能：在 GPU 上进行矩阵乘法时，输入数据的数值分布会影响运行速度。全零或模式固定的数据比随机数据（如正态分布）运行更快。
核心机制是动态功耗：这种现象并非源于计算逻辑或内存访问差异，而是源于半导体晶体管的动态/开关功耗。数据值的随机性导致晶体管状态翻转频率不同，进而影响总功耗。
功耗墙导致频率调节：当动态功耗过高时，GPU 会触发功耗保护机制，降低时钟频率以维持功耗在限制范围内。随机数据更容易触发这一机制，导致性能下降。
可预测数据优势随功耗限制收紧而扩大：在严格的功耗限制下，使用可预测数据（低翻转率）能更好地维持高时钟频率，从而获得显著的性能优势。
非计算组件也消耗功耗：即使输入数据全零，GPU 中用于控制逻辑（如程序计数器、循环控制）的晶体管仍在翻转并消耗功耗。因此，在极端低功耗限制下，全零输入也可能无法避免节流。
基准测试需谨慎：在进行 GPU 性能基准测试时，输入数据的初始化方式（如全零 vs

查看原文 →thonking.ai