← 返回信息流
技术博客arXiv cs.CL·3 小时前

Rigel逆向解析M4 Max GPU中Metal 4.1张量计算路径

原标题:Rigel: Reverse-Engineering the Metal 4.1 Tensor Compute Path on the Apple M4 Max GPU

速览

研究团队通过Rigel工具逆向分析了Apple M4 Max GPU上的Metal 4.1张量计算路径。发现其fp8矩阵乘法并非硬件加速,而是由GPU着色器核心模拟执行,性能甚至低于fp16。该研究还还原了底层碎片布局,并证明手动融合内核可显著提升性能。

AI 深度解读

AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org