技术博客arXiv cs.CL·23 小时前

Apple Silicon上最佳LLM推理运行时BaseRT发布

原标题：BaseRT: Best-in-Class LLM Inference on Apple Silicon via Native Metal

速览

BaseRT是一款原生Metal架构的LLM推理运行时，专为苹果硅上优化设计，能通过芯片专用内核融合、统一内存感知优化和自定义调度逻辑，显著提升推理性能。相比llama.cpp和MLX等框架方法，BaseRT在Qwen3、Llama 3.2、Gemma 4等模型上（Q4和Q8量化，M3和M4 Pro设备）实现了最高1.56倍解码吞吐量和更大预填充优势，覆盖从小于1B到30B参数模型，支持八种量化格式。论文还指出，BaseRT让苹果硅成为更强大的推理平台，对边缘AI推理向本地部署的趋势具有重要意义。

AI 深度解读

## 背景

AI 推理需求呈现爆炸式增长，2025 年以来主要云服务提供商的 token 使用量已呈数量级增长。全球推理算力预计将在 2027 年首次超过训练算力，到 2030 年将占数据中心总算力的 40%。这一趋势对集中式云基础设施的扩展性构成重大压力，促使企业和服务转向本地化部署模式。

隐私需求、延迟约束和云成本压力共同推动推理向边缘计算转移。Apple Silicon 凭借其高带宽统一内存架构，成为本地 LLM 推理的重要硬件平台。现代 M 系列设备可高效运行量化后的 7B–70B 参数模型，显著降低能耗并支持离线环境。

现有 LLM 推理运行时在 Apple Silicon 上存在架构限制：llama.cpp 原生为跨平台 CPU 设计并扩展 Metal 后端，MLX 作为通用数组框架引入延迟评估和框架级调度开销。这些抽象层未针对 Metal 执行模型或 Apple Silicon 统一内存拓扑进行优化，导致性能潜力被浪费。

## 核心内容

BaseRT 是一个原生 Metal 推理运行时，专为 Apple Silicon 设计，无任何中间框架依赖。它直接构建于 Apple 的 Metal GPU API，使用芯片特定内核融合、统一内存感知优化和自定义调度逻辑。运行时支持从 Q2 到 FP16 的八种量化格式，在所有 Apple M 系列设备上运行广泛的模型族，包括 LLaMA、Qwen3、Gemma、Whisper 和 BERT。

运行时核心设计围绕四个原则展开：

数据驱动架构描述符：所有架构差异（如激活、归一化、MoE 细节、注意力与位置编码）以紧凑数据结构表达，而非控制流编码。核心引擎始终保持相同热路径，无分支。
零分配解码循环：加载完成后，解码循环不分配任何内存。残差、注意力、前馈、logits 和 token 缓冲区、KV 缓存均在加载时预分配，并以优化合并访问的布局复用。错误处理也使用静态线程本地缓冲。
内核融合与专用化：手写 Metal 着色器库覆盖矩阵乘、注意力、归一化、RoPE、嵌入、激活和采样类别。矩阵乘核集成反量化到内循环，避免全局内存材料化。注意力路径和前馈块中的算子序列进行融合，每个融合消除一次内核启动和一次全局内存往返。内核选择基于 GPU 核心数和芯片家族的硬件自适应配置。
Prefill 处理：采用 GEMM（而非 GEMV）对 [seq_len × dim] 张量进行分块处理，使用 simdgroup_matrix 内在函数和分块最大大小限制。注意力使用在线 softmax 的分块 FlashAttention，内存复杂度为 O(n) 而非 O(n²)。

此外，BaseRT 引入两项 CPU 热路径创新：低开销命令调度移除每算子调度、分配和图评估开销；解码调度跨多个生成 token 摊销 CPU-GPU 同步。

## 关键要点

BaseRT 在 Apple M4 Pro 上对 Qwen3、Llama 3.2 和 Gemma 4 模型族（Q4 和 Q8 量化）的解码吞吐量达到 1.04–1.56 倍优于 llama.cpp，1.01–1.35 倍优于 MLX；MoE 模型的 Prefill 吞吐量领先更大（最高 1.81 倍）。
优势在小模型和 Q4 量化中更显著，因固定 per-token 开销占比高；大模型解码趋向内存带宽限制，优势缩小。
跨 M3 和 M4 Pro 平台保持一致性，证实优化在不同芯片世代的通用性。
与 uzu（另一原生 Metal 运行时）相比，BaseRT 在解码上仍领先（小模型优势明显）。
支持从 sub-1B 到 30B 参数模型，量化格式覆盖 Q2–FP16，适用于所有 M 系列设备。

## 意义与影响

BaseRT 确立 Apple Silicon 为本地 LLM 推理的新性能基准，超越先前报告的任何运行时。这直接验证了统一内存架构和 Metal API 的潜力，框架抽象层确实造成可测量开销。

对边缘推理范式具有深远意义：隐私要求、延迟约束和云成本压力正加速推理向本地部署转移。优化后的本地运行时成为关键基础设施，推动隐私保护、实时交互和低能耗的 AI 应用落地。BaseRT 作为开源项目，将加速开发者在 Apple 硬件上构建高性能 LLM 应用，缩小云本地性能差距，并为未来多后端扩展奠定基础。

查看原文 →arxiv.org

Apple Silicon上最佳LLM推理运行时BaseRT发布

速览

AI 深度解读

相关推荐