Apple Silicon上最佳LLM推理运行时BaseRT发布
速览
BaseRT是一款原生Metal架构的LLM推理运行时,专为苹果硅上优化设计,能通过芯片专用内核融合、统一内存感知优化和自定义调度逻辑,显著提升推理性能。相比llama.cpp和MLX等框架方法,BaseRT在Qwen3、Llama 3.2、Gemma 4等模型上(Q4和Q8量化,M3和M4 Pro设备)实现了最高1.56倍解码吞吐量和更大预填充优势,覆盖从小于1B到30B参数模型,支持八种量化格式。论文还指出,BaseRT让苹果硅成为更强大的推理平台,对边缘AI推理向本地部署的趋势具有重要意义。
AI 深度解读
## 背景
AI 推理需求呈现爆炸式增长,2025 年以来主要云服务提供商的 token 使用量已呈数量级增长。全球推理算力预计将在 2027 年首次超过训练算力,到 2030 年将占数据中心总算力的 40%。这一趋势对集中式云基础设施的扩展性构成重大压力,促使企业和服务转向本地化部署模式。
隐私需求、延迟约束和云成本压力共同推动推理向边缘计算转移。Apple Silicon 凭借其高带宽统一内存架构,成为本地 LLM 推理的重要硬件平台。现代 M 系列设备可高效运行量化后的 7B–70B 参数模型,显著降低能耗并支持离线环境。
现有 LLM 推理运行时在 Apple Silicon 上存在架构限制:llama.cpp 原生为跨平台 CPU 设计并扩展 Metal 后端,MLX 作为通用数组框架引入延迟评估和框架级调度开销。这些抽象层未针对 Metal 执行模型或 Apple Silicon 统一内存拓扑进行优化,导致性能潜力被浪费。
## 核心内容
BaseRT 是一个原生 Metal 推理运行时,专为 Apple Silicon 设计,无任何中间框架依赖。它直接构建于 Apple 的 Metal GPU API,使用芯片特定内核融合、统一内存感知优化和自定义调度逻辑。运行时支持从 Q2 到 FP16 的八种量化格式,在所有 Apple M 系列设备上运行广泛的模型族,包括 LLaMA、Qwen3、Gemma、Whisper 和 BERT。
运行时核心设计围绕四个原则展开:
- 数据驱动架构描述符:所有架构差异(如激活、归一化、MoE 细节、注意力与位置编码)以紧凑数据结构表达,而非控制流编码。核心引擎始终保持相同热路径,无分支。
- 零分配解码循环:加载完成后,解码循环不分配任何内存。残差、注意力、前馈、logits 和 token 缓冲区、KV 缓存均在加载时预分配,并以优化合并访问的布局复用。错误处理也使用静态线程本地缓冲。
- 内核融合与专用化:手写 Metal 着色器库覆盖矩阵乘、注意力、归一化、RoPE、嵌入、激活和采样类别。矩阵乘核集成反量化到内循环,避免全局内存材料化。注意力路径和前馈块中的算子序列进行融合,每个融合消除一次内核启动和一次全局内存往返。内核选择基于 GPU 核心数和芯片家族的硬件自适应配置。
- Prefill 处理:采用 GEMM(而非 GEMV)对 [seq_len × dim] 张量进行分块处理,使用 simdgroup_matrix 内在函数和分块最大大小限制。注意力使用在线 softmax 的分块 FlashAttention,内存复杂度为 O(n) 而非 O(n²)。
此外,BaseRT 引入两项 CPU 热路径创新:低开销命令调度移除每算子调度、分配和图评估开销;解码调度跨多个生成 token 摊销 CPU-GPU 同步。
## 关键要点
- BaseRT 在 Apple M4 Pro 上对 Qwen3、Llama 3.2 和 Gemma 4 模型族(Q4 和 Q8 量化)的解码吞吐量达到 1.04–1.56 倍优于 llama.cpp,1.01–1.35 倍优于 MLX;MoE 模型的 Prefill 吞吐量领先更大(最高 1.81 倍)。
- 优势在小模型和 Q4 量化中更显著,因固定 per-token 开销占比高;大模型解码趋向内存带宽限制,优势缩小。
- 跨 M3 和 M4 Pro 平台保持一致性,证实优化在不同芯片世代的通用性。
- 与 uzu(另一原生 Metal 运行时)相比,BaseRT 在解码上仍领先(小模型优势明显)。
- 支持从 sub-1B 到 30B 参数模型,量化格式覆盖 Q2–FP16,适用于所有 M 系列设备。
## 意义与影响
BaseRT 确立 Apple Silicon 为本地 LLM 推理的新性能基准,超越先前报告的任何运行时。这直接验证了统一内存架构和 Metal API 的潜力,框架抽象层确实造成可测量开销。
对边缘推理范式具有深远意义:隐私要求、延迟约束和云成本压力正加速推理向本地部署转移。优化后的本地运行时成为关键基础设施,推动隐私保护、实时交互和低能耗的 AI 应用落地。BaseRT 作为开源项目,将加速开发者在 Apple 硬件上构建高性能 LLM 应用,缩小云本地性能差距,并为未来多后端扩展奠定基础。
