技术博客arXiv cs.AI·2 天前

基于阈值的独占批处理优化大模型推理性能

原标题：Threshold-Based Exclusive Batching for LLM Inference

速览

混合批处理虽能最大化资源利用，但预填充与解码的干扰会导致边际成本上升，且受GPU内存带宽影响显著。研究推导出了独占批处理与混合批处理的性能交叉条件，并提出了动态切换的混合调度器EB+。实验表明，在带宽受限的GPU上，优化后的独占批处理吞吐量提升达41.9%，而混合调度器在非平稳流量下始终表现优异。

AI 深度解读

基于阈值的独占批处理：LLM 推理的新优化策略

背景

在大语言模型（LLM）的推理服务中，调度策略直接决定了系统的吞吐量和资源利用率。目前，混合批处理（Mixed Batching, MB） 已成为行业标准。MB 的核心思想是将“预填充（Prefill）”和“解码（Decode）”阶段交错安排在同一个批次中。这种策略旨在最大化 GPU 的计算和内存利用率，通过并行处理不同阶段的请求来掩盖延迟。

然而，随着硬件架构的多样化和模型规模的扩大，MB 的普适性受到挑战。预填充阶段通常涉及大量的矩阵乘法计算，而解码阶段则是自回归生成，每一步只生成一个 token。当两者混合时，会产生显著的“预填充-解码干扰（prefill-decode interference）”。这种干扰可能导致每步的边际成本上升，从而抵消混合批处理带来的效率优势。

本文通过受控实验发现，MB 的优势并非在所有硬件上都成立。它高度依赖于 GPU 的内存带宽、模型大小以及工作负载的组成。特别是在内存带宽受限的硬件上，MB 的性能可能劣于传统的独占批处理（Exclusive Batching, EB）——即在一个批次中只处理预填充或只处理解码阶段。

核心内容

1. 预填充-解码干扰与硬件依赖

研究团队通过受控实验量化了预填充-解码干扰的影响。实验表明，这种干扰会导致 MB 的每步边际成本高于纯解码批处理。这种效应的显著程度与 GPU 的内存带宽密切相关：

高带宽场景（如 NVIDIA H200，带宽 4.8 TB/s）：只有当解码 token 数量超过批次总量的 80% 时，干扰才会导致 MB 性能下降。在高带宽下，数据搬运不是瓶颈，计算并行性可以很好地掩盖干扰。
带宽受限场景（如 NVIDIA RTX PRO 6000，带宽 1.792 TB/s）：阈值急剧下降至仅 20%。这意味着在带宽受限的硬件上，只要批次中包含少量解码 token，混合批处理的效率就会显著降低。

这一发现揭示了一个关键结论：MB 和 EB 之间的最优选择，根本上取决于 GPU 内存带宽、模型大小 和 工作负载组成。

2. EB-MB 性能交叉点的闭式解

为了指导实际部署，作者推导出了 EB 和 MB 性能交叉点（crossover point）的闭式条件（closed-form condition）。该条件提供了在特定硬件和模型配置下，何时切换批处理策略的理论依据。

此外，研究还提出了：

渐近最优的相位切换阈值（asymptotically optimal phase-switching thresholds）：用于确定从预填充阶段切换到解码阶段的最佳时机。
内存安全的批次大小（memory-safe batch sizing）：确保在 EB 模式下，批次大小既不会导致内存溢出，又能最大化吞吐量。

3. 混合调度器 EB+ 的设计与表现

基于上述理论，作者设计了一种名为 EB+ 的混合调度器。EB+ 能够在线应用上述性能交叉条件，动态地在 EB 和 MB 之间切换，无需人工干预。

在评估中，EB+ 展现了显著优势：

带宽受限 GPU：优化的 EB 策略可使吞吐量提高高达 41.9%。
高带宽硬件与大模型：MB 仍然保持优势，EB+ 会智能选择 MB。
非平稳流量环境：在分布或并发量发生变化的非平稳流量下，EB+ 在每种设置下都达到了最高或接近最高的吞吐量，比纯 MB 调度器性能高出高达 36.4%。

关键要点

MB 并非万能：混合批处理（MB）虽然是目前 LLM 推理的标准策略，但其优势受限于硬件内存带宽。在带宽受限的 GPU 上，预填充-解码干扰会显著增加每步边际成本。
硬件决定策略：
- 在高带宽 GPU（如 H200）上，MB 在解码 token 占比高时依然有效。
- 在带宽受限 GPU（如 RTX PRO 6000）上，MB 在解码 token 占比超过 20% 时就可能劣于独占批处理（EB）。
理论贡献：作者提供了 EB 与 MB 性能交叉点的闭式解，以及渐近最优的相位切换阈值和内存安全的批次大小计算方法。
EB+ 调度器：提出的 EB+ 调度器能够根据实时工作负载和硬件特性，动态切换 EB 和 MB 模式。
性能提升：
- 在带宽受限 GPU 上，EB 策略可实现高达 41.9% 的吞吐量提升。
- 在非平稳流量场景下，EB+ 相比纯 MB 调度器性能提升高达 36.4%，且始终保持在最优或接近最优水平。
适用性：对于大模型和高带宽硬件，MB 仍具优势；但对于中小模型或带宽受限的部署环境，EB 或其混合策略 EB+ 是更优选择。

意义与影响

这项研究对 LLM 推理系统的工程实践具有重要的指导意义：

打破“混合批处理即最优”的迷思：长期以来，业界倾向于默认使用 MB 以最大化并行度。本研究通过严谨的实验和理论推导，证明了在特定硬件条件下，EB 可能更高效。这促使工程师在部署 LLM 服务时，必须根据具体的 GPU 型号（特别是内存带宽）和工作负载特征来选择调度策略，而非一刀切。
推动自适应调度器的发展：EB+ 调度器的提出展示了动态调度在应对非平稳流量时的价值。在现实世界中，用户请求的并发量和分布往往是动态变化的。能够在线自适应切换批处理策略的系统，能够更稳定地提供高吞吐量服务，降低运营成本。
为硬件选型提供依据：研究结果强调了内存带宽在 LLM 推理中的关键作用。对于追求极致吞吐量的场景，高带宽 GPU（如 H200）的优势更为明显；而对于成本敏感或带宽受限的场景，采用 EB 策略可以显著弥补硬件短板。这为云服务商和企业在硬件采购和架构设计上提供了数据支持。
理论指导实践：提供的闭式解和阈值计算方法，使得调度策略的选择不再依赖经验试错，而是可以基于数学模型进行精确预测和优化，提升了推理系统的可预测性和可靠性。

查看原文 →arxiv.org