在标准 GPU 上实现实时 LLM 推理:每请求 3k tokens/s
速览
该技术展示了在标准 GPU 硬件上实现高性能实时大语言模型推理的能力。单请求吞吐量达到每秒 3000 个 token,显著提升了响应速度。这为降低大模型部署成本和提高并发处理能力提供了新的解决方案。
AI 深度解读
Real-time LLM Inference on Standard GPUs: 3k tokens/s per request 深度解读
背景
在大型语言模型(LLM)的应用场景中,尤其是随着 AI Agent(智能体)的兴起,推理性能的评价指标正在发生根本性的转变。传统的推理基准测试通常混淆了三个关键指标:总吞吐量(Aggregate Throughput)、首字延迟(Time to first token)以及单请求解码速度(Decode speed per request)。
过去,服务器端推理主要追求高并发下的总吞吐量,这通常通过增大 Batch Size(批处理大小)来实现。然而,对于自主运行的 AI Agent 而言,其工作流(如代码生成、调试、规划)是高度序列化的。每一步都依赖于上一步的结果,且涉及大量的工具调用和迭代。在这种场景下,决定用户体验和产品可行性的核心指标不再是“服务器每秒能处理多少用户”,而是“单个用户等待完整响应的时间”。
Kog AI 推出的 Kog Inference Engine (KIE) 技术预览版,旨在解决这一痛点。它证明了在标准的数据中心 GPU 硬件上,通过全栈优化,单请求的解码速度可以达到每秒 3,000 个 token,这一速度甚至接近专用推理硬件卡的性能。
核心内容
1. 性能表现与技术预览
Kog AI 发布了 KIE 的技术预览版,其核心性能指标如下:
- AMD MI300X 集群:在 8 张 AMD MI300X GPU 上,单请求输出速度达到 3,000 tokens/s。
- NVIDIA H200 集群:在 8 张 NVIDIA H200 GPU 上(FP16 精度,无投机解码),单请求输出速度达到 2,100 tokens/s。
- 当前模型:预览版运行的是一个 2B 参数的模型。
- 未来支持:即将支持大型第三方 MoE(混合专家)模型,并保持相似的速度。
2. 为什么单请求解码速度至关重要?
AI Agent 的工作流是一个串行循环:检查(Inspect)、规划(Plan)、编辑(Edit)、测试(Test)、修订(Revise)。
- 串行依赖:每个步骤都依赖前一步的输出。
- 生成密集型步骤:虽然测试运行和网页加载占用时间,但规划、代码编写、追踪分析和调试等生成密集型步骤决定了整个循环的节奏。
- 体验差异巨大:如果一个工作流需要生成 50,000 个 token:
- 在 100 tokens/s 的速度下,耗时约 8 分钟。
- 在 3,000 tokens/s 的速度下,耗时不到 20 秒。
- 这种差异直接决定了产品的可用性和用户生产力边界。随着 Agent 自主性增强,生产力前沿从单纯的“智能”转向“智能 × 迭代速度”。
3. 瓶颈分析:内存带宽而非计算能力
在 Batch Size 为 1 的情况下,自回归解码的主要负载是矩阵-向量运算(Matrix-Vector)。
- 算术强度低:对于每个生成的 token,模型的所有活跃权重必须从 HBM(高带宽内存)传输到计算处理器。在 FP16 精度下,模型权重占 2 字节,贡献约 1 次乘加运算(2 FLOPs),即算术强度约为 1 FLOP/byte。
- 内存带宽限制:现代 AI GPU 的峰值 FLOPs 与 HBM 带宽之比极高(例如 NVIDIA H200 约为 400 FLOPs/byte)。因此,token 生成速度在达到计算瓶颈之前,首先受限于内存带宽。
- 关键指标:对于单请求解码,内存带宽利用率(MBU) 是核心指标,而非模型 FLOP 利用率(MFU)。MFU 的提升通常依赖于增加 Batch Size,但这会增加单个用户的延迟。
4. 理论上限与硬件潜力
以 2B 参数的密集模型(FP16)为例,其活跃权重约为 4 GB。假设理想情况下权重能完美流式传输(忽略 KV Cache 流量和缓存未命中),理论速度上限为:
- 8× H200:有效聚合内存带宽约 30.7 TB/s,理论上限约 7,700 tokens/s。
- 8× MI300X:有效聚合内存带宽约 33.6 TB/s,理论上限约 8,400 tokens/s。
对于 MoE 模型:
- 4B 活跃参数的 FP8 MoE 模型在 Batch Size 1 下也可达到相同速度。
- 32B 活跃参数的 FP4 MoE 模型理论上限约为 2,000 tokens/s。
下一代 GPU(如 NVIDIA Rubin 和 AMD MI450,预计 2026 年上半年发布)将提供约 4 倍的内存带宽,这将允许使用更少的 GPU 或支持更大的模型达到相同的解码速度。
5. 软件栈的瓶颈与优化策略
在 3,000 tokens/s 的速度下,每个 token 的时间预算约为 333 微秒(包含所有层、LM Head 和采样)。
- 传统栈的缺陷:基于 PyTorch、Triton 等高层框架的推理引擎(如 vLLM、SGLang、TensorRT-LLM)通常将计算分解为许多内核(Kernels),由 CPU 运行时调度,并在内核边界进行同步。这种抽象虽然灵活且易于维护,但引入了巨大的开销。
- 开销计算:如果一次内核启动和清理成本约为 4.5 微秒(在 AMD MI300X 上测得),一个 25 层的 Transformer 模型每层启动 10 个内核,仅内核启动开销就高达 1,125 微秒,远超 333 微秒的时间预算。
- Kog 的策略:为了实现极低延迟,Kog 采用了架构、运行时和底层 GPU 代码的协同设计(Co-design),将模型架构、运行时和低层 GPU 代码作为一个单一的延迟优化管道进行设计,以最大化内存流的连续性,减少同步和非 GEMM 操作的停顿。
关键要点
- 性能突破:Kog AI 在 8× AMD MI300X 上实现单请求 3,000 tokens/s,在 8× NVIDIA H200 上实现 2,100 tokens/s,接近专用推理硬件速度。
- Agent 驱动需求:AI Agent 的串行工作流使得单请求解码速度成为决定产品体验的关键指标,而非传统的总吞吐量。
- 内存带宽是核心瓶颈:在低 Batch Size 下,推理速度受限于内存带宽(MBU),而非计算能力(FLOPS)。
- 硬件潜力巨大:标准数据中心 GPU 集群的理论解码速度上限远高于当前软件栈所能达到的速度(例如 2B 模型在 H200 集群上理论可达 7,700 tokens/s)。
- 软件栈优化是关键:传统推理引擎的内核启动和同步开销在毫秒级延迟预算下是不可接受的。Kog 通过全栈协同设计(架构+运行时+内核)来消除这些开销。
- 未来展望:下一代 GPU 将提供 4 倍内存带宽,进一步降低对专用硅片的依赖,使标准 GPU 能够以更低成本支持更大模型的实时推理。
意义与影响
Kog AI 的这一技术预览具有重要的行业意义,它挑战了“高性能推理必须依赖专用 ASIC 硬件”的传统观点。
- 降低部署门槛与锁定风险:通过证明在标准数据中心 GPU(如 NVIDIA H200、AMD MI300X)上可以实现极致的单请求速度,企业无需购买昂贵的专有推理芯片即可实现高性能 AI Agent 部署。这避免了供应商锁定(Lock-in),并利用了现有的 GPU 基础设施。
- 重新定义推理优化方向:当前主流的推理引擎
