← 返回信息流
AI 资讯量子位·3 小时前

实测小米最快1T大模型:通用GPU实现每秒千Token吞吐

原标题:实测小米最快1T大模型:吞吐量每秒1000+ Tokens,Vibe Coding七秒交付

速览

该测试验证了小米1T大模型在通用GPU硬件上的高效性能。模型吞吐量达到每秒1000+ Tokens,显著提升了推理效率。在Vibe Coding场景下,代码交付仅需七秒,展现了强大的实时响应能力。

AI 深度解读

背景

在大模型技术发展的当下,行业竞争焦点正从单纯的“智商”(模型能力)向“推理速度”这一新战场转移。长期以来,业界存在一个看似不可能的三角:高速度、高智商(大参数/强能力)与通用硬件兼容性难以兼得。通常,追求极致推理速度(如 Groq 方案)往往依赖定制芯片,而依赖通用 GPU 的大模型则难以突破速度瓶颈,或者不得不通过削减参数量来换取速度,导致性能下降。

小米近期发布了 MiMo-V2.5-Pro-UltraSpeed 模型,作为 MiMo-V2.5-Pro 的高速版本,该模型拥有 1T 总参数,支持 1M 上下文窗口,并在单 API 推理速度上实现了 1000+ TPS(Tokens Per Second)的突破。这一成果旨在打破行业不可能三角,展示从模型层到引擎层的全链路推理优化能力。量子位对此进行了实测,验证其在 Vibe Coding(自然语言编程)及多 Agent 协同场景下的实际表现。

核心内容

1. 极致速度实测:Vibe Coding 与全栈开发

实测首先聚焦于模型在代码生成任务中的响应速度。

  • Web 应用生成:将 MiMo-V2.5-Pro-UltraSpeed 接入 Claude Code,要求生成一个包含多种模式切换、自动休息、音效提示及历史记录功能的网页版番茄钟应用。模型在提交任务后约 5 秒开始快速输出,最终在 7 秒内交付了 500 多行 HTML、CSS 和 JavaScript 代码。相比之下,使用轻量级模型 Claude Haiku 搭配低努力模式,最短仍需 40 多秒。
  • 吞吐量表现:在网页端测试中,输出阶段平均速度达到 1000+ TPS,峰值吞吐量在推理后阶段甚至飙升至 3300+。
  • 功能完整性:生成的代码功能完整,包括默认时长、自定义设置、Web Audio API 音效、自动模式切换及节奏提示,且配色符合 Linear 设计风格,证明高速并未以牺牲功能为代价。

2. 复杂任务验证:多 Agent 协同与逻辑深度

为了验证模型在高速下是否“降智”,测试进一步引入了更复杂的任务:

  • 局域网实时聊天室构建:使用 Hermes 环境,要求模型构建基于 Node.js + Express + WebSocket 的后端,支持多用户、频道切换、代码高亮、消息引用及 SQLite 持久化存储。模型迅速交付了完整代码及部署方案,运行效果显示所有功能(实时聊天、上下线提醒、格式显示、数据持久化)均正常运作。
  • 多 Agent 并行审阅剧本:构建了一个三 Agent 工作流,模拟资深剧本编辑带领三位分析师(故事结构、人物、市场)对电影大纲《候鸟不南飞》进行紧急联合审阅。
    • 并行处理:三个 Sub-agent 并行工作,分别审查三幕结构、人物动机与弧光、商业可行性。
    • 结果汇总:不到两分钟,三份意见汇总至主 Agent,主 Agent 综合判断并输出修订版大纲。
    • 深度洞察:结构分析师指出第二幕中点和转折点缺失;人物分析师发现主角缺乏主动欲望且配角陈默可删;市场分析师对标竞品并给出票房区间。主 Agent 据此补全了结构性缺口,深化了冲突层次。
    • 意义:1000+ TPS 的速度使得多 Agent 协同从理论可行变为实际流畅,避免了因节点延迟导致的流程断裂。

3. 全链路 Co-design 技术解析

小米通过模型层、引擎层、系统层的联合设计,实现了 1T 参数模型在通用 GPU 上的千级 TPS 推理。

  • 模型层优化

    • Hybrid SWA(混合滑动窗口注意力):解决 1M 超长上下文计算压力。将注意力机制分为两级,仅对最近上下文做精细计算,早期内容压缩后低成本参与后续步骤,计算量降至 Full Attention 的约 1/7。
    • FP4 量化:针对 Expert 模块引入 FP4 量化,将并行 Expert 参数压缩至 4bit,减小显存占用和读写压力。注意力模块和 Router 模块保持高精度,并通过量化感知训练最小化误差。
  • 引擎层优化

    • DFlash 方案:对传统 Speculative Decoding(投机解码)进行结构性改造。将草稿模型沿时间轴逐 token 串行生成改为对一整块位置同时并行加工。主模型对整批半成品集中审核,合格整体接入,不合格局部返工。草稿模型同样采用 SWA 架构并经专项训练,保证候选 token 的高合格率。
  • 系统层优化

    • 与 TileRT 团队协作:解决工序切换开销及小批量请求启停损耗。
    • Persistent Kernel(常驻内核):将关键步骤封装为长期驻留 GPU 的主计算线,避免反复冷启动。
    • Warp Specialization(线程束专化):实现数据搬运、批处理、结果输出三个环节并行运转,减少算力闲置。

关键要点

  • 性能突破:MiMo-V2.5-Pro-UltraSpeed 拥有 1T 参数和 1M 上下文,在通用 GPU 上实现单 API 1000+ TPS 推理速度,刷新旗舰模型全球最快推理速度记录。
  • 打破不可能三角:无需定制芯片,仅凭通用 GPU 即可兼顾大参数、高速度和高智商,解决了行业长期存在的性能瓶颈。
  • Vibe Coding 效率:在复杂 Web 应用生成任务中,7 秒交付 500+ 行代码,速度远超传统轻量级模型方案。
  • 多 Agent 协同价值:高吞吐量使得多 Agent 并行工作流无等待感,显著提升了复杂任务(如剧本联合审阅、全栈开发)的处理效率和逻辑深度。
  • 全链路优化架构
    • 模型层:Hybrid SWA 降低长上下文计算成本,FP4 量化减少带宽压力。
    • 引擎层:DFlash 方案实现并行投机解码,提升生成效率。
    • 系统层:常驻内核与线程束专化技术消除 GPU 执行路径上的闲置等待。
  • 商业化潜力:速度提升使得大模型能够进入对延迟敏感的高频场景,如毫秒级量化交易、实时反欺诈风控及广告 RTB 竞价。
  • 成本与复用:全链路优化能力可复用至后续模型及业务场景,随着通用 GPU 平台适配升级,速度优势可像滚雪球般扩大,单次推理成本摊薄。

意义与影响

小米 MiMo-V2.5-Pro-UltraSpeed 的发布标志着大模型推理技术从“拼参数”向“拼效率”的重要转折。其核心意义在于通过全链路 Co-design,证明了在通用硬件上实现极致推理速度与强大模型能力共存的可能性,从而系统性拆除大模型商业化路上的障碍。

在实际应用层面,这一突破将大模型的应用边界从“事后分析”拓展至“实时决策”。过去因延迟过高而无法接入的金融高频交易、实时风控、广告竞价等场景,如今具备了落地条件。同时,在日常生产力场景中,代码重构、复杂报告讨论等任务的等待时间从分钟级压缩至秒级,极大地提升了人机协作的流畅度与效率。

此外,这套全链路推理优化能力构成了小米的底层技术壁垒。随着小米自家模型迭代和业务场景的增加,该能力将被反复复用,形成规模效应,进一步降低推理成本并提升速度优势。结合小米近期开源模型登顶、MiMo-2.5 系列调价及高速旗舰模型发布的一系列动作,可以看出小米正在构建一个高速、高智商且成本可控的大模型生态系统,旨在推动 AI 技术在更广泛、更实时的商业场景中规模化落地。

查看原文 →qbitai.com