← 返回信息流
AI 资讯Hacker News·1 小时前

MiMo-v2.5-Pro-UltraSpeed发布:1T参数模型推理速度达每秒1000词元

原标题:MiMo-v2.5-Pro-UltraSpeed: 1T model with 1000 tokens per second

速览

MiMo公司发布了名为v2.5-Pro-UltraSpeed的大语言模型。该模型拥有1万亿(1T)参数,但实现了惊人的推理速度,达到每秒1000个词元(tokens)。这一突破展示了在保持超大参数规模的同时,显著提升生成效率的技术能力,对降低AI应用延迟和成本具有重要意义。

AI 深度解读

MiMo-v2.5-Pro-UltraSpeed:1万亿参数模型突破1000 tokens/s解码速度

背景

人类对速度的渴望深植于基因之中,从内燃机时代的咆哮赛车到突破音障的轰鸣,速度始终定义着能力的边界。在人工智能领域,推理速度同样如此——它决定了智能的边界。当一个模型足够快时,它就不再是一个需要等待的工具,而是成为思维的延伸:实时响应、瞬间迭代、无缝协作。

小米(Xiaomi)与 TileRT 合作,今日正式发布 MiMo-V2.5-Pro-UltraSpeed。该模型在万亿参数(1T)规模下,首次实现了 1000 tokens/s 的解码速度。这一突破不仅刷新了性能指标,更旨在通过极致的速度重塑 AI 应用范式。

核心内容

1. 产品发布与接入策略

  • API 发布:MiMo-V2.5-Pro-UltraSpeed API 同步上线,采用限时促销定价。价格为 MiMo-V2.5-Pro 的 3 倍,但生成速度约为后者的 10 倍,实现“3倍价格,10倍体验”。
  • 适用范围:仅限 API 调用,不支持 Token Plan。
  • 限时试用:由于高速推理资源有限,该模型仅通过申请制提供限时窗口。
    • 时间:2026年6月9日至6月23日 23:59(北京时间/UTC+8)。
    • 平台:platform.xiaomimimo.com/ultraspeed
    • 准入机制:名额有限,提交申请不保证获批。优先批准有真实业务需求的企业和专业开发者。
    • Chat 入口:获批用户可获得为期两周的免费 Chat 访问权限,入口为 ultraspeed.xiaomimimo.com。
  • 使用限制
    • 每账号每日最多排队 10 次。
    • 每次会话上限 30 分钟。
    • 会话空闲超过 5 分钟将自动释放。
  • 商务联系:标准模型访问请遵循 MiMo-V2.5 系列指引;深度商务合作请联系 [email protected]

2. 速度带来的范式转变

在万亿参数规模下突破 1000 tps 不仅仅是打字速度的提升,而是对 AI 应用范式的根本性颠覆:

  • 速度即智能:过去面对难题只能“等待一个答案并祈祷正确”;现在,在相同的墙钟时间内,模型可以并行运行数十条推理路径(如 Best-of-N / Tree Search),在后台自动验证和自我修正。利用原始速度生成思维深度,直接提升推理质量。
  • 释放 Coding Agents 生产力:此前开发者需痛苦等待推理延迟瓶颈;在 1000 tps 下,代码生成速度和生产效率实现范式级加速。
  • 实时决策闭环:毫秒级的“思考-响应”周期使 1T 旗舰模型能无缝接入时间敏感场景,如高频量化交易信号生成、即时反欺诈拦截、智能竞价及实时交互对话。
  • 生命攸关场景:在手术辅助和医疗影像分析中,AI 每节省一秒钟完成病灶分析和风险预测,就为外科医生多争取一分自由度。速度的终极意义不仅是提升生产力,更是帮助人类更好地生活。

3. 技术实现:模型与系统的极致协同(Codesign)

实现 1T 模型 1000+ tokens/s 的速度并非单一技术的突破,而是 MiMo 模型团队与 TileRT 系统团队深度协作和极致协同设计(Codesign)的结果。

与行业通常依赖专用硬件(如 Cerebras 的晶圆级集成或 Groq 的纯片上 SRAM 定制架构)不同,小米选择了一条不同的路径:仅通过模型-系统协同设计,在通用 GPU 上实现更惊人的推理速度。

模型侧优化

  • FP4 量化:针对通用硬件的带宽瓶颈,采用 FP4 量化大幅缩小模型体积,减少内存访问开销。
    • 挑战与对策:直接对整个模型应用 FP4 会导致复杂推理、逻辑和代码生成能力下降。
    • MoE 架构适配:鉴于 Xiaomi MiMo-V2.5-Pro 采用 MoE(混合专家)架构,其中“专家(Experts)”占据绝大多数参数且对量化容忍度最高,团队选择仅将 MoE Experts 量化为 FP4,保留其他模块的原始精度。
    • 训练保障:通过 FP4 QAT(量化感知训练),在保持模型整体能力与原始版本基本持平的同时,最大化硬件带宽利用率。
  • DFlash 推测解码:引入基于块级掩码并行预测的高效推测解码方法。
    • 原理:传统推测解码依赖小模型“猜测”后续 token,大模型验证,存在串行约束和草稿模型质量/算力权衡的矛盾。DFlash 让草稿模型在一次前向传播中填充整个掩码位置的块,从根本上消除了“自回归草稿”的串行限制。
    • 定制优化
      • 滑动窗口注意力(SWA):草稿模型仅使用 SWA,与 MiMo-V2 系列设计对齐,消除对完整前缀的依赖,将每次预测的计算量从与上下文长度线性相关降低为常数。
      • GPU 本地训练信号:训练期间,掩码信号采样下沉至 GPU 本地分片,使单个序列一步即可产生数万条覆盖不同上下文位置的独立训练信号,对齐 MiMo-V2 的长上下文能力并避免跨设备通信开销。
    • 效果:通过 Muon 二阶优化器和模型自蒸馏,确保紧凑的掩码块仍能提供理想的接受率,并将草稿阶段开销压缩至理论最小值。限制块大小为 8 以减少验证开销并提高并发。

关键要点

  • 性能突破:MiMo-V2.5-Pro-UltraSpeed 在 1 万亿参数规模下,首次实现 1000 tokens/s 的解码速度。
  • 性价比策略:API 价格为标准版 3 倍,但速度提升约 10 倍,旨在通过极致速度换取更高的单位时间产出。
  • 硬件路径差异:不同于 Cerebras 或 Groq 依赖专用硬件,小米通过模型-系统协同设计(Codesign)通用 8-GPU 节点上实现该速度。
  • 核心技术栈
    • FP4 量化:仅对 MoE 架构中的 Experts 进行 FP4 量化,结合 QAT 训练保持精度。
    • DFlash 推测解码:基于块级掩码并行预测,消除自回归串行限制,结合滑动窗口注意力(SWA)降低计算复杂度。
  • 应用场景拓展:从传统的文本生成扩展到需要实时决策的场景,如高频交易、实时反欺诈、医疗影像分析及手术辅助。
  • 资源限制:采用申请制限时试用(2026年6月9日-23日),每日排队和会话时长有严格限制,优先服务于有真实业务需求的企业和开发者。

意义与影响

MiMo-V2.5-Pro-UltraSpeed 的发布标志着 AI 推理速度进入了一个新的量级。在万亿参数模型上实现 1000+ tokens/s 的速度,其意义远超“更快的打字机”:

  1. 重新定义“智能”的交互形态:当推理延迟降低到毫秒级,AI 从“问答工具”转变为“思维伴侣”。并行推理和自我修正能力的引入,使得 AI 能够处理更复杂的逻辑任务,其“思考”的深度和广度不再受限于等待时间。
  2. 解锁高价值垂直领域:在代码生成、量化交易、医疗诊断等对实时性要求极高的领域,速度的提升直接转化为生产力和决策质量的飞跃。特别是在医疗场景中,速度的提升可能直接关联到生命救援的效率,体现了技术的人文价值。
  3. **验证通用硬件的
查看原文 →mimo.xiaomi.com