小米MiMo降价99%非营销,负责人发文详解六大工程降本逻辑
速览
小米MiMo宣布API永久降价,最高降幅达99%,旨在回应市场关于“亏本抢市场”的质疑。负责人罗福莉发布技术博客,详细拆解了通过SWA架构压缩KVCache、优化显存分配、提升前缀缓存命中率等六大工程手段实现的降本逻辑。其中,99%折扣主要针对重复读取历史上下文的场景,依托高缓存命中率大幅减少GPU计算需求。
AI 深度解读
背景
5 月 26 日,小米 MiMo 官方账号在 X 平台发布了一则引发行业震动的公告:MiMo-V2.5 系列 API 实施永久降价,最高降幅达到 99%。与此同时,所有 context(上下文)长度统一定价,Token 套餐容量升级 5-8 倍。
这一举动迅速在国内 AI 圈引发热议,舆论主要分为三派:
- 价格战派:认为这是继智谱、DeepSeek、字节豆包、阿里通义之后,国产大模型新一轮“卷价格”的延续。
- 悲观质疑派:结合小米近期利润腰斩的公告,认为在持续投入 600 亿 AI 研发的同时大幅削减 API 收入,是典型的“亏本抢市场”行为,或是受 DeepSeek 拉低行业定价基准的被动跟随。
- 技术验证派:作为 MiMo 负责人,罗福莉随后发布了一篇 5000 字的技术博客,旨在通过公开工程账目和技术细节,证明此次降价并非营销噱头,而是真实工程能力的体现。
核心内容
罗福莉在博客中明确指出,99% 的降幅并非针对所有模型输入,而是专门针对 Input (Cache Hit) 这一特定场景,即用户在长对话中重复读取历史上下文的部分。普通新输入(No Cache Hit)降幅较小,模型输出(Output)降幅最小。
为了将理论上的成本优势转化为实际的低价,MiMo 团队实施了六项核心工程优化,构成了完整的降本链条:
1. 架构革新:将模型“记忆”压至 1/7 传统模型采用 Full Attention(全注意力机制),每个 token 都需要计算并存储中间状态(KVCache),导致显存占用随对话长度线性增长。MiMo-V2.5-Pro 引入了 Hybrid SWA(混合滑动窗口注意力)架构:在 70 层网络中,60 层仅关注最近 128 个 token(SWA),仅保留 10 层作为“档案管理员”处理全部历史。这一改动使 KVCache 体积和计算量直接压缩至 Full Attention 的 1/7。
2. 显存管理:双池分离释放真实容量 仅改变架构不足以兑现成本优势,因为传统系统通常按最大用量统一分配显存,导致 SWA 节省的空间被浪费。MiMo 将 KVCache 拆分为两个独立池子:Full Attention 的 10 层使用“大池子”按全长分配,SWA 的 60 层使用“小池子”仅按 128 token 窗口分配。这种按需分配使得单台 GPU 能服务的并发用户数提升 5 倍以上。
3. 缓存命中:升级前缀缓存规则 在 SWA 模式下,简单的 token 匹配会导致“伪命中”(即缓存数据已被覆盖或无效)。团队升级了规则至“窗口安全长度”,只承诺复用完整且有效的缓存部分。虽然规则更严格,但由于 SWA 大幅降低了 KVCache 体积,同等存储空间可容纳更多内容,使得线上实测的主流框架服务端 Cache 命中率平均达到 93%,高频用户可达 95% 以上。这意味着 95% 的重复读取请求无需 GPU 计算,直接读取缓存,构成了 99% 折扣的物理基础。
4. 存储创新:GCache 利用 GPU 自带 SSD 为了解决海量 KVCache 的存储成本问题,小米存储团队自研了分布式缓存 GCache,直接部署在 GPU 机器自带的 SSD 上,与训练和推理任务混布。相比行业常规做法(租用专用存储集群),GCache 实现了“额外存储成本为 0”。结合高命中率,KVCache 在 L3 层的存活时间(TTL)从几分钟延长至数小时甚至数天,进一步拓宽了缓存命中的时间窗口。
5. 智能调度:LLM-Router 优化路由效率 小米开发了 LLM-Router 调度系统,执行三项策略:
- 亲和调度:前缀相同的请求路由至同一机器,最大化缓存复用。
- 长度分桶:将短、中、长请求分流,避免短请求被长请求阻塞。
- TTFT 优化:优先调度计算量小(高缓存命中)的请求,减少排队延迟。 实测数据显示,该策略使 L2 缓存命中率提升 25%,单机输入吞吐提升 30%,长请求 P90 延迟降低 30%。
6. 生成加速:MTP 多 Token 预测优化“写”侧 前五项优化主要解决“读”的成本,第六项针对“写”(模型生成)进行优化。MiMo 原生支持 3 层 MTP(Multi-Token Prediction),一次预测后续 3 个 token,若预测正确则跳过中间计算。在 agentic 场景下,Decode 前 128 个 token 加速 2.3 倍,128-256 个 token 加速 1.5 倍。这使得 Output 部分的成本也显著下降,确保了整体降价模型的盈利闭环。
关键要点
- 降价真相:99% 的降幅仅针对
Input (Cache Hit)场景,即重复读取历史上下文的部分,而非全模型无差别降价。 - 技术基石:降价并非营销手段,而是基于 SWA 架构、双池显存管理、高命中率缓存、零成本存储(GCache)、智能调度(LLM-Router)及 MTP 生成加速六大工程支柱的系统性优化结果。
- 效率跃升:通过 Hybrid SWA 和显存优化,KVCache 体积压缩至 1/7,单卡并发能力提升 5 倍以上;线上缓存命中率高达 93%-95%,绝大多数重复请求无需 GPU 计算。
- 成本归零:GCache 利用 GPU 自带 SSD 存储冷数据,消除了额外的存储集群租金支出,使存储成本趋近于零。
- 闭环逻辑:通过优化“读”(缓存命中)和“写”(MTP 加速)两侧,单位请求的 GPU 时间下降一个数量级,最终实现单位成本下降 95% 以上,同时保持毛利率为正。
- 行业回应:罗福莉通过公开技术细节,旨在澄清降价源于技术效率提升,而非单纯的恶性价格战或亏损抢市场。
意义与影响
此次 MiMo 的降价风波及其技术复盘,对 AI 行业具有多重深远影响:
-
重新定义“价格战”的本质: 行业通常将大模型降价视为零和博弈的营销手段。MiMo 通过公开 5000 字技术博客,证明了在极端降本背后,需要的是系统性的工程重构能力。这标志着 AI 竞争从单纯的“参数规模”和“数据量”比拼,转向了“推理效率”和“工程落地能力”的深度较量。
-
确立工程优化的标杆范式: MiMo 展示的“架构创新(SWA)+ 显存管理 + 缓存策略 + 存储创新 + 调度优化 + 生成加速”的全链路优化思路,为行业提供了一套可参考的降本方法论。它表明,通过精细化的系统工程,可以在不牺牲模型性能的前提下,大幅降低推理成本。
-
推动 AI 服务普惠化: 当推理成本降低两个数量级时,AI 应用的边际成本将大幅降低,这将极大地激发长尾场景和复杂 Agent 应用的发展。对于开发者而言,更低的价格意味着可以尝试更复杂的上下文处理和更长的对话轮次,从而推动 AI 应用从简单的问答向复杂的任务执行演进。
-
澄清市场误解,回归技术理性: 在小米利润承压的背景下,此次高调的技术公开有助于消除市场对“亏本抢市场”的疑虑。它向投资者和行业传递了一个信号:小米在 AI 领域的投入正在通过技术效率转化为实际的商业竞争力,而非单纯的烧钱换规模。
-
加速行业技术迭代: 随着
