创投信息钛媒体·4 天前

小米MiMo降价99%非营销，负责人发文详解六大工程降本逻辑

原标题：小米MiMo降价99%并非营销！罗福莉发X打脸唱衰者

速览

小米MiMo宣布API永久降价，最高降幅达99%，旨在回应市场关于“亏本抢市场”的质疑。负责人罗福莉发布技术博客，详细拆解了通过SWA架构压缩KVCache、优化显存分配、提升前缀缓存命中率等六大工程手段实现的降本逻辑。其中，99%折扣主要针对重复读取历史上下文的场景，依托高缓存命中率大幅减少GPU计算需求。

AI 深度解读

背景

5 月 26 日，小米 MiMo 官方账号在 X 平台发布了一则引发行业震动的公告：MiMo-V2.5 系列 API 实施永久降价，最高降幅达到 99%。与此同时，所有 context（上下文）长度统一定价，Token 套餐容量升级 5-8 倍。

这一举动迅速在国内 AI 圈引发热议，舆论主要分为三派：

价格战派：认为这是继智谱、DeepSeek、字节豆包、阿里通义之后，国产大模型新一轮“卷价格”的延续。
悲观质疑派：结合小米近期利润腰斩的公告，认为在持续投入 600 亿 AI 研发的同时大幅削减 API 收入，是典型的“亏本抢市场”行为，或是受 DeepSeek 拉低行业定价基准的被动跟随。
技术验证派：作为 MiMo 负责人，罗福莉随后发布了一篇 5000 字的技术博客，旨在通过公开工程账目和技术细节，证明此次降价并非营销噱头，而是真实工程能力的体现。

核心内容

罗福莉在博客中明确指出，99% 的降幅并非针对所有模型输入，而是专门针对 Input (Cache Hit) 这一特定场景，即用户在长对话中重复读取历史上下文的部分。普通新输入（No Cache Hit）降幅较小，模型输出（Output）降幅最小。

为了将理论上的成本优势转化为实际的低价，MiMo 团队实施了六项核心工程优化，构成了完整的降本链条：

1. 架构革新：将模型“记忆”压至 1/7 传统模型采用 Full Attention（全注意力机制），每个 token 都需要计算并存储中间状态（KVCache），导致显存占用随对话长度线性增长。MiMo-V2.5-Pro 引入了 Hybrid SWA（混合滑动窗口注意力）架构：在 70 层网络中，60 层仅关注最近 128 个 token（SWA），仅保留 10 层作为“档案管理员”处理全部历史。这一改动使 KVCache 体积和计算量直接压缩至 Full Attention 的 1/7。

2. 显存管理：双池分离释放真实容量 仅改变架构不足以兑现成本优势，因为传统系统通常按最大用量统一分配显存，导致 SWA 节省的空间被浪费。MiMo 将 KVCache 拆分为两个独立池子：Full Attention 的 10 层使用“大池子”按全长分配，SWA 的 60 层使用“小池子”仅按 128 token 窗口分配。这种按需分配使得单台 GPU 能服务的并发用户数提升 5 倍以上。

3. 缓存命中：升级前缀缓存规则 在 SWA 模式下，简单的 token 匹配会导致“伪命中”（即缓存数据已被覆盖或无效）。团队升级了规则至“窗口安全长度”，只承诺复用完整且有效的缓存部分。虽然规则更严格，但由于 SWA 大幅降低了 KVCache 体积，同等存储空间可容纳更多内容，使得线上实测的主流框架服务端 Cache 命中率平均达到 93%，高频用户可达 95% 以上。这意味着 95% 的重复读取请求无需 GPU 计算，直接读取缓存，构成了 99% 折扣的物理基础。

4. 存储创新：GCache 利用 GPU 自带 SSD 为了解决海量 KVCache 的存储成本问题，小米存储团队自研了分布式缓存 GCache，直接部署在 GPU 机器自带的 SSD 上，与训练和推理任务混布。相比行业常规做法（租用专用存储集群），GCache 实现了“额外存储成本为 0”。结合高命中率，KVCache 在 L3 层的存活时间（TTL）从几分钟延长至数小时甚至数天，进一步拓宽了缓存命中的时间窗口。

5. 智能调度：LLM-Router 优化路由效率 小米开发了 LLM-Router 调度系统，执行三项策略：

亲和调度：前缀相同的请求路由至同一机器，最大化缓存复用。
长度分桶：将短、中、长请求分流，避免短请求被长请求阻塞。
TTFT 优化：优先调度计算量小（高缓存命中）的请求，减少排队延迟。实测数据显示，该策略使 L2 缓存命中率提升 25%，单机输入吞吐提升 30%，长请求 P90 延迟降低 30%。

6. 生成加速：MTP 多 Token 预测优化“写”侧 前五项优化主要解决“读”的成本，第六项针对“写”（模型生成）进行优化。MiMo 原生支持 3 层 MTP（Multi-Token Prediction），一次预测后续 3 个 token，若预测正确则跳过中间计算。在 agentic 场景下，Decode 前 128 个 token 加速 2.3 倍，128-256 个 token 加速 1.5 倍。这使得 Output 部分的成本也显著下降，确保了整体降价模型的盈利闭环。

关键要点

降价真相：99% 的降幅仅针对 Input (Cache Hit) 场景，即重复读取历史上下文的部分，而非全模型无差别降价。
技术基石：降价并非营销手段，而是基于 SWA 架构、双池显存管理、高命中率缓存、零成本存储（GCache）、智能调度（LLM-Router）及 MTP 生成加速六大工程支柱的系统性优化结果。
效率跃升：通过 Hybrid SWA 和显存优化，KVCache 体积压缩至 1/7，单卡并发能力提升 5 倍以上；线上缓存命中率高达 93%-95%，绝大多数重复请求无需 GPU 计算。
成本归零：GCache 利用 GPU 自带 SSD 存储冷数据，消除了额外的存储集群租金支出，使存储成本趋近于零。
闭环逻辑：通过优化“读”（缓存命中）和“写”（MTP 加速）两侧，单位请求的 GPU 时间下降一个数量级，最终实现单位成本下降 95% 以上，同时保持毛利率为正。
行业回应：罗福莉通过公开技术细节，旨在澄清降价源于技术效率提升，而非单纯的恶性价格战或亏损抢市场。

意义与影响

此次 MiMo 的降价风波及其技术复盘，对 AI 行业具有多重深远影响：

重新定义“价格战”的本质：行业通常将大模型降价视为零和博弈的营销手段。MiMo 通过公开 5000 字技术博客，证明了在极端降本背后，需要的是系统性的工程重构能力。这标志着 AI 竞争从单纯的“参数规模”和“数据量”比拼，转向了“推理效率”和“工程落地能力”的深度较量。
确立工程优化的标杆范式： MiMo 展示的“架构创新（SWA）+ 显存管理 + 缓存策略 + 存储创新 + 调度优化 + 生成加速”的全链路优化思路，为行业提供了一套可参考的降本方法论。它表明，通过精细化的系统工程，可以在不牺牲模型性能的前提下，大幅降低推理成本。
推动 AI 服务普惠化：当推理成本降低两个数量级时，AI 应用的边际成本将大幅降低，这将极大地激发长尾场景和复杂 Agent 应用的发展。对于开发者而言，更低的价格意味着可以尝试更复杂的上下文处理和更长的对话轮次，从而推动 AI 应用从简单的问答向复杂的任务执行演进。
澄清市场误解，回归技术理性：在小米利润承压的背景下，此次高调的技术公开有助于消除市场对“亏本抢市场”的疑虑。它向投资者和行业传递了一个信号：小米在 AI 领域的投入正在通过技术效率转化为实际的商业竞争力，而非单纯的烧钱换规模。
加速行业技术迭代：随着

查看原文 →tmtpost.com

小米MiMo降价99%非营销，负责人发文详解六大工程降本逻辑

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐