创投信息钛媒体·1 天前

MiniMax M3发布引争议：评测遭疑、开源诚意不足

原标题：MiniMax M3终于来了，指标很强，但社区炒翻了

速览

MiniMax发布M3模型，SWE-Bench Pro等基准测试表现优异，但被指使用Claude Code作为评测脚手架存在争议。同时，未立即公开模型权重及调整付费计划引发开发者信任危机。尽管MSA稀疏注意力架构等技术有创新，但发布策略导致社区两极分化。

AI 深度解读

背景

近期，中国人工智能公司 MiniMax 发布了其最新的大语言模型 M3。然而，这一技术发布并未带来预期的市场欢呼，反而引发了剧烈的舆论反弹。在 M3 发布当天，MiniMax 的股价出现了 15% 的大幅下跌。与此同时，在 X（原 Twitter）及中文开发者社区中，针对该模型的批评声浪显著高于赞誉声浪。

这种“技术指标惊艳”与“社区口碑崩盘”之间的巨大反差，促使业界重新审视当前大模型发布的透明度、评测标准以及厂商与开源社区之间的信任关系。尽管 M3 在多项基准测试中表现优异，但其发布策略、评测方式的争议性以及服务条款的突然调整，导致了用户信任的快速消耗。

核心内容

1. 评测指标与“脚手架”争议 M3 在多项权威基准测试中取得了亮眼成绩：在 SWE-Bench Pro 上达到 59%，超越了 GPT-5.5 并逼近 Opus 4.7；在 BrowseComp 上达到 83.5%，表现优于 Opus 4.7。此外，M3 支持百万级上下文窗口，具备原生多模态能力，并采用了自研的 MSA 稀疏注意力架构。

然而，技术报告中关于 Terminal Bench 2 和 VIBE-Pro 测试的注释揭示了潜在问题：测试使用了 Claude Code 作为评测脚手架。这意味着 MiniMax 是利用 Claude Code 的工具链来测试自身模型的编程能力，随后将结果与 Claude Opus 4.7 进行对比。虽然使用脚手架（如 Claude Code 或 OpenCode）在 Agent 评测中是行业惯例，但用 A 的框架测试 B 的能力并宣称与 A 比肩，被社区认为缺乏“武德”。这种做法模糊了模型原生能力与工具链加成之间的界限，导致用户难以分辨真实水平，进而对各类评测指标产生信任危机。

2. “开源”诚意与权重缺失 与其他开源模型不同，MiniMax 在 M3 发布时未公布模型大小，且未立即开放模型权重。官方承诺在发布后 10 天内开源，期间仅通过 API 提供服务。

这一做法引发了开发者的强烈不满。开源社区的核心价值在于“可复现、可验证”，而在权重未公开的情况下，开发者无法在本地环境验证评测数据，也无法独立摸清模型底细。尽管从商业逻辑上看，先通过 API 回收成本再开源是合理策略，但在宣传“开源”的同时延迟提供权重，被社区视为一种“心机”和不坦荡的行为，加剧了信任赤字。

3. Coding Plan 规则突变与老用户背刺 M3 发布同步推出了新的 Token Plan，取代了此前以请求次数和速率限制为主的 Coding Plan。

旧政策：按速率限制（每5小时滚动窗口内的请求次数），无月度 Token 总量上限。重度用户即使月消耗数十亿 Token，月费也仅为几十元。
新政策：按 Token 总量计费。Plus 套餐 49 元包含 6 亿 Token。官方宣称这相当于 Claude Pro 的 5 倍用量，但该数据基于单次调用 50K Token 估算。鉴于 M3 支持百万上下文，实际使用中单次调用常达数十万 Token，导致 6 亿 Token 迅速耗尽。

更令用户愤怒的是，官方在未预告的情况下，取消了老用户不受周限额限制的特权。这种“出尔反尔”的行为被 V2EX 等社区用户视为对老用户的“背刺”，进一步消耗了品牌信任。

4. 技术架构创新：MSA 稀疏注意力 抛开争议，M3 在底层架构上确有创新。MiniMax 自研了 MSA（MiniMax Sparse Attention）稀疏注意力机制。

原理：对 KV（Key-Value）进行高精度分块并稀疏化，相比 DSA、MoBA 等方案，能更精准地覆盖有用上下文，避免随机裁剪。
算子优化：首创“以 KV 为外循环去聚合 Q”的计算方式，实现 KV 块仅读取一次，内存访问连续。
性能提升：相比开源的 Flash-Sparse-Attention 快 4 倍以上。与上一代 M2 相比，在百万上下文下，prefilling 阶段加速超 9 倍，decoding 加速超 15 倍，单 Token 计算量降至 1/20。
差异化：与 DeepSeek V4 主攻“混合压缩架构”和“极低精度计算”不同，MiniMax 选择了稀疏注意力路径。

M3 在长上下文、多模态和 Agent 能力上实现了均衡，且均为原生支持，在国内厂商中较为突出。

关键要点

评测透明度存疑：M3 在 Terminal Bench 2 等测试中使用 Claude Code 作为脚手架，导致“模型原生能力”与“工具链能力”界限模糊，引发社区对评测公正性的质疑。
开源策略引发信任危机：延迟 10 天开放权重，使得开发者无法本地复现和验证评测数据，违背了开源社区“可复现、可验证”的核心原则。
服务条款突然变更：从“无总量上限”的速率限制模式突然转向“按 Token 总量计费”，且大幅削减老用户特权，被视作对忠实用户的背刺，导致用户情绪反弹。
技术架构确有突破：自研的 MSA 稀疏注意力机制显著提升了百万上下文下的推理效率（Prefilling 加速 9 倍+，Decoding 加速 15 倍+），证明了长上下文处理已从“奢侈品”变为可用基础设施。
市场反应两极分化：尽管技术指标强劲且架构创新，但发布策略的“骚操作”导致股价大跌和社区骂声一片，反映出开发者市场对厂商诚信和透明度的高度敏感。

意义与影响

MiniMax M3 的发布事件揭示了当前大模型市场竞争中的一个关键矛盾：技术硬实力与社区软实力之间的脱节。

首先，该事件标志着开源社区对厂商“伪开源”或“半开源”行为的容忍度降至冰点。开发者不再仅仅关注模型性能，更看重发布的透明度和对社区规则的尊重。任何试图利用信息不对称或文字游戏来维持商业利益的行为，都可能遭到社区的强烈抵制。

其次，评测标准的规范化迫在眉睫。当主流评测依赖于特定厂商的工具链（如 Claude Code）时，评测结果的可比性和公信力将受到挑战。行业需要建立更独立、更透明的基准测试方法，以剥离工具链加成，真实反映模型能力。

最后，对于 AI 厂商而言，信任是比短期营收更宝贵的资产。MiniMax 通过 API 先行回收成本虽符合商业逻辑，但若以牺牲用户信任为代价，将在争夺开发者的长期战争中处于劣势。M3 的技术创新值得肯定，但若不能妥善解决社区信任问题，其市场潜力将受到严重制约。接下来的 10 天，权重的公开及独立评测结果将成为检验 M3 真实成色及 MiniMax 能否挽回信任的关键窗口。

查看原文 →tmtpost.com

MiniMax M3发布引争议：评测遭疑、开源诚意不足

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐