MiniMax M3实测:老黄PPT74个Logo难不住它
速览
本文对MiniMax M3模型进行了实地测试。测试内容包括识别黄仁勋PPT中出现的74个Logo。结果显示该模型表现优异,成功应对了这一视觉识别挑战。
AI 深度解读
背景
MiniMax 最新开源模型 M3 上线后,迅速在 AI 社区引发热议。除了模型本身的技术突破,其配套的 Token Plan 计费方式及周用量限额调整也引起了广泛讨论。MiniMax 官方对此迅速回应,提高了周用量限额,并对此前无周限额的老用户保持原有设定。
然而,相较于价格争议,全球开发者和行业专家更关注的是 M3 的实际模型能力。包括 Nous Research 联合创始人、Vercel CEO Guillermo Rauch 在内的多位行业领袖在 X 平台上公开推荐 M3,认为其表现紧跟 Opus 和 GPT-5,但成本仅为后者的十分之一。官方给出的 Demo 包括复刻论文、优化 CUDA 算子以及自主训练模型,而实际测试表明,完成这些任务需要长上下文、多模态和 Coding 三大能力的协同支持。
核心内容
MiniMax M3 被定位为国内首个同时具备长上下文、多模态和 Coding 能力的开源模型,其性能在多项基准测试中超越了 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7。为了配合 M3,MiniMax 同步推出了专为 M3 设计的 Harness——MiniMax Code,对标 Claude Code,旨在提供类似 Vibe Coding 的开发体验。
通过对 M3 进行一手实测,验证了其在复杂任务中的表现:
1. 论文复现与代码优化 在官方 Demo 中,M3 成功独立复现了一篇 ICLR 2025 的 Outstanding Paper Award 获奖论文。该论文研究大模型微调中的学习动力学,提出在 SFT 阶段同时训练负样本以缓解挤压效应。M3 连续运行 12 小时,产出 18 次 commit 和 23 张实验图表,不仅跑通核心实验,还验证了原论文提出的 Extend 缓解方法,全程无需人工介入。
在另一项测试中,作者要求 M3 复现关于 Muon 优化器改进的 ICLR 2026 论文。M3 将实现拆分为基线方法、最优多项式求解器和主算法本体三个模块。其中,求解器通过等波动条件建立线性方程组迭代求解,M3 自行计算出多项式系数,并通过绘图与论文硬编码数字逐一比对,结果完全重叠,证明了其独立推导路径的正确性。
2. 信息搜集与交互式网页生成 作者测试了 M3 基于真实世界信息的搜集与网页构建能力。
- 南锣打卡地图: 要求 M3 根据黄仁勋北京之行搜集美食打卡点并制作可交互地图。M3 自主发现免费地图资源,利用 Leaflet 和高德地图瓦片,成功标记了 9 个美食地点,支持普通与卫星地图切换,交互正常。
- ComputeX Logo 识别: 在黄仁勋 ComputeX 演讲 PPT 中,出现了 74 家企业的 Logo。M3 成功识别所有 74 家公司,搜集资料并制作成横向瀑布流网页,点击卡片可显示公司介绍,配色符合英伟达品牌规范。
3. 视频理解与复杂逻辑推理 作者选取了一道国际语言学奥林匹克竞赛的试题讲解视频(时长近 2 小时),要求 M3 理解视频内容并生成讲解第一问的交互式网页。
- M3 首先使用 ffmpeg 压缩视频至可处理大小。
- 通过自问自答的方式学习视频内容,设计页面结构,将推导过程分为三个步骤。
- 最终生成的网页简洁美观,解题结果与视频一致,并额外整理了语言学推理题的学习心得。
关键要点
- 性能基准: M3 在 SWE-Bench Pro 上达到 59% 的成绩,超过 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7。
- 效率提升: 在 1M 上下文下,每 token 计算量降至上代的 1/20,decoding 实测加速超过 15 倍。
- 技术架构:
- 长上下文: 采用 MiniMax Sparse Attention (MSA),以 KV 块为外层循环,实现高硬件利用率,架构设计比 MoBA、DSA/CSA 更简洁高效。
- Coding 与 Agent: 构建交互式用户模拟器框架,模拟真实开发场景中的持续协作、需求变更和推翻重来,显著提升复杂软件工程任务表现。
- 多模态: 采用原生多模路线,预训练阶段即进行图文混合训练,重建数据管线,预训练数据规模达 100 万亿 token。
- 配套工具: 推出 MiniMax Code,作为专为 M3 设计的 Harness,对标 Claude Code,提升 Vibe Coding 体验。
- 开源地位: M3 是首个在开源模型中同时实现 Coding Frontier、1M 上下文和原生多模态三大能力的模型,填补了开源社区在此领域的空白。
意义与影响
MiniMax M3 的出现打破了前沿模型能力长期被少数闭源产品(如 Claude Opus、GPT-5.5、Gemini 3.1)垄断的局面。作为首个同时具备三大核心能力的开源模型,M3 证明了开源社区在追赶顶尖闭源模型方面已取得实质性突破。
从 M2 到 M3,MiniMax 在 Coding 能力上实现了大幅跃迁,综合性能已与全球顶尖闭源模型站在同一起跑线上。这不仅为开发者提供了高性价比的替代方案,也推动了开源大模型在复杂任务处理、长程代码生成和多模态理解方面的标准化进程。随着 M3 的发布,开源模型在旗舰级应用中的竞争力显著增强,有望加速 AI 技术在更广泛场景中的落地与应用。
