AI 资讯量子位·2 天前

MiniMax M3实测：老黄PPT74个Logo难不住它

原标题：MiniMax M3一手实测：老黄PPT上74个Logo，我以为能难住它

速览

本文对MiniMax M3模型进行了实地测试。测试内容包括识别黄仁勋PPT中出现的74个Logo。结果显示该模型表现优异，成功应对了这一视觉识别挑战。

AI 深度解读

背景

MiniMax 最新开源模型 M3 上线后，迅速在 AI 社区引发热议。除了模型本身的技术突破，其配套的 Token Plan 计费方式及周用量限额调整也引起了广泛讨论。MiniMax 官方对此迅速回应，提高了周用量限额，并对此前无周限额的老用户保持原有设定。

然而，相较于价格争议，全球开发者和行业专家更关注的是 M3 的实际模型能力。包括 Nous Research 联合创始人、Vercel CEO Guillermo Rauch 在内的多位行业领袖在 X 平台上公开推荐 M3，认为其表现紧跟 Opus 和 GPT-5，但成本仅为后者的十分之一。官方给出的 Demo 包括复刻论文、优化 CUDA 算子以及自主训练模型，而实际测试表明，完成这些任务需要长上下文、多模态和 Coding 三大能力的协同支持。

核心内容

MiniMax M3 被定位为国内首个同时具备长上下文、多模态和 Coding 能力的开源模型，其性能在多项基准测试中超越了 GPT-5.5 和 Gemini 3.1 Pro，接近 Opus 4.7。为了配合 M3，MiniMax 同步推出了专为 M3 设计的 Harness——MiniMax Code，对标 Claude Code，旨在提供类似 Vibe Coding 的开发体验。

通过对 M3 进行一手实测，验证了其在复杂任务中的表现：

1. 论文复现与代码优化 在官方 Demo 中，M3 成功独立复现了一篇 ICLR 2025 的 Outstanding Paper Award 获奖论文。该论文研究大模型微调中的学习动力学，提出在 SFT 阶段同时训练负样本以缓解挤压效应。M3 连续运行 12 小时，产出 18 次 commit 和 23 张实验图表，不仅跑通核心实验，还验证了原论文提出的 Extend 缓解方法，全程无需人工介入。

在另一项测试中，作者要求 M3 复现关于 Muon 优化器改进的 ICLR 2026 论文。M3 将实现拆分为基线方法、最优多项式求解器和主算法本体三个模块。其中，求解器通过等波动条件建立线性方程组迭代求解，M3 自行计算出多项式系数，并通过绘图与论文硬编码数字逐一比对，结果完全重叠，证明了其独立推导路径的正确性。

2. 信息搜集与交互式网页生成 作者测试了 M3 基于真实世界信息的搜集与网页构建能力。

南锣打卡地图： 要求 M3 根据黄仁勋北京之行搜集美食打卡点并制作可交互地图。M3 自主发现免费地图资源，利用 Leaflet 和高德地图瓦片，成功标记了 9 个美食地点，支持普通与卫星地图切换，交互正常。
ComputeX Logo 识别： 在黄仁勋 ComputeX 演讲 PPT 中，出现了 74 家企业的 Logo。M3 成功识别所有 74 家公司，搜集资料并制作成横向瀑布流网页，点击卡片可显示公司介绍，配色符合英伟达品牌规范。

3. 视频理解与复杂逻辑推理 作者选取了一道国际语言学奥林匹克竞赛的试题讲解视频（时长近 2 小时），要求 M3 理解视频内容并生成讲解第一问的交互式网页。

M3 首先使用 ffmpeg 压缩视频至可处理大小。
通过自问自答的方式学习视频内容，设计页面结构，将推导过程分为三个步骤。
最终生成的网页简洁美观，解题结果与视频一致，并额外整理了语言学推理题的学习心得。

关键要点

性能基准： M3 在 SWE-Bench Pro 上达到 59% 的成绩，超过 GPT-5.5 和 Gemini 3.1 Pro，接近 Opus 4.7。
效率提升： 在 1M 上下文下，每 token 计算量降至上代的 1/20，decoding 实测加速超过 15 倍。
技术架构：
- 长上下文： 采用 MiniMax Sparse Attention (MSA)，以 KV 块为外层循环，实现高硬件利用率，架构设计比 MoBA、DSA/CSA 更简洁高效。
- Coding 与 Agent： 构建交互式用户模拟器框架，模拟真实开发场景中的持续协作、需求变更和推翻重来，显著提升复杂软件工程任务表现。
- 多模态： 采用原生多模路线，预训练阶段即进行图文混合训练，重建数据管线，预训练数据规模达 100 万亿 token。
配套工具： 推出 MiniMax Code，作为专为 M3 设计的 Harness，对标 Claude Code，提升 Vibe Coding 体验。
开源地位： M3 是首个在开源模型中同时实现 Coding Frontier、1M 上下文和原生多模态三大能力的模型，填补了开源社区在此领域的空白。

意义与影响

MiniMax M3 的出现打破了前沿模型能力长期被少数闭源产品（如 Claude Opus、GPT-5.5、Gemini 3.1）垄断的局面。作为首个同时具备三大核心能力的开源模型，M3 证明了开源社区在追赶顶尖闭源模型方面已取得实质性突破。

从 M2 到 M3，MiniMax 在 Coding 能力上实现了大幅跃迁，综合性能已与全球顶尖闭源模型站在同一起跑线上。这不仅为开发者提供了高性价比的替代方案，也推动了开源大模型在复杂任务处理、长程代码生成和多模态理解方面的标准化进程。随着 M3 的发布，开源模型在旗舰级应用中的竞争力显著增强，有望加速 AI 技术在更广泛场景中的落地与应用。

查看原文 →qbitai.com

MiniMax M3实测：老黄PPT74个Logo难不住它

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐