阶跃星辰开源Step 3.7 Flash:成本仅为Claude Opus 1/9
速览
阶跃星辰正式发布并开源Step 3.7 Flash模型,定位为面向生产级Agent的新一代基座模型。该模型采用稀疏MoE架构,激活参数仅11B,任务成本约为Claude Opus的1/9。它强化了原生多模态理解与联网搜索能力,旨在解决高频Agent调用中的效率与可靠性问题。
AI 深度解读
背景
AI 模型竞争正从单纯追求参数规模、榜单跑分和峰值能力的“冒险家时代”,转向注重工程逻辑、稳定性和可复制性的“商船时代”。随着 AI Agent(智能体)逐渐从实验走向生产环境,企业和个人用户关注的核心问题已发生转移:不再仅仅是模型是否“聪明”,而是其能否持续处理高频请求、稳定调用工具、理解复杂界面,并能无缝嵌入企业既有流程中长期运转。
在这一背景下,阶跃星辰(StepFun)正式发布并开源了 Step 3.7 Flash。作为一款面向生产级 Agent 的新一代 Flash 模型,它旨在解决 Agent 在工作流中面临的可靠性、效率及部署难题,标志着 Flash 模型从“旗舰模型的轻量平替”进化为“生产效率最高的基座模型”。
核心内容
Step 3.7 Flash 定位为新一代 Agentic 基座模型,主要服务于 Agent、Coding、Search 及多模态工作流。其核心设计理念是平衡速度、成本、工具调用、多模态理解与生态兼容性,以应对大规模 Agent 调用的效率压力。
1. 原生多模态理解与执行能力 针对 Agent 需处理复杂界面(如 UI、图表、文档、浏览器页面、专业软件)的需求,Step 3.7 Flash 强化了原生多模态能力。
- 视觉推理机制:模型不依赖将海量视觉知识硬塞入权重,而是保留核心推理引擎,通过极快的速度在推理阶段进行“多看几眼、多查几遍”,以弥补参数量的不足。
- 自主交互演示:
- 驾驶舱操作:用户输入“如何起飞”,模型自动框选驾驶舱区域,识别仪表与按钮,生成分步骤教程,将陌生视觉环境转化为可执行的任务指引。
- 手机 GUI Agent:通过 USB 连接 Mac 并同步手机画面,模型能理解微信读书热搜榜的结构(书名、封面、排名、热度),而非仅进行 OCR 识别。
- 复杂业务处理:在美团小判官场景中,模型能理解包含评价、图片证据、商户回复及操作按钮的混合界面,识别投诉争议点并判断处理逻辑。
- 专业软件支持:在 Blender 场景中,模型能识别界面结构、图层及工具栏,给出删除方块的操作步骤;在设计分析中,能理解设计元素关系并生成专业分析。
2. 联网搜索与视觉增强 为解决动态信息和多源证据的需求,Step 3.7 Flash 具备主动搜索与交叉验证能力。
- 主动检索:以“瑞石楼”演示为例,模型从图片中提取线索生成检索词,利用网页抓取工具查询资料,并将视觉信息与网络文字信息拼接成完整回答。
- 证据组织:搜索不再是返回链接,而是围绕任务目标主动找、筛、对、组织证据,减少未经验证的回答。在 SimpleVQA Search、V* (Python) 等 Benchmark 上表现接近更大规模旗舰模型。
3. 高吞吐与低成本架构
- 稀疏 MoE 架构:总参数 196B + 1.8B ViT,激活参数仅 11B,最高生成速度达 400 Tokens/s。
- 并行处理能力:支持构建 Agent 集群,例如让 40 个不同身份的虚拟 Persona 并行判断产品偏好,或实时构建大型知识图谱。
- 成本优势:开启 Advisor Mode 后,编程能力达到 Claude Opus 4.6 的 97%,但单个任务成本仅为后者的约 1/9。这使得高频任务(如拆解、检索、调工具、比对)的规模化运行成为可能。
4. 工具调用稳定性与生态兼容
- 稳定编排:优化了长程多轮 Agent 工作流中的 API、浏览器、终端及 Office 工具调用,保持任务轨迹一致,降低偏移和失败率。
- 基准测试数据:在 Toolathlon(多工具协同)达 49.5%,ClawEval 1.1(真实环境自主任务)达 67.1%,GDPval(44种职业任务)达 45.8%,τ²-bench Telecom 通过率超 98%。
- 框架适配:兼容 Claude Code、Kilo Code、Roo Code、OpenCode、Hermes Agent、OpenClaw 等主流工具,适配 MCP、Skills 等协议。已在 Kilo Code、Nous Research、Lemonade 等项目完成接入验证,并推进与 Fireworks AI、DeepInfra、Modal Labs 及 OpenRouter、ZenMux 等平台的适配。
5. 部署与开发者反馈
- 多端部署:支持云端和本地部署,提供端侧多精度版本。
- 实测反馈:海外开发者在本地 MoE 测试中,Step 3.7 Flash 在 agg@64 下运行速度达 2123.13 tok/s,超越 DeepSeek V4 Flash 和 Minimax M2.7;在代码排错中,能找出 Gemini 3.5 Flash 生成的代码中的多个小 bug。
关键要点
- 定位转变:Step 3.7 Flash 不再仅是旗舰模型的廉价替代品,而是专为 Agent 高频、高并发、高稳定性需求设计的“生产效率基座”。
- 工程化思维:采用“以速度换能力”的策略,通过快速推理和多次视觉/搜索迭代来弥补 11B 激活参数在视觉知识上的局限,将低延迟和高吞吐转化为能力本身。
- 极致性价比:在保持接近 Claude Opus 4.6 编程能力(97%)的同时,将任务成本降低至约 1/9,极大降低了 Agent 规模化运行的经济门槛。
- 真实场景适配:强调对复杂 UI、GUI、专业软件界面的理解与操作,而非单纯的文本或静态图片识别,具备主动搜索、交叉验证和证据组织能力。
- 生态友好性:广泛兼容主流 Coding 和 Agent 框架(如 MCP 协议),支持本地与云端部署,降低企业集成与开发者的使用门槛。
- 并行优势:稀疏 MoE 架构支持高吞吐,适合构建多 Agent 集群并行处理复杂任务(如并行评测、知识图谱构建)。
意义与影响
Step 3.7 Flash 的发布标志着 AI 模型竞争进入“工程实用性”主导的新阶段。它揭示了 Agent 时代模型进化的核心逻辑:评判标准从“模型有多聪明”转向“模型是否愿意并能够算清琐碎的工程账”。
- 推动 Agent 规模化商用:通过解决高吞吐、低成本和工具调用稳定性这三大生产环境痛点,Step 3.7 Flash 为 Agent 从实验室走向企业级大规模部署提供了可行的技术路径。
- 重新定义 Flash 模型价值:确立了 Flash 模型在 Agent 架构中的核心地位——即作为能够承受高频调用、具备多模态感知与执行能力的基座,而非简单的性能降级版。
- 促进开源与生态繁荣:通过开源及多平台适配,降低了开发者构建 Agentic 应用的门槛,加速了 AI 基础设施与上层应用的融合。
- 行业风向标:正如 1492 年哥伦布之后的“福禄特商船”让远洋贸易变得可复制,Step 3.7 Flash 等模型的出现,意味着 AI 能力将从“冒险家的孤勇”转变为“可计算、可扩张的生意”,真正拉开模型间差距的将是那些能让 Agent 反复出发、可靠抵达的工程能力。
