AI 资讯量子位·1 小时前

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

速览

阶跃Step 3.7 Flash在AA榜中表现卓越，一举拿下速度、性价比和端到端三项第一。该模型不仅推理速度快，还显著降低了使用成本。这一成绩标志着其在性能与经济性平衡上取得了重大突破。

AI 深度解读

背景

近期，大模型行业的竞争焦点正经历从“单次问答能力上限”向“效率优先”的深刻转变。随着 Agent（智能体）成为主流落地形态，AI 需要在真实业务链路中反复调用工具、多轮检索信息及分步拆解复杂任务。这种高频交互导致推理延迟和 Token 消耗成倍飙升，使得推理速度和调用成本成为制约 Agent 落地的核心瓶颈。

在此背景下，阶跃星辰（StepFun）发布了新一代模型 Step 3.7 Flash。该模型不仅在 OpenRouter Trending 榜单热度暴涨并稳居全球第二，更在 Artificial Analysis (AA) 榜单中登顶，包揽速度、性价比、端到端三项第一。其开源后在 HuggingFace 上的下载量和讨论热度持续高涨，引发了行业对“效率打法”在 Agent 时代价值的广泛关注。

核心内容

1. 性能突破：速度与性价比的双重领先 Step 3.7 Flash 的核心优势在于极致的推理效率与成本控制。

极速推理：在支持多模态的前提下，其单任务输出速度最高可达 416 tokens/s。在特定测试环境下（如 NVFP4 设置），极限吞吐甚至可达 6000 tok/s，常规上下文长度下稳定在 2000 tok/s 以上。相比之下，主流模型多在 30-100 tps 之间，此前最快的 GPT-5.3 也仅约 70 tps。
极致性价比：单任务成本仅为 Claude Opus 4.6 的约 1/9，但编程能力达到了 Claude 的 97%。在 OpenRouter 上，其定价为每百万输入 token 0.2 美元、输出 token 1.15 美元。
高缓存命中率：在 OpenRouter 60 多个服务商的统计中，阶跃以 86.1% 的缓存命中率位列全球第二（仅次于 DeepSeek），表明其底层推理系统工程优秀，能有效复用长任务中的重复上下文，进一步降低成本和延迟。

2. 实测表现：多模态理解与工具编排能力 文章通过具体场景实测了 Step 3.7 Flash 的能力：

多模态理解：上传灵巧手图片后，模型不仅能精准识别分段指节、灰色阻尼指尖等外观细节，还能主动联网搜索全维度参数（厂商、硬件、负载、售价等），并整理成结构化表格，响应速度极快。
工具编排：在“整理报销单”任务中，模型接入 OpenClaw，在不到 60 秒内完成发票金额核对、Excel 清单生成及财务说明撰写，内容无误，展现了在长程多轮任务中稳定调用工具且不跑偏的能力。

3. 高阶应用：多 Agent 集群协作 测试复刻了官方演示中的“40 个 Agent 扮演产品评测团”案例，用于评估一个新外卖 App 的 5 个新功能优先级。

执行过程：模型生成 40 个差异化虚拟用户（覆盖大学生、产品经理、护士等人群），分别投喂给 Agent。每个 Agent 基于人设对功能排序并给出理由。
结果分析：40 个 Agent 全部有效返回，无角色混淆。最终“AI 点菜推荐”以 11 票居首，“拼单”以 10 票紧随其后。分析显示，年轻白领偏好 AI 点菜以解决决策疲劳，而价格敏感人群（如学生）更倾向拼单和会员折扣。
结论：模型在处理复杂多 Agent 集群任务时表现稳定，能生成具有真实差异性的观点，避免了“假共识”，为产品经理提供了高效的需求评审辅助。

4. 战略延续：Flash 系列的企业级定位 Step 3.7 Flash 延续了 Step 3.5 Flash 的效率打法。Step 3.5 Flash 曾两天登顶 OpenRouter Trending，一个月内 OpenClaw 调用量全球第一，并量产上车极氪 8X 作为“Agent 大脑”。Step 3.7 Flash 在此基础上进一步兼顾了能力协同效率、稳定性和部署形态，旨在成为 Agent、Coding、Search 等场景的基础设施。

关键要点

榜单霸榜：Step 3.7 Flash 在 Artificial Analysis (AA) 榜单中登顶，获得速度、性价比、端到端三项第一；在 OpenRouter Trending 榜单热度全球第二。
速度极限：单任务最高输出速度 416 tokens/s，远超主流模型（30-100 tps），在特定优化下可达 6000 tok/s。
成本优势：单任务成本约为 Claude Opus 4.6 的 1/9，编程能力达到其 97%；OpenRouter 缓存命中率 86.1%，全球第二。
Agent 适配：专为 Agent 场景优化，解决高频交互带来的延迟和成本痛点，支持多 Agent 集群稳定协作（如 40 个 Agent 并行任务无混淆）。
多模态与工具链：具备强大的图文理解、联网搜索及结构化数据输出能力，能稳定执行长程工具调用任务（如自动报销整理）。
商业化路径：阶跃星辰通过“Flash”系列主打高效率、低成本、可规模化部署，契合企业级 Agent 对“单位成本交付有效结果”的核心需求。

意义与影响

Step 3.7 Flash 的崛起标志着大模型竞赛进入“效率优先”的新阶段。随着 Anthropic 等企业级 Agent 收入占比大幅提升，AI 落地的核心矛盾已从“谁更聪明”转向“谁能在单位成本下，又快又稳地跑完更多真实任务”。

重新定义 Agent 基础设施：Step 3.7 Flash 证明了在支持多模态和复杂工具调用的同时，实现极致速度和低成本是可行的。它填补了高端旗舰模型与低端模型之间的空白，成为企业级 Agent 工作流中承担大量生产任务的关键基础设施。
推动 AI 商业化落地：通过降低推理成本和延迟，Step 3.7 Flash 使得大规模部署 Agent 在经济上更具可行性。其高缓存命中率和低定价策略，直接响应了开发者和企业对“钱包遭不住”的痛点，加速了 AI 从 Demo 走向真实生产环境。
确立国产模型全球竞争力：在 OpenRouter 等全球平台上，Step 3.7 Flash 凭借性能与性价比的双重优势，与 DeepSeek、月之暗面等共同站在全球第一梯队，展示了中国 AI 模型在工程优化和商业化落地方面的强劲实力。
行业风向标：阶跃星辰的“效率打法”为行业提供了参考，预示着未来 AI 应用将不再依赖少数昂贵旗舰模型，而是形成由不同能力、成本、部署形态组成的“模型组合”，其中高效率模型将承担绝大部分日常生产任务。

查看原文 →qbitai.com

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐