← 返回信息流
AI 资讯量子位·1 小时前

阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一

速览

阶跃Step 3.7 Flash在AA榜中表现卓越,一举拿下速度、性价比和端到端三项第一。该模型不仅推理速度快,还显著降低了使用成本。这一成绩标志着其在性能与经济性平衡上取得了重大突破。

AI 深度解读

背景

近期,大模型行业的竞争焦点正经历从“单次问答能力上限”向“效率优先”的深刻转变。随着 Agent(智能体)成为主流落地形态,AI 需要在真实业务链路中反复调用工具、多轮检索信息及分步拆解复杂任务。这种高频交互导致推理延迟和 Token 消耗成倍飙升,使得推理速度和调用成本成为制约 Agent 落地的核心瓶颈。

在此背景下,阶跃星辰(StepFun)发布了新一代模型 Step 3.7 Flash。该模型不仅在 OpenRouter Trending 榜单热度暴涨并稳居全球第二,更在 Artificial Analysis (AA) 榜单中登顶,包揽速度、性价比、端到端三项第一。其开源后在 HuggingFace 上的下载量和讨论热度持续高涨,引发了行业对“效率打法”在 Agent 时代价值的广泛关注。

核心内容

1. 性能突破:速度与性价比的双重领先 Step 3.7 Flash 的核心优势在于极致的推理效率与成本控制。

  • 极速推理:在支持多模态的前提下,其单任务输出速度最高可达 416 tokens/s。在特定测试环境下(如 NVFP4 设置),极限吞吐甚至可达 6000 tok/s,常规上下文长度下稳定在 2000 tok/s 以上。相比之下,主流模型多在 30-100 tps 之间,此前最快的 GPT-5.3 也仅约 70 tps。
  • 极致性价比:单任务成本仅为 Claude Opus 4.6 的约 1/9,但编程能力达到了 Claude 的 97%。在 OpenRouter 上,其定价为每百万输入 token 0.2 美元、输出 token 1.15 美元。
  • 高缓存命中率:在 OpenRouter 60 多个服务商的统计中,阶跃以 86.1% 的缓存命中率位列全球第二(仅次于 DeepSeek),表明其底层推理系统工程优秀,能有效复用长任务中的重复上下文,进一步降低成本和延迟。

2. 实测表现:多模态理解与工具编排能力 文章通过具体场景实测了 Step 3.7 Flash 的能力:

  • 多模态理解:上传灵巧手图片后,模型不仅能精准识别分段指节、灰色阻尼指尖等外观细节,还能主动联网搜索全维度参数(厂商、硬件、负载、售价等),并整理成结构化表格,响应速度极快。
  • 工具编排:在“整理报销单”任务中,模型接入 OpenClaw,在不到 60 秒内完成发票金额核对、Excel 清单生成及财务说明撰写,内容无误,展现了在长程多轮任务中稳定调用工具且不跑偏的能力。

3. 高阶应用:多 Agent 集群协作 测试复刻了官方演示中的“40 个 Agent 扮演产品评测团”案例,用于评估一个新外卖 App 的 5 个新功能优先级。

  • 执行过程:模型生成 40 个差异化虚拟用户(覆盖大学生、产品经理、护士等人群),分别投喂给 Agent。每个 Agent 基于人设对功能排序并给出理由。
  • 结果分析:40 个 Agent 全部有效返回,无角色混淆。最终“AI 点菜推荐”以 11 票居首,“拼单”以 10 票紧随其后。分析显示,年轻白领偏好 AI 点菜以解决决策疲劳,而价格敏感人群(如学生)更倾向拼单和会员折扣。
  • 结论:模型在处理复杂多 Agent 集群任务时表现稳定,能生成具有真实差异性的观点,避免了“假共识”,为产品经理提供了高效的需求评审辅助。

4. 战略延续:Flash 系列的企业级定位 Step 3.7 Flash 延续了 Step 3.5 Flash 的效率打法。Step 3.5 Flash 曾两天登顶 OpenRouter Trending,一个月内 OpenClaw 调用量全球第一,并量产上车极氪 8X 作为“Agent 大脑”。Step 3.7 Flash 在此基础上进一步兼顾了能力协同效率、稳定性和部署形态,旨在成为 Agent、Coding、Search 等场景的基础设施。

关键要点

  • 榜单霸榜:Step 3.7 Flash 在 Artificial Analysis (AA) 榜单中登顶,获得速度、性价比、端到端三项第一;在 OpenRouter Trending 榜单热度全球第二。
  • 速度极限:单任务最高输出速度 416 tokens/s,远超主流模型(30-100 tps),在特定优化下可达 6000 tok/s。
  • 成本优势:单任务成本约为 Claude Opus 4.6 的 1/9,编程能力达到其 97%;OpenRouter 缓存命中率 86.1%,全球第二。
  • Agent 适配:专为 Agent 场景优化,解决高频交互带来的延迟和成本痛点,支持多 Agent 集群稳定协作(如 40 个 Agent 并行任务无混淆)。
  • 多模态与工具链:具备强大的图文理解、联网搜索及结构化数据输出能力,能稳定执行长程工具调用任务(如自动报销整理)。
  • 商业化路径:阶跃星辰通过“Flash”系列主打高效率、低成本、可规模化部署,契合企业级 Agent 对“单位成本交付有效结果”的核心需求。

意义与影响

Step 3.7 Flash 的崛起标志着大模型竞赛进入“效率优先”的新阶段。随着 Anthropic 等企业级 Agent 收入占比大幅提升,AI 落地的核心矛盾已从“谁更聪明”转向“谁能在单位成本下,又快又稳地跑完更多真实任务”。

  1. 重新定义 Agent 基础设施:Step 3.7 Flash 证明了在支持多模态和复杂工具调用的同时,实现极致速度和低成本是可行的。它填补了高端旗舰模型与低端模型之间的空白,成为企业级 Agent 工作流中承担大量生产任务的关键基础设施。
  2. 推动 AI 商业化落地:通过降低推理成本和延迟,Step 3.7 Flash 使得大规模部署 Agent 在经济上更具可行性。其高缓存命中率和低定价策略,直接响应了开发者和企业对“钱包遭不住”的痛点,加速了 AI 从 Demo 走向真实生产环境。
  3. 确立国产模型全球竞争力:在 OpenRouter 等全球平台上,Step 3.7 Flash 凭借性能与性价比的双重优势,与 DeepSeek、月之暗面等共同站在全球第一梯队,展示了中国 AI 模型在工程优化和商业化落地方面的强劲实力。
  4. 行业风向标:阶跃星辰的“效率打法”为行业提供了参考,预示着未来 AI 应用将不再依赖少数昂贵旗舰模型,而是形成由不同能力、成本、部署形态组成的“模型组合”,其中高效率模型将承担绝大部分日常生产任务。
查看原文 →qbitai.com