← 返回信息流
AI 资讯Hacker News·6 天前

Step 3.7 Flash

速览

Step 3.7 Flash 是一款新的技术工具或模型版本。它旨在优化 AI 模型的训练流程或性能。该发布对 AI 开发领域具有潜在影响。

AI 深度解读

Step 3.7 Flash:迈向高效智能体(Agent)的新前沿

背景

随着人工智能从单纯的“回答问题”向“采取行动”转变,智能体(Agent)的效率与可靠性成为新的竞争高地。基础模型在数字世界中的核心行动形式是代码,而编码则是数字智能体的基石,也是衡量模型更广泛智能体能力的关键指标。

然而,在实际生产环境中,编码智能体很少运行在单一的框架上,而是嵌入在由各种 Harness(如 Claude Code, KiloCode, Hermes Agent, OpenClaw 等)组成的异构栈中。这些框架拥有各自独特的提示约定、工具模式和编排逻辑。因此,一个模型若要在真实场景中真正有用,必须在所有这些异构环境中保持可靠的性能表现。

在此背景下,Step 3.7 Flash 应运而生。作为 Step 系列的高效 Flash 模型,它旨在解决智能体在复杂环境下的执行效率、工具调用可靠性以及多模态感知能力,试图在保持 Flash 级别高效能的同时,缩小与更大规模模型在专业任务上的差距。

核心内容

Step 3.7 Flash 是一款专为现实世界智能体设计的高效率模型,其核心能力围绕原生多模态理解、搜索增强、工具编排以及企业级任务执行展开。

1. 原生多模态理解与行动

Step 3.7 Flash 具备跨全范围图像的理解能力,包括产品 UI、文档、图表和自然场景。它不仅“看懂”图像,还能根据所见内容编写代码或调用工具来执行具体操作。这种从感知到行动的无缝衔接,使其能够处理混合输入(如截图、复杂文档和密集电子表格),同时解析视觉上下文和数字资产。

2. 搜索能力的广度与深度

对于 Step 3.7 Flash 这样规模的模型,目标并非将世界知识全部打包进权重,而是提升其在需要时调用知识的能力。

  • 搜索规划与证据过滤:模型将搜索从外部附加功能转化为推理过程的原生部分,专注于搜索规划、证据过滤和信息综合。
  • 视觉搜索增强:能够识别其他系统无法识别的长尾实体和新兴概念。
  • 基准测试表现
    • HLE with Tools 上得分 47.20%(相比 Step 3.5 Flash 的 35.68% 有显著提升),优于 DeepSeek V4 和 Gemini 3.5 的 Flash 模型。
    • BrowseComp 上达到 75.82%,接近 Claude Opus 4.7 和 GLM 5.1 等更大规模模型。
    • DeepSearchQA 上取得 92.82% 的 F1 分数,与 Kimi K2.6(1T/32B-active 参数模型)相当。
    • ResearchRubrics 上得分 71.68%,领先于 GPT 5.5(61.50%),接近 Claude Opus 4.7(73.92%)。

3. 可靠的工具使用与编排

模型能够驱动终端、浏览器、Office 工具及搜索引擎等,即使在长时间运行中也能保持连贯性,减少漂移(drift)、工具调用失败和运行中断。

  • 多工具协调:在 Toolathlon 基准测试中,多工具协调能力达到 49.5%。
  • 日常自主任务:在 ClawEval-1.1 基准测试中,现实环境下的日常自主任务执行率达到 67.1%。

4. 智能体生态兼容性

Step 3.7 Flash 兼容主流的智能体框架(Harnesses)和技能(Skills),包括 Claude Code、KiloCode、Hermes Agent 和 OpenClaw。这种兼容性降低了集成成本,减少了工作流的重新配置需求。

5. 企业级任务优化

针对企业工作对动态环境自主执行和垂直领域深度知识的需求,Step 3.7 Flash 进行了专门优化:

  • 领域专家实践:通过与领域专家深度合作,将金融、会计和数据分析等行业专业知识嵌入模型。
  • 职业通用能力:在涵盖 44 种职业的 GDPval 基准测试中达到 45.8% 的得分。
  • 推理能力:在 Tau2-bench Telecom 的不同推理难度层级上,通过率超过 98%。

6. 视觉感知与 GUI 操作

Step 3.7 Flash 作为支持视觉输入的智能体基础模型,通过测试时缩放(test-time scaling)来增强感知和识别能力:

  • 视觉搜索工具:通过调用 Visual Search 工具,弥补了模型参数规模有限带来的知识缺陷。在视觉识别任务中,配合 Visual Search 的 Step 3.7 Flash 性能可与体积为其五倍的模型相媲美。
  • Python 工具交互:针对高分辨率图像和视觉推理任务(如 V*, HR-Bench, VisualProbe),模型通过统一的代码接口(Python 工具)进行裁剪、缩放、绘制像素或边界框等操作,取得了极其优异的表现。
  • GUI 操作能力:扩展了 GUI 操作能力,特别是针对 Phone-use 栈,使其能在多个应用间完成长周期任务。在 Android Daily 基准测试中,其在稳定性、鲁棒性和长周期完成度上相比去年的 Step-GUI 有显著提升,并优于其他更大规模的模型。
  • 组合泛化能力:测试发现,Step 3.7 Flash 具备视觉工具与非视觉工具的组合泛化能力,能在未经显式训练的情况下,无缝结合不同工具完成复杂任务。

7. 顾问模式(Advisor Mode)与成本效益

为了在保持 Flash 级别效率的同时进一步提升质量,Step 3.7 Flash 支持 Advisor Mode。

  • 工作原理:模型端到端驱动任务轨迹(调用工具、读取结果、迭代),仅在规划或从重复失败中恢复等少数关键节点咨询更大的顾问模型。这借鉴了 Anthropic 提出的顾问策略,即小执行者保持控制,仅在必要时升级至前沿顾问,从而将大部分运行成本控制在执行者级别。
  • 性能与成本对比:启用 Advisor Mode 后,Step 3.7 Flash 在编码性能上达到 Claude Opus 4.6 的 97%,但每任务成本仅为后者的约九分之一($0.19 vs $1.76)。
  • 编码基准提升:相比 Step 3.5 Flash,Step 3.7 Flash 在 SWE-Bench Pro 上提升 +5%,在 Terminal-Bench 2.1 上提升 6.1%。在内部 Step-SWE-Bench 测试中,其在不同 Harness 间的性能差距显著缩小,表现更加均衡。

关键要点

  • 效率与性能的平衡:Step 3.7 Flash 通过 Advisor Mode 策略,以约 1/9 的成本达到了 Claude Opus 4.6 97% 的编码性能,实现了 Flash 级效率与前沿性能的平衡。
  • 原生多模态行动力:不仅理解图像(UI、文档、图表等),还能直接基于视觉内容编写代码或调用工具,实现从感知到行动的闭环。
  • 搜索即推理:将搜索能力内化为推理过程的一部分,在 HLE、BrowseComp、DeepSearchQA 等重度搜索基准测试中,性能超越或接近更大规模的模型。
  • 异构环境适应性:在多种主流智能体框架(Harnesses)中表现均衡,解决了生产环境中模型需适应不同提示和工具模式痛点。
  • 视觉与 GUI 增强:通过 Visual Search 和 Python 工具接口,弥补了小模型参数知识的不足,在视觉识别、高分辨率图像推理及 Android 应用操作等任务中展现出超越自身规模的性能。
  • 企业级垂直优化:在金融、会计、数据分析等领域嵌入行业Know-how,并在多职业通用基准(GDPval)和电信推理基准(Tau2-bench)中表现优异。

意义与影响

Step 3

查看原文 →static.stepfun.com