AI 资讯Hacker News·6 天前

Step 3.7 Flash

速览

Step 3.7 Flash 是一款新的技术工具或模型版本。它旨在优化 AI 模型的训练流程或性能。该发布对 AI 开发领域具有潜在影响。

AI 深度解读

Step 3.7 Flash：迈向高效智能体（Agent）的新前沿

背景

随着人工智能从单纯的“回答问题”向“采取行动”转变，智能体（Agent）的效率与可靠性成为新的竞争高地。基础模型在数字世界中的核心行动形式是代码，而编码则是数字智能体的基石，也是衡量模型更广泛智能体能力的关键指标。

然而，在实际生产环境中，编码智能体很少运行在单一的框架上，而是嵌入在由各种 Harness（如 Claude Code, KiloCode, Hermes Agent, OpenClaw 等）组成的异构栈中。这些框架拥有各自独特的提示约定、工具模式和编排逻辑。因此，一个模型若要在真实场景中真正有用，必须在所有这些异构环境中保持可靠的性能表现。

在此背景下，Step 3.7 Flash 应运而生。作为 Step 系列的高效 Flash 模型，它旨在解决智能体在复杂环境下的执行效率、工具调用可靠性以及多模态感知能力，试图在保持 Flash 级别高效能的同时，缩小与更大规模模型在专业任务上的差距。

核心内容

Step 3.7 Flash 是一款专为现实世界智能体设计的高效率模型，其核心能力围绕原生多模态理解、搜索增强、工具编排以及企业级任务执行展开。

1. 原生多模态理解与行动

Step 3.7 Flash 具备跨全范围图像的理解能力，包括产品 UI、文档、图表和自然场景。它不仅“看懂”图像，还能根据所见内容编写代码或调用工具来执行具体操作。这种从感知到行动的无缝衔接，使其能够处理混合输入（如截图、复杂文档和密集电子表格），同时解析视觉上下文和数字资产。

2. 搜索能力的广度与深度

对于 Step 3.7 Flash 这样规模的模型，目标并非将世界知识全部打包进权重，而是提升其在需要时调用知识的能力。

搜索规划与证据过滤：模型将搜索从外部附加功能转化为推理过程的原生部分，专注于搜索规划、证据过滤和信息综合。
视觉搜索增强：能够识别其他系统无法识别的长尾实体和新兴概念。
基准测试表现：
- 在 HLE with Tools 上得分 47.20%（相比 Step 3.5 Flash 的 35.68% 有显著提升），优于 DeepSeek V4 和 Gemini 3.5 的 Flash 模型。
- 在 BrowseComp 上达到 75.82%，接近 Claude Opus 4.7 和 GLM 5.1 等更大规模模型。
- 在 DeepSearchQA 上取得 92.82% 的 F1 分数，与 Kimi K2.6（1T/32B-active 参数模型）相当。
- 在 ResearchRubrics 上得分 71.68%，领先于 GPT 5.5（61.50%），接近 Claude Opus 4.7（73.92%）。

3. 可靠的工具使用与编排

模型能够驱动终端、浏览器、Office 工具及搜索引擎等，即使在长时间运行中也能保持连贯性，减少漂移（drift）、工具调用失败和运行中断。

多工具协调：在 Toolathlon 基准测试中，多工具协调能力达到 49.5%。
日常自主任务：在 ClawEval-1.1 基准测试中，现实环境下的日常自主任务执行率达到 67.1%。

4. 智能体生态兼容性

Step 3.7 Flash 兼容主流的智能体框架（Harnesses）和技能（Skills），包括 Claude Code、KiloCode、Hermes Agent 和 OpenClaw。这种兼容性降低了集成成本，减少了工作流的重新配置需求。

5. 企业级任务优化

针对企业工作对动态环境自主执行和垂直领域深度知识的需求，Step 3.7 Flash 进行了专门优化：

领域专家实践：通过与领域专家深度合作，将金融、会计和数据分析等行业专业知识嵌入模型。
职业通用能力：在涵盖 44 种职业的 GDPval 基准测试中达到 45.8% 的得分。
推理能力：在 Tau2-bench Telecom 的不同推理难度层级上，通过率超过 98%。

6. 视觉感知与 GUI 操作

Step 3.7 Flash 作为支持视觉输入的智能体基础模型，通过测试时缩放（test-time scaling）来增强感知和识别能力：

视觉搜索工具：通过调用 Visual Search 工具，弥补了模型参数规模有限带来的知识缺陷。在视觉识别任务中，配合 Visual Search 的 Step 3.7 Flash 性能可与体积为其五倍的模型相媲美。
Python 工具交互：针对高分辨率图像和视觉推理任务（如 V*, HR-Bench, VisualProbe），模型通过统一的代码接口（Python 工具）进行裁剪、缩放、绘制像素或边界框等操作，取得了极其优异的表现。
GUI 操作能力：扩展了 GUI 操作能力，特别是针对 Phone-use 栈，使其能在多个应用间完成长周期任务。在 Android Daily 基准测试中，其在稳定性、鲁棒性和长周期完成度上相比去年的 Step-GUI 有显著提升，并优于其他更大规模的模型。
组合泛化能力：测试发现，Step 3.7 Flash 具备视觉工具与非视觉工具的组合泛化能力，能在未经显式训练的情况下，无缝结合不同工具完成复杂任务。

7. 顾问模式（Advisor Mode）与成本效益

为了在保持 Flash 级别效率的同时进一步提升质量，Step 3.7 Flash 支持 Advisor Mode。

工作原理：模型端到端驱动任务轨迹（调用工具、读取结果、迭代），仅在规划或从重复失败中恢复等少数关键节点咨询更大的顾问模型。这借鉴了 Anthropic 提出的顾问策略，即小执行者保持控制，仅在必要时升级至前沿顾问，从而将大部分运行成本控制在执行者级别。
性能与成本对比：启用 Advisor Mode 后，Step 3.7 Flash 在编码性能上达到 Claude Opus 4.6 的 97%，但每任务成本仅为后者的约九分之一（$0.19 vs $1.76）。
编码基准提升：相比 Step 3.5 Flash，Step 3.7 Flash 在 SWE-Bench Pro 上提升 +5%，在 Terminal-Bench 2.1 上提升 6.1%。在内部 Step-SWE-Bench 测试中，其在不同 Harness 间的性能差距显著缩小，表现更加均衡。

关键要点

效率与性能的平衡：Step 3.7 Flash 通过 Advisor Mode 策略，以约 1/9 的成本达到了 Claude Opus 4.6 97% 的编码性能，实现了 Flash 级效率与前沿性能的平衡。
原生多模态行动力：不仅理解图像（UI、文档、图表等），还能直接基于视觉内容编写代码或调用工具，实现从感知到行动的闭环。
搜索即推理：将搜索能力内化为推理过程的一部分，在 HLE、BrowseComp、DeepSearchQA 等重度搜索基准测试中，性能超越或接近更大规模的模型。
异构环境适应性：在多种主流智能体框架（Harnesses）中表现均衡，解决了生产环境中模型需适应不同提示和工具模式痛点。
视觉与 GUI 增强：通过 Visual Search 和 Python 工具接口，弥补了小模型参数知识的不足，在视觉识别、高分辨率图像推理及 Android 应用操作等任务中展现出超越自身规模的性能。
企业级垂直优化：在金融、会计、数据分析等领域嵌入行业Know-how，并在多职业通用基准（GDPval）和电信推理基准（Tau2-bench）中表现优异。

意义与影响

Step 3

查看原文 →static.stepfun.com