技术博客arXiv cs.AI·3 小时前

Fara-1.5：基于可扩展学习环境的计算机使用智能体

原标题：Fara-1.5: Scalable Learning Environments for Computer Use Agents

速览

研究团队提出FaraGen1.5，这是一种包含环境、求解器和验证器的可扩展数据生成管道，用于解决计算机使用数据收集成本高的问题。基于该管道产生的数据，团队在Qwen3.5（4B、9B、27B）上训练了Fara-1.5系列原生计算机使用智能体。实验表明，Fara-1.5在浏览器使用基准测试中均创下同尺寸模型新纪录，其中27B版本性能可与大型专有系统竞争。

AI 深度解读

Fara-1.5：面向计算机使用代理的可扩展学习环境

背景

在计算机使用代理（Computer Use Agents, CUAs）的发展过程中，数据收集一直是一个巨大的瓶颈。从人类演示中收集计算机使用数据不仅成本高昂，而且速度缓慢。这种低效的数据获取方式严重制约了代理模型的性能提升和规模化应用。为了解决这一痛点，研究界迫切需要一种可扩展的数据生成策略。

实现这一策略需要两个核心要素：一是允许代理进行操作的环境，二是能够判断演示是否成功的验证器（Verifiers）。然而，现有的解决方案往往难以同时满足大规模生成、高保真模拟以及多轮交互的需求，特别是在涉及需要身份验证或不可逆操作的复杂场景中。

核心内容

本文介绍了 FaraGen1.5，这是一个专为计算机使用代理设计的可扩展数据生成管道。该管道由三个模块化组件构成：环境（Environments）、求解器（Solvers） 和 验证器（Verifiers）。基于该管道生成的数据，研究团队训练了 Fara1.5 系列原生计算机使用代理。

1. FaraGen1.5 数据生成管道

FaraGen1.5 旨在通过自动化流程生成高质量、多样化的计算机使用轨迹数据，其核心架构包含以下三个部分：

混合环境系统：
- 实时网站：直接利用真实的互联网资源进行交互。
- 合成环境：针对那些受身份验证（authentication）保护或需要执行不可逆操作（irreversible actions）的领域，构建了高保真的合成环境进行模拟。这确保了代理可以在安全且可控的环境中学习复杂任务，而无需面对真实世界的访问限制或操作风险。
多模型求解器框架（Solver Harness）：
- 该框架支持接入多种模型作为求解器，包括强大的前沿模型（如 GPT-5.4）。
- 引入了用户模拟器（User Simulator），使得代理能够进行多轮对话和交互（multi-turn rollouts），从而更真实地模拟人类与计算机系统的复杂互动过程。
三维验证体系：
- 为了评估生成轨迹的质量，FaraGen1.5 采用了三个互补的验证器，分别从以下维度对轨迹进行打分：
  1. 任务正确性（Task Correctness）：任务是否成功完成。
  2. 效率（Efficiency）：完成任务所需的步骤和资源是否优化。
  3. 关键点遵循（Critical-point Adherence）：是否严格遵守了任务中的关键约束和步骤。

2. Fara1.5 模型训练与性能

利用 FaraGen1.5 生成的数据，研究团队基于 Qwen3.5 架构训练了三个不同规模的 Fara1.5 原生计算机使用代理，参数量分别为 4B、9B 和 27B。

训练策略：
- 采用了一种精心设计的监督微调（Supervised Fine-Tuning, SFT）配方。
- 通过迭代方法，平衡来自 FaraGen1.5 的广泛覆盖数据、特定高价值任务数据以及针对目标模型缺陷的补充数据。这种策略确保了模型既能具备通用的计算机操作能力，又能针对特定领域进行优化。
基准测试结果： Fara1.5 系列模型在其各自的大小类别中均设立了新的最先进（State-of-the-Art, SOTA）纪录：
- Fara1.5-9B：在 Online-Mind2Web 基准上达到 63.4%，在 WebVoyager 基准上达到 86.6%。
- Fara1.5-27B：在 Online-Mind2Web 基准上达到 72.3%。这一成绩极具竞争力，足以媲美许多规模大得多的专有系统（proprietary systems）。

关键要点

解决数据瓶颈：通过 FaraGen1.5 管道，解决了从人类演示中收集计算机使用数据成本高、速度慢的问题，实现了数据的大规模自动化生成。
混合环境模拟：结合实时网站与高保真合成环境，有效处理了需要身份验证或不可逆操作的复杂场景，扩大了可训练任务的覆盖范围。
多模型与多轮交互：求解器框架兼容包括 GPT-5.4 在内的多种前沿模型，并通过用户模拟器支持多轮交互，提升了数据生成的真实性和多样性。
多维质量评估：引入任务正确性、效率和关键点遵循三个维度的验证器，确保生成数据的高质量和高可用性。
小模型大性能：基于 Qwen3.5 训练的 Fara1.5 系列模型（4B/9B/27B）在浏览器使用基准测试中表现优异，特别是 27B 模型的性能可与大型专有系统抗衡，证明了高效数据管道对模型性能的关键作用。
迭代式 SFT 策略：通过平衡广泛覆盖数据、高价值任务数据和模型缺陷补充数据，实现了模型性能的持续优化。

意义与影响

Fara-1.5 及其背后的 FaraGen1.5 管道代表了计算机使用代理（CUA）领域的一个重要进展。其意义主要体现在以下几个方面：

降低开发门槛：通过提供可扩展的数据生成基础设施，降低了开发高性能计算机使用代理的数据成本，使得更多研究者和开发者能够利用高质量数据进行模型训练。
提升小模型竞争力：证明了通过高质量的数据工程和精细的训练策略，中等规模的开源模型（如 9B 和 27B）可以在复杂任务中匹敌甚至超越大型专有系统。这有助于推动开源 AI 生态的发展，减少对闭源大模型的依赖。
增强安全性与可控性：合成环境的使用允许在隔离、安全的环境中训练代理处理敏感或不可逆操作，为未来部署更安全的 AI 代理提供了技术路径。
标准化评估体系：提出的三维验证器（正确性、效率、关键点遵循）为计算机使用代理的性能评估提供了更全面的视角，有助于推动该领域评估标准的统一和完善。

总之，Fara-1.5 不仅展示了在计算机使用代理任务上的最新技术突破，也为未来构建更智能、更高效、更安全的 AI 代理系统提供了重要的方法论参考。

查看原文 →arxiv.org