← 返回信息流
技术博客Hugging Face Blog·2 天前

Holo3.1发布:支持本地部署的高速计算机使用智能体

原标题:Holo3.1: Fast & Local Computer Use Agents

速览

Holo3.1是一款专注于计算机使用任务的智能体系统。其核心优势在于支持本地化部署,确保数据隐私与安全。同时,该版本显著提升了运行速度,旨在为用户提供更高效、流畅的自动化交互体验。

AI 深度解读

Holo3.1:快速且本地化的计算机使用智能体

背景

随着 AI 智能体(Agents)从实验阶段走向生产环境,用户对于“计算机使用”(Computer Use)能力的需求发生了显著变化。用户不再满足于仅在特定环境下运行的单一模型,而是希望具备跨桌面、移动和 Web 环境的无缝操作能力,并能与不同的智能体框架(Agent Frameworks)深度集成。

此外,部署的灵活性成为关键痛点。企业和个人用户既需要云端推理的弹性,也迫切需要能够在终端设备上完全本地化执行的能力,以确保数据隐私和低延迟。

基于 Qwen 家族架构开发的 Holo3.1 正是为了回应这一愿景而生。Holo3 团队在将 Holo3 从评估推向生产的过程中发现,尽管模型在单一设置下表现强劲,但在面对移动设备、替代智能体框架或不同执行框架时,往往会出现分布偏移(Distribution Shift),导致性能下降。Holo3.1 旨在解决这一挑战,通过提升在环境兼容性、智能体框架集成以及部署目标三个维度上的鲁棒性,向“通用计算机使用智能体”的目标迈出重要一步。

核心内容

Holo3.1 是 Holo 系列的一次重大升级,其核心改进体现在跨环境鲁棒性、框架兼容性、模型尺寸多样化以及本地推理优化四个方面。

1. 跨 GUI 环境与智能体框架的鲁棒性提升

Holo3.1 的设计初衷是解决生产环境中常见的“性能迁移”难题。

  • 移动自动化增强:Holo3.1 将能力从浏览器和桌面控制扩展至移动环境。在 AndroidWorld 基准测试中,35B-A3B 模型的得分从 67% 提升至 79.3%;较小的 4B 和 9B 变体得分也从 58% 提升至 72%。
  • 跨框架性能一致性:为了支持团队在第三方智能体栈中部署 Holo,Holo3.1 引入了对函数调用协议(Function-calling protocols)的原生支持,除了 Holo3 中已有的结构化 JSON 输出外,提供了更灵活的交互方式。在 OSWorld 及涵盖电商、商业软件和协作工作流的内部基准测试中,函数调用和原生执行的性能已接近持平。此外,在 Holotab 产品框架内的评估显示,Holo3.1 相比 Holo3 性能提升了 25% 以上。

2. 多尺寸模型以平衡成本与性能

为了适应不同的部署需求,Holo3.1 发布了新的模型尺寸组合:

  • 大模型:保留 35B-A3B 模型,用于追求最先进性能的场景。
  • 小模型:新增 0.8B、4B 和 9B 小型模型,旨在实现更具成本效益和隐私保护的本地部署。 性能对比显示,Holo3.1 和 Qwen 3.5 家族在四个 H Corporate 基准测试中的平均表现均衡,并在 OSWorld、AndroidWorld、ScreenSpot-Pro 等基准上保持了高水平竞争力。

3. 首次发布量化检查点,支持快速本地推理

这是 Holo 系列首次发布量化权重,主要面向本地和边缘部署,包括 FP8、Q4 GGUF 和 NVFP4 格式。

  • NVFP4 优化:针对 35B-A3B 检查点,团队使用 NVIDIA Model Optimizer 在 W4A16 配置下实现了 NVFP4 量化。这种量化几乎不损失模型性能,FP8 和 NVFP4 在 OSWorld 上的得分相同,仅比全精度 BF16 检查点低约两个点。
  • 显著的速度提升:在 DGX Spark 设备上,NVFP4 W4A16 的总 Token 吞吐量是 FP8 的 1.41 倍,是 BF16 的 1.74 倍。

4. 面向消费级硬件的本地智能体部署

Holo3.1 特别关注在消费级硬件上的落地能力:

  • 混合部署架构:智能体本身可以在 Windows 或 Mac 机器上本地运行,模型则可以选择在同一台机器上运行(团队提供了 Apple Silicon 的参考数据),或者在同一网络内的 DGX Spark 上运行。无论哪种方式,执行过程完全私有且本地化,数据不会离开用户网络。
  • 端到端加速:在 DGX Spark 上,结合与 NVIDIA 共同开发的智能体框架优化以及上述 NVFP4 量化技术,端到端速度相比 FP8 基线实现了约 2 倍的复合加速,平均步骤时间从 6.8 秒缩短至 3.3 秒。
  • 请求率表现:在 DGX Spark 上,使用 vLLM 和 NVFP4 在默认模式和快速模式下均实现了最高的请求率,其次是 Q4 GGUF 和 FP8。这些优化即将集成到即将发布的桌面智能体框架中。

关键要点

  • 通用性愿景:Holo3.1 致力于成为可在任何环境(Web、桌面、移动)、集成到任何智能体栈、并在任何工作流所在地运行的通用计算机使用智能体。
  • 移动性能突破:在 AndroidWorld 测试中,35B-A3B 模型准确率提升至 79.3%,4B/9B 模型提升至 72%,显著增强了移动自动化能力。
  • 框架兼容性:新增对函数调用协议的原生支持,解决了跨第三方智能体框架部署时的分布偏移问题,Holotab 内性能提升超 25%。
  • 量化技术落地
    • 首次提供 FP8、Q4 GGUF 和 NVFP4 量化检查点。
    • NVFP4 (W4A16) 在 DGX Spark 上吞吐量比 BF16 快 1.74 倍,且性能损失极小。
    • Q4 GGUF 专为消费级硬件(如 Apple Silicon)的本地部署优化。
  • 隐私与本地化:支持完全本地化的执行模式,数据不出网,适合对隐私敏感的企业和个人用户。
  • 模型家族扩展:发布 0.8B、4B、9B 和 35B-A3B 四种尺寸,覆盖从极致轻量到高性能的各种成本-性能权衡需求。

意义与影响

Holo3.1 的发布标志着 AI 智能体从“云端演示”向“本地实用”迈出了关键一步。

首先,它打破了环境壁垒。通过显著提升在移动设备和不同智能体框架下的鲁棒性,Holo3.1 解决了以往模型“水土不服”的问题,使得开发者可以更自信地将 AI 能力部署到多样化的真实场景中,而不仅仅是受控的桌面浏览器环境。

其次,量化技术的精细化应用降低了门槛。通过提供 NVFP4 和 Q4 GGUF 等针对特定硬件(如 NVIDIA DGX Spark 和 Apple Silicon)优化的量化格式,Holo3.1 使得在消费级硬件上运行高性能计算机使用智能体成为可能。这不仅降低了推理成本,更通过本地化执行满足了日益严格的数据隐私合规要求。

最后,生态兼容性的增强促进了集成。原生支持函数调用协议并兼容主流智能体框架,意味着 Holo3.1 可以无缝嵌入现有的开发工作流中,减少了集成复杂度。这对于推动 AI 智能体在电商、办公协作等垂直领域的规模化落地具有重要的商业价值。

随着 Holo3.1 在 Hugging Face 集合中的开放以及 API 的提供,开发者将能够更便捷地构建跨平台、高隐私、低延迟的下一代智能体应用。

查看原文 →huggingface.co