技术博客Hugging Face Blog·2 天前

Holo3.1发布：支持本地部署的高速计算机使用智能体

原标题：Holo3.1: Fast & Local Computer Use Agents

速览

Holo3.1是一款专注于计算机使用任务的智能体系统。其核心优势在于支持本地化部署，确保数据隐私与安全。同时，该版本显著提升了运行速度，旨在为用户提供更高效、流畅的自动化交互体验。

AI 深度解读

Holo3.1：快速且本地化的计算机使用智能体

背景

随着 AI 智能体（Agents）从实验阶段走向生产环境，用户对于“计算机使用”（Computer Use）能力的需求发生了显著变化。用户不再满足于仅在特定环境下运行的单一模型，而是希望具备跨桌面、移动和 Web 环境的无缝操作能力，并能与不同的智能体框架（Agent Frameworks）深度集成。

此外，部署的灵活性成为关键痛点。企业和个人用户既需要云端推理的弹性，也迫切需要能够在终端设备上完全本地化执行的能力，以确保数据隐私和低延迟。

基于 Qwen 家族架构开发的 Holo3.1 正是为了回应这一愿景而生。Holo3 团队在将 Holo3 从评估推向生产的过程中发现，尽管模型在单一设置下表现强劲，但在面对移动设备、替代智能体框架或不同执行框架时，往往会出现分布偏移（Distribution Shift），导致性能下降。Holo3.1 旨在解决这一挑战，通过提升在环境兼容性、智能体框架集成以及部署目标三个维度上的鲁棒性，向“通用计算机使用智能体”的目标迈出重要一步。

核心内容

Holo3.1 是 Holo 系列的一次重大升级，其核心改进体现在跨环境鲁棒性、框架兼容性、模型尺寸多样化以及本地推理优化四个方面。

1. 跨 GUI 环境与智能体框架的鲁棒性提升

Holo3.1 的设计初衷是解决生产环境中常见的“性能迁移”难题。

移动自动化增强：Holo3.1 将能力从浏览器和桌面控制扩展至移动环境。在 AndroidWorld 基准测试中，35B-A3B 模型的得分从 67% 提升至 79.3%；较小的 4B 和 9B 变体得分也从 58% 提升至 72%。
跨框架性能一致性：为了支持团队在第三方智能体栈中部署 Holo，Holo3.1 引入了对函数调用协议（Function-calling protocols）的原生支持，除了 Holo3 中已有的结构化 JSON 输出外，提供了更灵活的交互方式。在 OSWorld 及涵盖电商、商业软件和协作工作流的内部基准测试中，函数调用和原生执行的性能已接近持平。此外，在 Holotab 产品框架内的评估显示，Holo3.1 相比 Holo3 性能提升了 25% 以上。

2. 多尺寸模型以平衡成本与性能

为了适应不同的部署需求，Holo3.1 发布了新的模型尺寸组合：

大模型：保留 35B-A3B 模型，用于追求最先进性能的场景。
小模型：新增 0.8B、4B 和 9B 小型模型，旨在实现更具成本效益和隐私保护的本地部署。性能对比显示，Holo3.1 和 Qwen 3.5 家族在四个 H Corporate 基准测试中的平均表现均衡，并在 OSWorld、AndroidWorld、ScreenSpot-Pro 等基准上保持了高水平竞争力。

3. 首次发布量化检查点，支持快速本地推理

这是 Holo 系列首次发布量化权重，主要面向本地和边缘部署，包括 FP8、Q4 GGUF 和 NVFP4 格式。

NVFP4 优化：针对 35B-A3B 检查点，团队使用 NVIDIA Model Optimizer 在 W4A16 配置下实现了 NVFP4 量化。这种量化几乎不损失模型性能，FP8 和 NVFP4 在 OSWorld 上的得分相同，仅比全精度 BF16 检查点低约两个点。
显著的速度提升：在 DGX Spark 设备上，NVFP4 W4A16 的总 Token 吞吐量是 FP8 的 1.41 倍，是 BF16 的 1.74 倍。

4. 面向消费级硬件的本地智能体部署

Holo3.1 特别关注在消费级硬件上的落地能力：

混合部署架构：智能体本身可以在 Windows 或 Mac 机器上本地运行，模型则可以选择在同一台机器上运行（团队提供了 Apple Silicon 的参考数据），或者在同一网络内的 DGX Spark 上运行。无论哪种方式，执行过程完全私有且本地化，数据不会离开用户网络。
端到端加速：在 DGX Spark 上，结合与 NVIDIA 共同开发的智能体框架优化以及上述 NVFP4 量化技术，端到端速度相比 FP8 基线实现了约 2 倍的复合加速，平均步骤时间从 6.8 秒缩短至 3.3 秒。
请求率表现：在 DGX Spark 上，使用 vLLM 和 NVFP4 在默认模式和快速模式下均实现了最高的请求率，其次是 Q4 GGUF 和 FP8。这些优化即将集成到即将发布的桌面智能体框架中。

关键要点

通用性愿景：Holo3.1 致力于成为可在任何环境（Web、桌面、移动）、集成到任何智能体栈、并在任何工作流所在地运行的通用计算机使用智能体。
移动性能突破：在 AndroidWorld 测试中，35B-A3B 模型准确率提升至 79.3%，4B/9B 模型提升至 72%，显著增强了移动自动化能力。
框架兼容性：新增对函数调用协议的原生支持，解决了跨第三方智能体框架部署时的分布偏移问题，Holotab 内性能提升超 25%。
量化技术落地：
- 首次提供 FP8、Q4 GGUF 和 NVFP4 量化检查点。
- NVFP4 (W4A16) 在 DGX Spark 上吞吐量比 BF16 快 1.74 倍，且性能损失极小。
- Q4 GGUF 专为消费级硬件（如 Apple Silicon）的本地部署优化。
隐私与本地化：支持完全本地化的执行模式，数据不出网，适合对隐私敏感的企业和个人用户。
模型家族扩展：发布 0.8B、4B、9B 和 35B-A3B 四种尺寸，覆盖从极致轻量到高性能的各种成本-性能权衡需求。

意义与影响

Holo3.1 的发布标志着 AI 智能体从“云端演示”向“本地实用”迈出了关键一步。

首先，它打破了环境壁垒。通过显著提升在移动设备和不同智能体框架下的鲁棒性，Holo3.1 解决了以往模型“水土不服”的问题，使得开发者可以更自信地将 AI 能力部署到多样化的真实场景中，而不仅仅是受控的桌面浏览器环境。

其次，量化技术的精细化应用降低了门槛。通过提供 NVFP4 和 Q4 GGUF 等针对特定硬件（如 NVIDIA DGX Spark 和 Apple Silicon）优化的量化格式，Holo3.1 使得在消费级硬件上运行高性能计算机使用智能体成为可能。这不仅降低了推理成本，更通过本地化执行满足了日益严格的数据隐私合规要求。

最后，生态兼容性的增强促进了集成。原生支持函数调用协议并兼容主流智能体框架，意味着 Holo3.1 可以无缝嵌入现有的开发工作流中，减少了集成复杂度。这对于推动 AI 智能体在电商、办公协作等垂直领域的规模化落地具有重要的商业价值。

随着 Holo3.1 在 Hugging Face 集合中的开放以及 API 的提供，开发者将能够更便捷地构建跨平台、高隐私、低延迟的下一代智能体应用。

查看原文 →huggingface.co