技术博客Hugging Face Blog·2026/6/2

Holo3.1：本地AI电脑操作代理工具发布

原标题：Holo3.1: Fast & Local Computer Use Agents

速览

Holo3.1是一款专为本地部署设计的AI电脑使用代理，支持快速执行多步骤任务。它可以让AI像人类一样在电脑上操作，完成从打开浏览器到下载文件等复杂操作。这一工具的意义在于大幅提升本地AI应用的可操作性，降低对云服务的依赖。未来它有望成为个人电脑的AI助手，改变AI与设备的交互方式。

AI 深度解读

Holo3.1: Fast & Local Computer Use Agents

Holo3.1 是 Holo 家族的最新版本，专为计算机使用代理（computer-use agents）设计。该版本通过优化环境适应性、代理框架集成和部署灵活性，显著提升了生产环境下的稳健性，并首次发布了量化检查点，支持本地推理。

背景

计算机使用代理正成为软件开发和自动化领域的关键技术。用户希望能够在桌面和移动环境中一致运行相同的计算机使用能力，并实现与不同代理框架的无缝集成。同时，他们还希望具备从云端推理到完全本地运行在终端设备上的灵活部署选择。

Holo3.1 家族的推出正是基于这一需求。它改进了生产环境中最关键的三个维度：运行环境（网页、桌面、移动）、代理框架以及部署目标。相较于之前的 Holo 版本，这一版本首次提供优化后的量化检查点，包括 FP8、Q4 GGUF 和 NVFP4 等格式，专为本地推理而设计。

Holo3.1 迈出了向通用计算机使用代理方向的重要一步。这些代理能够跨环境操作、集成到任何代理栈中，并在工作流所在的位置运行。

核心内容

Holo3.1 基于 Qwen 家族构建，旨在提升计算机使用代理在实际部署环境中的鲁棒性，同时保持业界领先的性能表现。

在从评估阶段转向生产部署的过程中，团队发现了一个普遍问题：单环境下的强表现难以自然迁移到其他场景。移动设备、替代代理 Harness 以及不同的执行框架都会引入新的分布偏移因素。

移动自动化
Holo3.1 将 Holo3 的控制能力扩展至移动环境，显著提升了在移动场景下的表现。在 AndroidWorld 基准测试中，35B-A3B 模型的得分从 67% 提升至 79.3%，而较小的 4B 和 9B 变体则从 58% 提升至 72%。

跨 Harness 性能
为支持团队将 Holo 部署到第三方代理栈中，Holo3.1 新增了对函数调用协议的原生支持，并在保持结构化 JSON 输出的同时实现了这一功能。在 OSWorld 基准以及覆盖电商、商务软件和协作工作流的内部基准测试中，函数调用与原生执行性能已接近持平。同时，在 Holo3.1 的 Holotab 产品 Harness 内评估时，性能较 Holo3 提升超过 25%。

更小的模型尺寸以优化成本与性能
为了进一步支持本地和设备端推理，Holo3.1 还发布了小型模型（0.8B、4B、9B），适用于成本高效且注重隐私的部署，同时保留了 35B-A3B 这款提供最先进性能的大型模型。

下图展示了两家公司的 Holo3.1 与 Qwen 3.5 系列在性能与成本方面的对比（整体性能取四个 H Corporate 基准的平均值，再结合 OSWorld、AndroidWorld、ScreenSpot-Pro 等多个基准的均值）。

高速与本地推理
这是 Holo3.1 家族首次发布量化权重版本，主要针对 35B-A3B 模型，提供 FP8、Q4 GGUF 和 NVFP4 格式。

NVFP4：采用 NVIDIA Model Optimizer 配置为 W4A16 模式。这些检查点可实现计算机使用代理的快速本地推理，性能损失极小。FP8 和 NVFP4 的 OSWorld 得分与完整精度 BF16 检查点仅相差约 2 分，但速度提升显著。在 DGX Spark 上，NVFP4 W4A16 实现了 FP8 总 Token 吞吐量的 1.41 倍和 BF16 的 1.74 倍。
Q4 GGUF：针对消费级硬件的本地部署优化。代理本身可在 Windows 或 Mac 机器上运行，模型可选择在同一机器（包括 Apple Silicon 参考）或网络中的 DGX Spark 上运行。两种部署方式均保持完全本地化，数据不出用户网络。

在 DGX Spark 上，结合 NVIDIA 开发的 Harness 优化与 NVFP4 量化，整体端到端速度提升约 2 倍（平均步长时间从 6.8 秒降至 3.3 秒）。此外，vLLM 在 NVFP4 模式下可实现最高请求率（Default 和 Fast 模式均领先）。

关键要点

环境与框架全覆盖：Holo3.1 首次系统化支持网页、桌面、移动等多种 GUI 环境，并在任意代理 Harness 中实现原生函数调用，无缝迁移性能。
移动场景突破：AndroidWorld 基准下 35B-A3B 模型提升 12.3 个百分点，4B/9B 模型提升 14 个百分点，移动自动化能力实现质的飞跃。
量化权重创新：首次提供 FP8、Q4 GGUF、NVFP4 量化检查点，本地推理速度提升显著（DGX Spark 上 NVFP4 端到端加速约 2 倍）。
部署灵活性：支持云推理与完全本地/端侧运行，隐私保护优先，消费硬件与企业级 Spark 设备均可高效部署。
多尺寸并存：从 0.8B 到 35B-A3B 全尺寸覆盖，满足不同场景的成本-性能权衡需求。

意义与影响

Holo3.1 的发布标志着计算机使用代理技术从实验室评估阶段正式进入生产级部署。它不仅提升了代理在多样化真实环境中的稳定性和可移植性，还通过量化与本地优化，降低了运行门槛和成本，为开发者提供了更强大的工具。

这一进展加速了通用计算机使用代理的普及应用场景，包括自动化桌面操作、移动端任务处理以及跨平台的工作流整合。企业与开发者将能够更轻松地在私有数据环境中部署高性能代理，避免数据泄露风险，同时实现与现有代理栈的零侵入式集成。

随着更多 Harness 和生态工具的加入，Holo3.1 将推动整个领域向“跨环境、可本地运行”的方向迈进，为开发者构建更智能、高效的自动化系统奠定基础。未来，开发者对 Holo3.1 的探索将进一步丰富人类与机器协作的边界。

查看原文 →huggingface.co