技术博客arXiv cs.CL·1 小时前

VISUALSKILL：引入视觉技能提升计算机操作智能体表现

原标题：VISUALSKILL: Multimodal Skills for Computer-Use Agents

速览

针对计算机操作智能体（CUA）在长周期任务和未知软件中表现不佳的问题，研究者提出VISUALSKILL。这是一种分层多模态技能库，通过结合文档与UI探索构建，并在技能中保留视觉图表而非仅用文本描述。实验显示，该技能使基于Claude Opus 4.6的智能体在基准测试中得分提升15.3个百分点，直接证明了视觉信息对识别UI元素和验证工作流状态的有效性。

AI 深度解读

VISUALSKILL：面向计算机使用代理的多模态技能库

背景

计算机使用代理（Computer-Use Agents, CUAs）在标准化基准测试中已展现出接近人类水平的性能，但在处理长周期任务（long-horizon tasks）和面对未见过的软件环境时，依然面临严峻挑战。

现有的解决方案通常通过构建可复用的“技能库”（skill libraries）来应对这一难题。然而，传统方法存在一个显著的局限性：它们仅将技能工件（skill artifact）表示为纯文本。尽管图形用户界面（GUI）交互本质上是高度视觉化的，但纯文本表示往往丢失了关键的视觉线索，导致代理在理解界面布局、识别 UI 元素以及验证工作流状态时效率低下。

核心内容

为了解决上述模态缺失问题，研究团队提出了 VISUALSKILL，这是一种专为计算机使用代理设计的分层多模态技能架构。

架构设计

VISUALSKILL 针对每个目标应用程序进行了定制，其组织结构如下：

层级索引：技能被组织为一个中心索引，指向按主题分类的文件。
按需加载：代理通过一个名为 load_topic 的 MCP（Model Context Protocol）工具来消费这些技能。该工具会根据需要动态获取相关主题的文本描述和视觉图表（figures）。

技能构建流程

每个 VISUALSKILL 技能的构建采用两阶段流水线，结合了人工编写的文档与实时应用程序的 UI 探索：

人工文档：利用现有的官方或社区文档作为基础。
实时 UI 探索：结合对实际应用程序界面的探索，提取视觉信息，确保技能包含最新的界面状态和视觉特征。

实验验证

研究团队在两个主要的 CUA 基准测试——CUA-World 和 OSExpert-Eval 上对 VISUALSKILL 进行了评估。实验使用基于 Claude Opus 4.6 的 Claude Code CLI 代理作为基础模型。

整体性能提升：引入 VISUALSKILL 后，代理的平均得分达到 0.456。与没有任何技能的基础基线（得分 0.303）相比，实现了 +15.3 的绝对分数提升。
多模态 vs. 纯文本：为了验证视觉信息的具体贡献，研究构建了一个“匹配纯文本技能”（matched text-only skill）。该技能源自与 VISUALSKILL 相同的内容源，唯一的区别在于去除了视觉图表，仅保留文本描述。
- 纯文本技能得分：0.373
- VISUALSKILL 得分：0.456
- 结果：VISUALSKILL 相比纯文本技能带来了 +8.3 的绝对分数增益。

这一对比提供了直接证据：在技能工件中保留视觉图表（而非将其完全转化为文字描述），有助于代理更准确地识别 UI 元素，并在每一步操作后验证工作流状态。

关键要点

视觉信息的必要性：GUI 交互具有天然的视觉属性，纯文本表示无法充分捕捉界面布局、图标位置和视觉反馈等关键信息。保留视觉图表能显著提升代理对 UI 元素的理解能力。
分层与模块化结构：VISUALSKILL 采用“中心索引 + 按主题文件”的组织方式，配合 load_topic MCP 工具，实现了技能的按需加载和高效消费，避免了上下文窗口的无效占用。
混合构建方法：结合“人工 authored 文档”与“实时 UI 探索”，既保证了知识的准确性，又确保了技能与当前软件版本界面的一致性。
显著的性能增益：
- 相对于无技能基线，VISUALSKILL 带来 +15.3 的绝对提升。
- 相对于同等内容的纯文本技能，VISUALSKILL 带来 +8.3 的绝对提升，证明了多模态表示在计算机使用任务中的独特价值。
开源承诺：研究代码已公开，便于社区复现和进一步开发。

意义与影响

VISUALSKILL 的提出标志着计算机使用代理从“纯文本推理”向“多模态感知”迈出了关键一步。

解决长周期任务瓶颈：长周期任务往往涉及复杂的界面导航和状态验证。通过提供包含视觉线索的结构化技能，代理能够更稳健地跟踪任务进度，减少因界面误解导致的错误累积。
提升泛化能力：面对未见过的软件，纯文本描述可能因版本更新或界面微调而失效。VISUALSKILL 通过结合实时 UI 探索，能够捕捉更细微的视觉特征，从而增强代理对新环境的适应能力。
推动 MCP 生态发展：VISUALSKILL 利用 MCP 协议进行技能加载，展示了标准化接口在多模态 AI 代理中的应用潜力，为未来构建更丰富、更高效的 AI 技能市场提供了参考范式。
重新定义“技能”表示：该研究挑战了传统将技能视为纯文本知识的观念，证明了在 AI 代理领域，视觉信息不仅是辅助，更是核心认知资源。这为后续研究多模态技能库的构建、存储和检索提供了新的方向。

总之，VISUALSKILL 不仅是一个性能提升工具，更是对计算机使用代理如何理解和操作图形界面的一次深刻反思与实践验证。

查看原文 →arxiv.org