← 返回信息流
GitHub 热榜GitHub Trending · 日·1 小时前

UI-TARS-desktop:字节跳动开源的多模态AI智能体桌面端

原标题:bytedance/UI-TARS-desktop
TypeScript36,601 stars+148 今日

速览

该项目是字节跳动推出的开源多模态AI智能体栈,旨在将尖端AI模型与智能体基础设施无缝连接。它支持在桌面端运行,适用于需要结合视觉理解与智能决策的复杂自动化场景。

AI 深度解读

这是什么

bytedance/UI-TARS-desktop 是字节跳动(ByteDance)开源的多模态 AI Agent 技术栈,主要包含两个核心项目:Agent TARSUI-TARS-desktop。该项目目前 GitHub 星标数超过 36,600,主语言为 TypeScript。

  • Agent TARS:一个通用的多模态 AI Agent 栈,旨在将 GUI Agent(图形用户界面智能体)和 Vision(视觉)能力引入终端、计算机、浏览器及各类产品中。它主要通过 CLI(命令行界面)和 Web UI 提供服务,利用前沿的多模态大语言模型(LLMs)与 MCP(Model Context Protocol)工具无缝集成,模拟人类完成复杂任务。
  • UI-TARS-desktop:基于本地计算机的原生 GUI 智能体应用,由 UI-TARS 和 Seed-1.5-VL/1.6 系列模型驱动。它允许用户通过自然语言控制本地电脑,实现截图识别、精确的鼠标键盘操作等功能。

该项目近期发布了 Agent TARS CLI v0.3.0,增加了流式支持、运行时统计、事件流查看器以及对 AIO agent Sandbox 的独家支持。

解决的问题

传统自动化工具(如 Selenium、PyAutoGUI)或简单的 RPA 流程往往存在以下痛点:

  1. 缺乏语义理解:传统脚本依赖固定的 DOM 结构或坐标,一旦界面更新(UI 变化)或元素位置微调,脚本极易失效。
  2. 交互僵化:难以处理非结构化、动态变化的界面元素,无法像人类一样通过“看”来理解界面含义。
  3. 工具链割裂:在终端操作、浏览器自动化和桌面应用控制之间缺乏统一的 Agent 框架,开发者需要维护多套逻辑。
  4. 调试困难:复杂的 Agent 执行过程黑盒化,缺乏可视化的数据流追踪和工具调用统计,导致问题定位困难。

UI-TARS-desktopAgent TARS 通过引入视觉语言模型(VLM)和 GUI Agent 技术,让 AI 能够“看懂”屏幕,通过视觉识别而非硬编码选择器来定位和操作元素,从而解决界面变动导致的自动化失效问题,并提供更接近人类直觉的任务完成方式。

核心功能

1. 多模态 GUI 智能体

  • 视觉驱动控制:支持通过截图和视觉识别技术,精确控制鼠标和键盘。AI 能够理解界面布局、图标含义及文本内容,执行点击、输入、滚动等操作。
  • 混合浏览器代理:在浏览器自动化场景中,支持 GUI Agent(视觉)、DOM(结构)或混合策略,兼顾鲁棒性与效率。

2. 强大的 Agent 框架 (Agent TARS)

  • MCP 集成:内核基于 MCP 构建,支持挂载 MCP Servers,无缝连接现实世界的各种工具(如搜索、数据库、API 等)。
  • 多工具流式支持:CLI v0.3.0 支持 Shell 命令、多文件结构化显示等工具的流式输出,提升响应速度。
  • 深度思考与统计:提供运行时设置,包含工具调用的计时统计和“深度思考”模式,帮助优化 Agent 决策路径。
  • 事件流查看器 (Event Stream Viewer):基于协议驱动的事件流,用于数据流追踪和调试,让 Agent 的内部逻辑透明化。

3. 跨平台桌面应用 (UI-TARS Desktop)

  • 远程操作能力:v0.2.0 版本引入了完全免费的“远程计算机操作员”和“远程浏览器操作员”,无需复杂配置即可远程控制任意电脑或浏览器。
  • 本地隐私安全:支持完全本地处理,确保数据隐私。
  • 原生体验:提供重新设计的 Agent UI,增强计算机使用体验,支持 Windows、macOS 及浏览器端。

4. 模型支持

  • 支持多种模型提供商,包括 Volcengine(火山引擎,如 doubao-1-5-thinking-vision-pro)、Anthropic(如 claude-3-7-sonnet-latest)等。
  • 底层依托于字节跳动自研的 UI-TARS 和 Seed-1.5-VL/1.6 系列视觉语言模型。

亮点 / 与同类相比

  • 视觉优先的 GUI 交互:与传统的基于 DOM 或坐标的自动化工具不同,UI-TARS 强调“看”的能力。它通过 VLM 理解界面语义,对 UI 变更具有更强的鲁棒性。
  • MCP 原生集成:作为内核基于 MCP 的 Agent 栈,它比许多仅专注于单一场景(如仅浏览器或仅终端)的工具具有更好的扩展性,能够轻松挂载外部工具服务器。
  • 端到端的全栈覆盖:同时提供 CLI(面向开发者/服务器环境)和 Desktop App(面向普通用户/本地环境),覆盖了从后端自动化到前端桌面交互的全场景。
  • 开源与商业化平衡:虽然核心模型和技术源自字节跳动,但提供了开源的 SDK 和桌面应用,并支持用户接入第三方模型提供商(如 Anthropic),降低了使用门槛。
  • 详细的调试与可观测性:内置 Event Stream Viewer 和工具调用统计,这在许多开源 Agent 框架中是稀缺功能,极大提升了开发和维护效率。

适合谁用 / 上手

适合人群

  1. AI 应用开发者:希望构建基于 GUI 或视觉能力的自动化 Agent,需要稳定的 MCP 集成和调试工具。
  2. 测试工程师 (QA):需要构建对 UI 变化不敏感的自动化测试脚本,替代脆弱的传统 UI 自动化方案。
  3. 效率工具爱好者:希望利用自然语言控制本地电脑或远程桌面,实现复杂工作流自动化的用户。
  4. 研究人员:对多模态 Agent、GUI 自动化、视觉语言模型在交互领域的应用感兴趣的研究者。

上手指南

1. 安装 Agent TARS CLI

推荐使用 npx 快速体验,或全局安装:

# 快速体验
npx @agent-tars/cli@latest

# 全局安装 (需要 Node.js >= 22)
npm install @agent-tars/cli@latest -g

2. 配置模型提供商

启动时需指定模型提供商、模型名称及 API Key。例如:

# 使用火山引擎模型
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key

# 使用 Anthropic 模型
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key

3. 使用 UI-TARS Desktop

  • 下载并安装 UI-TARS Desktop 应用。
  • 支持 Windows、macOS 及浏览器端。
  • 利用自然语言指令控制电脑,如:“帮我预订9月1日从圣何塞到纽约的最早航班,并在9月6日预订最晚的返程航班。”

4. 参考资源

  • 快速入门:查阅项目中的 Quick Start guide 获取详细设置说明。
  • 部署教程:中文版提供了 GUI 模型部署教程,支持 ModelScope 平台部署。
  • 贡献指南:参见 CONTRIBUTING.md。

该项目采用 Apache License 2.0 开源协议。

查看原文 →github.com