GitHub 热榜GitHub Trending · 日·1 小时前

UI-TARS-desktop：字节跳动开源的多模态AI智能体桌面端

原标题：bytedance/UI-TARS-desktop

TypeScript★ 36,601 stars+148 今日

速览

该项目是字节跳动推出的开源多模态AI智能体栈，旨在将尖端AI模型与智能体基础设施无缝连接。它支持在桌面端运行，适用于需要结合视觉理解与智能决策的复杂自动化场景。

AI 深度解读

这是什么

bytedance/UI-TARS-desktop 是字节跳动（ByteDance）开源的多模态 AI Agent 技术栈，主要包含两个核心项目：Agent TARS 和 UI-TARS-desktop。该项目目前 GitHub 星标数超过 36,600，主语言为 TypeScript。

Agent TARS：一个通用的多模态 AI Agent 栈，旨在将 GUI Agent（图形用户界面智能体）和 Vision（视觉）能力引入终端、计算机、浏览器及各类产品中。它主要通过 CLI（命令行界面）和 Web UI 提供服务，利用前沿的多模态大语言模型（LLMs）与 MCP（Model Context Protocol）工具无缝集成，模拟人类完成复杂任务。
UI-TARS-desktop：基于本地计算机的原生 GUI 智能体应用，由 UI-TARS 和 Seed-1.5-VL/1.6 系列模型驱动。它允许用户通过自然语言控制本地电脑，实现截图识别、精确的鼠标键盘操作等功能。

该项目近期发布了 Agent TARS CLI v0.3.0，增加了流式支持、运行时统计、事件流查看器以及对 AIO agent Sandbox 的独家支持。

解决的问题

传统自动化工具（如 Selenium、PyAutoGUI）或简单的 RPA 流程往往存在以下痛点：

缺乏语义理解：传统脚本依赖固定的 DOM 结构或坐标，一旦界面更新（UI 变化）或元素位置微调，脚本极易失效。
交互僵化：难以处理非结构化、动态变化的界面元素，无法像人类一样通过“看”来理解界面含义。
工具链割裂：在终端操作、浏览器自动化和桌面应用控制之间缺乏统一的 Agent 框架，开发者需要维护多套逻辑。
调试困难：复杂的 Agent 执行过程黑盒化，缺乏可视化的数据流追踪和工具调用统计，导致问题定位困难。

UI-TARS-desktop 和 Agent TARS 通过引入视觉语言模型（VLM）和 GUI Agent 技术，让 AI 能够“看懂”屏幕，通过视觉识别而非硬编码选择器来定位和操作元素，从而解决界面变动导致的自动化失效问题，并提供更接近人类直觉的任务完成方式。

核心功能

1. 多模态 GUI 智能体

视觉驱动控制：支持通过截图和视觉识别技术，精确控制鼠标和键盘。AI 能够理解界面布局、图标含义及文本内容，执行点击、输入、滚动等操作。
混合浏览器代理：在浏览器自动化场景中，支持 GUI Agent（视觉）、DOM（结构）或混合策略，兼顾鲁棒性与效率。

2. 强大的 Agent 框架 (Agent TARS)

MCP 集成：内核基于 MCP 构建，支持挂载 MCP Servers，无缝连接现实世界的各种工具（如搜索、数据库、API 等）。
多工具流式支持：CLI v0.3.0 支持 Shell 命令、多文件结构化显示等工具的流式输出，提升响应速度。
深度思考与统计：提供运行时设置，包含工具调用的计时统计和“深度思考”模式，帮助优化 Agent 决策路径。
事件流查看器 (Event Stream Viewer)：基于协议驱动的事件流，用于数据流追踪和调试，让 Agent 的内部逻辑透明化。

3. 跨平台桌面应用 (UI-TARS Desktop)

远程操作能力：v0.2.0 版本引入了完全免费的“远程计算机操作员”和“远程浏览器操作员”，无需复杂配置即可远程控制任意电脑或浏览器。
本地隐私安全：支持完全本地处理，确保数据隐私。
原生体验：提供重新设计的 Agent UI，增强计算机使用体验，支持 Windows、macOS 及浏览器端。

4. 模型支持

支持多种模型提供商，包括 Volcengine（火山引擎，如 doubao-1-5-thinking-vision-pro）、Anthropic（如 claude-3-7-sonnet-latest）等。
底层依托于字节跳动自研的 UI-TARS 和 Seed-1.5-VL/1.6 系列视觉语言模型。

亮点 / 与同类相比

视觉优先的 GUI 交互：与传统的基于 DOM 或坐标的自动化工具不同，UI-TARS 强调“看”的能力。它通过 VLM 理解界面语义，对 UI 变更具有更强的鲁棒性。
MCP 原生集成：作为内核基于 MCP 的 Agent 栈，它比许多仅专注于单一场景（如仅浏览器或仅终端）的工具具有更好的扩展性，能够轻松挂载外部工具服务器。
端到端的全栈覆盖：同时提供 CLI（面向开发者/服务器环境）和 Desktop App（面向普通用户/本地环境），覆盖了从后端自动化到前端桌面交互的全场景。
开源与商业化平衡：虽然核心模型和技术源自字节跳动，但提供了开源的 SDK 和桌面应用，并支持用户接入第三方模型提供商（如 Anthropic），降低了使用门槛。
详细的调试与可观测性：内置 Event Stream Viewer 和工具调用统计，这在许多开源 Agent 框架中是稀缺功能，极大提升了开发和维护效率。

适合谁用 / 上手

适合人群

AI 应用开发者：希望构建基于 GUI 或视觉能力的自动化 Agent，需要稳定的 MCP 集成和调试工具。
测试工程师 (QA)：需要构建对 UI 变化不敏感的自动化测试脚本，替代脆弱的传统 UI 自动化方案。
效率工具爱好者：希望利用自然语言控制本地电脑或远程桌面，实现复杂工作流自动化的用户。
研究人员：对多模态 Agent、GUI 自动化、视觉语言模型在交互领域的应用感兴趣的研究者。

上手指南

1. 安装 Agent TARS CLI

推荐使用 npx 快速体验，或全局安装：

# 快速体验
npx @agent-tars/cli@latest

# 全局安装 (需要 Node.js >= 22)
npm install @agent-tars/cli@latest -g

2. 配置模型提供商

启动时需指定模型提供商、模型名称及 API Key。例如：

# 使用火山引擎模型
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key

# 使用 Anthropic 模型
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key

3. 使用 UI-TARS Desktop

下载并安装 UI-TARS Desktop 应用。
支持 Windows、macOS 及浏览器端。
利用自然语言指令控制电脑，如：“帮我预订9月1日从圣何塞到纽约的最早航班，并在9月6日预订最晚的返程航班。”

4. 参考资源

快速入门：查阅项目中的 Quick Start guide 获取详细设置说明。
部署教程：中文版提供了 GUI 模型部署教程，支持 ModelScope 平台部署。
贡献指南：参见 CONTRIBUTING.md。

该项目采用 Apache License 2.0 开源协议。

查看原文 →github.com