AI 资讯量子位·2 天前

Qwen3.7-Plus上线：多模态智能体新基座

原标题：Qwen3.7-Plus上线！多模态智能体新基座，一键复刻桌面端专业软件

速览

Qwen3.7-Plus模型已在阿里云百炼平台正式上线。该模型定位为多模态智能体的新基座，具备强大的功能扩展能力。其核心亮点在于支持一键复刻桌面端专业软件，显著降低了智能体应用的开发门槛。

AI 深度解读

背景

6月2日，阿里巴巴正式发布了千问3.7系列多模态大模型中的最新成员——Qwen3.7-Plus。该模型目前已通过阿里云百炼平台上线，并向外界提供API服务。此次发布标志着阿里在基础大模型领域的又一次重要迭代，旨在通过提升文本与视觉能力的双重上限，构建更强大的多模态智能体基座，以应对日益复杂的自动化任务需求。

核心内容

Qwen3.7-Plus 的核心突破在于其作为“多模态智能体新基座”的能力升级。根据官方发布的信息，该模型在文本理解和视觉感知方面均实现了大幅提升。在权威全球视觉大模型榜单 Vision Arena 中，Qwen3.7-Plus 跻身全球前五，并位列中国第一。

该模型不再局限于单一模态的处理，而是实现了多模态混合智能体的新突破。其核心工作流将“看、想、写、做、验”五个环节整合在一起：

看：深度理解图片和视频内容。
想：进行深度逻辑推理。
写：自主编写代码。
做：调用外部工具执行操作。
验：对结果进行验证测试并自主迭代。

通过这一闭环工作流，Qwen3.7-Plus 能够轻松完成诸如一键复刻手机APP应用、桌面端专业软件等复杂的长程任务。

在具体功能场景上，Qwen3.7-Plus 提供了以下五大核心能力模块：

Multimodal Agent（多模态智能体）：能够统一处理图像、视频、屏幕、网页和文本等多种输入形式，并在 GUI（图形用户界面）、CLI（命令行界面）或工具环境中完成任务。
Visual Agent（视觉智能体）：结合视觉理解、代码解释器和搜索增强技术，专门用于解决视觉谜题、真实世界问答以及复杂推理任务。
Visual Coding（视觉编码）：实现从图像或视频到代码的端到端转化，能够生成 SVG、网页和交互式前端界面。
GUI Agent（图形界面智能体）：具备理解移动端和桌面端界面的能力，可进行控件定位、任务规划以及多步操作执行。
Real-world Perception & Reasoning（现实世界感知与推理）：覆盖真实场景理解、文档图表分析、OCR（光学字符识别）、视频理解以及驾驶场景理解。

关键要点

性能排名领先：在 Vision Arena 全球视觉大模型榜单中排名全球前五、中国第一，文本和视觉能力均获大幅提升。
全链路智能体工作流：首创性地将“看、想、写、做、验”整合进统一工作流，支持自我编程、工具调用、验证测试及自主迭代。
复杂任务自动化：具备一键复刻手机APP和桌面端专业软件的能力，能够处理长程、复杂的自动化任务。
多模态输入兼容：支持图像、视频、屏幕截图、网页及文本的统一输入处理。
广泛的服务场景：涵盖从视觉编码（生成前端代码）到GUI操作（模拟用户点击/输入），再到现实世界感知（如驾驶、文档分析）的多样化场景。
服务可用性：模型已上线阿里云百炼，提供API服务；用户也可通过 Qwen Studio 直接体验。

意义与影响

Qwen3.7-Plus 的发布标志着大模型从“内容生成”向“任务执行”的进一步演进。通过整合深度推理、自主编程和工具调用能力，它不仅仅是一个对话助手，更是一个能够独立规划并执行复杂操作的智能体。

对于开发者和企业用户而言，Qwen3.7-Plus 提供的 GUI Agent 和 Visual Coding 能力，极大地降低了将视觉设计转化为可交互代码的门槛，加速了从概念到原型的开发周期。同时，其在 Vision Arena 上的优异表现，也印证了中国大模型在全球视觉理解领域的竞争力。随着该模型在阿里云百炼平台的开放，预计将进一步推动多模态智能体在自动化办公、软件测试、UI/UX设计辅助等垂直领域的落地应用。

查看原文 →qbitai.com

Qwen3.7-Plus上线：多模态智能体新基座

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐