← 返回信息流
AI 资讯量子位·2 天前

Qwen3.7-Plus上线:多模态智能体新基座

原标题:Qwen3.7-Plus上线!多模态智能体新基座,一键复刻桌面端专业软件

速览

Qwen3.7-Plus模型已在阿里云百炼平台正式上线。该模型定位为多模态智能体的新基座,具备强大的功能扩展能力。其核心亮点在于支持一键复刻桌面端专业软件,显著降低了智能体应用的开发门槛。

AI 深度解读

背景

6月2日,阿里巴巴正式发布了千问3.7系列多模态大模型中的最新成员——Qwen3.7-Plus。该模型目前已通过阿里云百炼平台上线,并向外界提供API服务。此次发布标志着阿里在基础大模型领域的又一次重要迭代,旨在通过提升文本与视觉能力的双重上限,构建更强大的多模态智能体基座,以应对日益复杂的自动化任务需求。

核心内容

Qwen3.7-Plus 的核心突破在于其作为“多模态智能体新基座”的能力升级。根据官方发布的信息,该模型在文本理解和视觉感知方面均实现了大幅提升。在权威全球视觉大模型榜单 Vision Arena 中,Qwen3.7-Plus 跻身全球前五,并位列中国第一。

该模型不再局限于单一模态的处理,而是实现了多模态混合智能体的新突破。其核心工作流将“看、想、写、做、验”五个环节整合在一起:

  1. :深度理解图片和视频内容。
  2. :进行深度逻辑推理。
  3. :自主编写代码。
  4. :调用外部工具执行操作。
  5. :对结果进行验证测试并自主迭代。

通过这一闭环工作流,Qwen3.7-Plus 能够轻松完成诸如一键复刻手机APP应用、桌面端专业软件等复杂的长程任务。

在具体功能场景上,Qwen3.7-Plus 提供了以下五大核心能力模块:

  • Multimodal Agent(多模态智能体):能够统一处理图像、视频、屏幕、网页和文本等多种输入形式,并在 GUI(图形用户界面)、CLI(命令行界面)或工具环境中完成任务。
  • Visual Agent(视觉智能体):结合视觉理解、代码解释器和搜索增强技术,专门用于解决视觉谜题、真实世界问答以及复杂推理任务。
  • Visual Coding(视觉编码):实现从图像或视频到代码的端到端转化,能够生成 SVG、网页和交互式前端界面。
  • GUI Agent(图形界面智能体):具备理解移动端和桌面端界面的能力,可进行控件定位、任务规划以及多步操作执行。
  • Real-world Perception & Reasoning(现实世界感知与推理):覆盖真实场景理解、文档图表分析、OCR(光学字符识别)、视频理解以及驾驶场景理解。

关键要点

  • 性能排名领先:在 Vision Arena 全球视觉大模型榜单中排名全球前五、中国第一,文本和视觉能力均获大幅提升。
  • 全链路智能体工作流:首创性地将“看、想、写、做、验”整合进统一工作流,支持自我编程、工具调用、验证测试及自主迭代。
  • 复杂任务自动化:具备一键复刻手机APP和桌面端专业软件的能力,能够处理长程、复杂的自动化任务。
  • 多模态输入兼容:支持图像、视频、屏幕截图、网页及文本的统一输入处理。
  • 广泛的服务场景:涵盖从视觉编码(生成前端代码)到GUI操作(模拟用户点击/输入),再到现实世界感知(如驾驶、文档分析)的多样化场景。
  • 服务可用性:模型已上线阿里云百炼,提供API服务;用户也可通过 Qwen Studio 直接体验。

意义与影响

Qwen3.7-Plus 的发布标志着大模型从“内容生成”向“任务执行”的进一步演进。通过整合深度推理、自主编程和工具调用能力,它不仅仅是一个对话助手,更是一个能够独立规划并执行复杂操作的智能体。

对于开发者和企业用户而言,Qwen3.7-Plus 提供的 GUI AgentVisual Coding 能力,极大地降低了将视觉设计转化为可交互代码的门槛,加速了从概念到原型的开发周期。同时,其在 Vision Arena 上的优异表现,也印证了中国大模型在全球视觉理解领域的竞争力。随着该模型在阿里云百炼平台的开放,预计将进一步推动多模态智能体在自动化办公、软件测试、UI/UX设计辅助等垂直领域的落地应用。

查看原文 →qbitai.com