Gemini 3.5 Flash 支持计算机操作
速览
Google 发布的 Gemini 3.5 Flash 模型新增了对计算机操作的支持。这一功能使模型能够直接操控用户界面,执行复杂任务。这标志着 AI 助手在自动化工作流方面取得了重要进展。
AI 深度解读
背景
随着生成式 AI 从单纯的文本生成向自主代理(Agentic AI)演进,能够感知环境、进行推理并执行操作的“计算机使用”(Computer Use)能力成为关键瓶颈。此前,Google 的计算机使用功能仅作为独立的 Gemini 2.5 模型提供,限制了其在更广泛场景下的灵活性和集成度。
此次更新标志着 Google 在 Gemini 3.5 Flash 模型中原生集成了计算机使用功能。这一转变旨在降低开发门槛,使开发者能够利用 Flash 系列模型在成本、速度和性能之间的优势,构建能够在浏览器、移动设备和桌面环境中“看、推理并行动”的自定义代理。
核心内容
Google 正式宣布,计算机使用功能现已作为内置工具支持 Gemini 3.5 Flash 模型,这是目前针对代理式计算机使用任务表现最好的版本。此前该功能仅以独立的 Gemini 2.5 计算机使用模型形式存在,如今已原生整合至主要的 Gemini Flash 模型中。
Gemini 系列模型此前在函数调用(function calling)以及使用内置工具(如 Search 和 Maps 的 grounding 能力)方面已表现出色。随着计算机使用能力的内置,开发者现在可以利用 Gemini 3.5 Flash 可靠地构建自定义代理,使其能够在浏览器、移动设备和桌面环境中实现视觉感知、逻辑推理及实际操作。这一能力解锁了更长的任务周期(long-horizon)和企业级自动化任务的性能提升,例如跨专业应用程序的持续软件测试和知识工作。
在安全性方面,为了缓解代理在实时环境中运行时的提示注入(prompt injection)风险,Google 针对 Gemini 3.5 Flash 中的计算机使用功能采用了针对性的对抗性训练(adversarial training)。同时,Google 发布了两个可选的企业级安全保护系统,允许企业:
- 对敏感或不可逆的操作要求明确的用户确认。
- 如果检测到间接提示注入,自动停止任务。
Google 采取“纵深防御”(defense-in-depth)的方法,鼓励开发者将这些功能与安全沙箱、人工在环(human-in-the-loop)验证以及严格的访问控制相结合。更多安全措施细节可参考其最佳实践文档。
目前,已有客户开始通过计算机使用功能创造价值。开发者可以通过 Gemini API 和 Gemini Enterprise Agent Platform 开始使用 Gemini 3.5 Flash 中的计算机使用功能。例如,3.5 Flash 利用计算机使用功能分析了 Gemini 应用本身,并返回了一个分类的功能列表;同时,它还能审计自身的文档以发现无障碍性问题。
关键要点
- 原生集成:计算机使用功能不再是独立模型,而是作为内置工具原生集成在 Gemini 3.5 Flash 中,提供了迄今为止最佳的代理式计算机使用性能。
- 多环境支持:新能力使代理能够在浏览器、移动设备和桌面环境中可靠地执行“看、推理、行动”的闭环操作。
- 应用场景拓展:特别适用于长周期任务和企业自动化,如持续软件测试和跨专业应用的知识工作。
- 安全加固:
- 采用针对性的对抗性训练以减轻提示注入风险。
- 提供两个可选的企业级安全系统:敏感操作需用户确认、自动停止检测到间接注入的任务。
- 建议结合安全沙箱、人工验证和严格访问控制实施纵深防御。
- 接入方式:开发者可通过 Gemini API 和 Gemini Enterprise Agent Platform 接入该功能。
- 实际案例:展示了模型利用计算机使用功能分析应用功能列表及审计文档无障碍性的具体用例。
意义与影响
此次更新是 AI 代理从“对话式助手”向“行动式代理”转型的重要里程碑。将计算机使用功能从独立模型下沉至 Gemini 3.5 Flash,意味着企业可以在保持较低延迟和成本的同时,获得强大的自主操作能力。这对于需要处理复杂、多步骤工作流的企业自动化场景(如软件测试、数据录入、跨系统操作)具有显著的商业价值。
此外,Google 强调的安全措施和“纵深防御”理念,反映了行业对 AI 代理在真实生产环境中运行风险的重视。通过提供可选的安全护栏和对抗性训练,Google 试图在赋予代理自主权的同时,最大限度地降低潜在的安全隐患,这有助于加速企业级 AI 代理的落地采用。开发者现在可以利用更成熟的工具链,构建真正能够与数字环境交互的智能体,从而释放更大的生产力潜力。
