技术博客Google AI Blog·15 天前

Gemini 3.5：融合前沿智能与行动能力

原标题：Gemini 3.5: frontier intelligence with action

速览

谷歌在Google I/O大会上发布了最新模型系列Gemini 3.5。该系列模型的核心突破在于将前沿智能与行动能力深度融合。这一发布标志着AI模型从单纯的信息处理向具备执行能力的智能体迈进。

AI 深度解读

Gemini 3.5：具备行动能力的前沿智能

Google 正式发布了其最新一代模型家族 Gemini 3.5，标志着在构建更具能力、更智能的 AI 代理（Agents）方面取得了重大突破。此次发布以 Gemini 3.5 Flash 为首发版本，旨在将前沿智能与实际行动能力相结合，特别是在复杂长周期任务和代码生成领域展现出卓越性能。

背景

随着 AI 从单纯的“对话”向“行动”转变，市场对能够处理复杂、多步骤工作流的智能代理需求日益增长。传统的旗舰模型虽然在智能水平上表现优异，但在速度和成本上往往难以满足大规模实时应用的需求。

Google 此次推出 Gemini 3.5 系列，旨在解决这一痛点。该系列模型不仅继承了 Gemini 3 强大的多模态基础，更专注于提升“代理（Agentic）”能力——即模型自主规划、执行任务、调用工具并与其他代理协作的能力。目前，Gemini 3.5 Flash 已全面开放，而性能更强的 Gemini 3.5 Pro 也在内部测试中，预计将于下月推出。

核心内容

1. Gemini 3.5 Flash：速度与性能的完美平衡

Gemini 3.5 Flash 是 Google 迄今为止最强的代理和代码模型。它在保持 Flash 系列一贯的高速推理能力同时，实现了媲美大型旗舰模型的性能。

性能指标领先：在 Terminal-Bench 2.1（76.2%）、GDPval-AA（1656 Elo）和 MCP Atlas（83.6%）等极具挑战性的代码和代理基准测试中，3.5 Flash 均超越了 Gemini 3.1 Pro。在多模态理解方面，其在 CharXiv Reasoning 测试中得分高达 84.2%。
极致速度：在输出令牌每秒（tokens per second）的指标上，3.5 Flash 比其它前沿模型快 4 倍。
行业评级：在 Artificial Analysis 指数中，3.5 Flash 位于右上角象限，证明了其能够在不牺牲质量的前提下提供极低延迟，打破了以往“质量与延迟不可兼得”的困境。

2. 规模化代理任务：从规划到执行

3.5 Flash 的核心优势在于处理长周期（long-horizon）代理任务。以往需要开发人员数天或审计人员数周才能完成的工作，3.5 Flash 能在极短时间内以不到其他前沿模型一半的成本完成。

Antigravity 平台赋能：结合更新的 Google Antigravity 开发平台，3.5 Flash 能够部署协作式子代理（subagents）来规模化解决复杂问题。在监督下，它能可靠地执行多步工作流和编码任务。
实际应用场景：
- 资产管理：自动根据动态标准重命名和分类非结构化资产。
- 代码重构：将混乱的遗留代码库转换为 Next.js 架构。
- 游戏开发：利用“构建者”和“玩家”两个代理在快速自我改进循环中，6小时内合成 AlphaZero 论文并编写出可完全玩的游戏。
- 创意生成：生成更丰富、更具交互性的 Web UI 和图形，例如将纯文本描述转化为交互式硬件原型，或在 60 秒内生成多种结账流程的 UX 方案。

3. 现实世界的影响：企业级落地

Gemini 3.5 Flash 的代理能力已在多个行业合作伙伴中产生实质性影响，主要解决工作流中的繁琐环节和复杂性：

Shopify：并行运行子代理，分析长期复杂数据，从而在全球范围内更准确地预测商家增长。
麦格理银行（Macquarie Bank）：试点利用 3.5 Flash 加速客户入职流程，通过推理处理 100 多页的复杂文档，检索相关信息并提供低延迟的可靠建议。
Salesforce：将 3.5 Flash 集成到 Agentforce 中，通过部署保留上下文并执行复杂多轮工具调用的多个子代理，可靠地自动化复杂的企业管理任务。
Ramp：结合多模态理解（复杂发票）和对历史模式的推理，实现更智能、更可靠的 OCR（光学字符识别）。
Xero：部署代理自主管理长达数周的复杂工作流，如识别供应商和收集 1099 税表信息，帮助小企业自动化繁琐的管理任务。
Databricks：使用代理工作流监控和检索实时信息，在海量数据集中推理以诊断问题、识别修复方案并向数据科学家提出建议。

4. 个人 AI 代理：Gemini Spark

3.5 Flash 现已成为全球 Gemini 应用和搜索 AI 模式的默认模型。Google 展示了如何利用其代理能力打造全新的个人 AI 体验：

Gemini Spark：这是一个全新的个人 AI 代理，基于 3.5 Flash 构建。它 24/7 全天候运行，在用户的指导下导航数字生活并代为执行操作。目前正向受信任的测试人员开放，并计划下周面向美国 Google AI Ultra 订阅者推出 Beta 版。
搜索增强：3.5 Flash 的智能编码能力也提升了搜索体验，引入了 24/7 工作的信息代理，并解锁了更动态的生成式 UI 体验（例如生成交互式视觉图表解释复杂概念）。

5. 安全与合规

Gemini 3.5 的开发遵循 Google 的“前沿安全框架（Frontier Safety Framework）”。通过新的、更先进的安全训练和缓解措施，包括在模型提供响应前检查其内部推理过程的解释性工具，Google 加强了网络安全和 CBRN（化学、生物、放射性和核）防护。这使得模型更不容易生成有害内容，同时也减少了误拒安全查询的情况。

关键要点

首发版本：Gemini 3.5 Flash 现已全面可用，Gemini 3.5 Pro 预计下月推出。
性能突破：3.5 Flash 在代码和代理基准测试中超越 Gemini 3.1 Pro，速度比其它前沿模型快 4 倍。
核心能力：专注于长周期、多步骤的代理任务，能够自主规划、构建和迭代以解决现实世界问题。
平台支持：深度集成于 Google Antigravity 平台，支持部署协作式子代理以规模化处理复杂用例。
企业落地：已在 Shopify、Salesforce、麦格理银行、Databricks 等巨头企业中实现自动化工作流、数据分析及代码重构等实际应用。
个人应用：作为 Gemini Spark（个人 AI 代理）和搜索 AI 模式的底层模型，提供全天候的数字生活辅助。
安全性：遵循前沿安全框架，通过增强训练和内部推理检查机制，提升内容安全性和减少误判。

意义与影响

Gemini 3.5 的发布标志着 AI 模型从“被动响应”向“主动行动”的关键转折。

首先，它重新定义了“性价比”的标准。通过 Flash 系列实现的前沿性能，Google 证明了用户无需在智能质量和推理延迟之间做出妥协。这对于需要实时反馈和大规模并发处理的商业应用至关重要。

其次，代理（Agent）成为新的计算范式。3.5 Flash 强调的“长周期任务”和“子代理协作”能力，意味着 AI 不再仅仅是问答机器，而是能够像员工一样，独立或协作完成从代码重构到财务审计等复杂工作流。这将极大地降低开发者和企业的运营成本，提升生产力。

最后，AI 深度融入个人生活。通过 Gemini Spark 和搜索 AI 模式的升级，前沿智能正变得触手可及。AI 代理将全天候服务于个人用户，处理从日程管理到信息检索等日常事务，使 AI 真正成为个人数字生活的延伸。

总体而言，Gemini 3.5 不仅是一次模型迭代，更是 Google 在构建通用智能代理生态系统上的重要一步，为开发者、企业和普通用户提供了更具实用价值的智能工具。

查看原文 →blog.google