技术博客Google AI Blog·2026/5/19

Google I/O发布Gemini 3.5：前沿智能与行动力结合

原标题：Gemini 3.5: frontier intelligence with action

速览

Google在Google I/O开发者大会上正式发布了Gemini 3.5系列模型。该系列模型旨在将前沿智能与行动能力相结合，标志着AI技术向更高级的应用形态迈进。Gemini 3.5的推出进一步巩固了Google在人工智能领域的领先地位。

AI 深度解读

Gemini 3.5：前沿智能与行动力的融合

Google 正式发布了其最新一代模型家族 Gemini 3.5，标志着在构建更具能力、更智能的 AI 智能体（Agents）方面迈出了重大一步。作为该系列的开篇之作，Gemini 3.5 Flash 现已面向全球数十亿用户开放，旨在通过结合前沿智能与实际行动能力，解决复杂的长周期任务。与此同时，性能更强的 Gemini 3.5 Pro 已在内部投入使用，并计划于下个月正式推出。

背景

随着 AI 技术从单纯的对话生成向自主执行任务转变，市场对能够处理复杂、多步骤工作流的模型需求日益增长。Google 此次推出 Gemini 3.5 系列，旨在解决开发者和企业在实际工作流中遇到的繁琐与复杂性痛点。

在开发过程中，Google 与行业合作伙伴紧密合作，深入了解了银行、金融科技、数据科学等领域的具体挑战。合作伙伴反馈显示，从自动化长达数周的工作流到在复杂数据环境中挖掘洞察，现有的工具往往难以兼顾速度与精度。Gemini 3.5 的诞生正是为了填补这一空白，特别是通过 Gemini 3.5 Flash 实现“前沿性能”与“Flash 系列特有速度”的平衡，以及通过 Gemini 3.5 Pro 提供更高阶的智能支持。

核心内容

Gemini 3.5 Flash：速度与性能的极致平衡

Gemini 3.5 Flash 是 Google 迄今为止最强的智能体和编码模型。它在多个维度上的表现可与大型旗舰模型相媲美，同时保持了 Flash 系列用户所期待的高速响应。

基准测试表现：在 Terminal-Bench 2.1（76.2%）、GDPval-AA（1656 Elo）和 MCP Atlas（83.6%）等具有挑战性的编码和智能体基准测试中，3.5 Flash 的表现超越了 Gemini 3.1 Pro。在多模态理解方面，它在 CharXiv Reasoning 测试中达到了 84.2% 的得分。
速度优势：在每秒输出令牌数（tokens per second）方面，3.5 Flash 比其他前沿模型快 4 倍。
性能定位：在 Artificial Analysis 指数中，3.5 Flash 位于右上角象限，证明了用户不再需要在质量与延迟之间做出妥协。

规模化智能体任务处理

3.5 Flash 的核心优势在于处理长周期智能体任务（long-horizon agentic tasks）。以往需要开发人员数天或审计人员数周才能完成的工作，3.5 Flash 能在极短时间内完成，且成本通常低于其他前沿模型的一半。

Antigravity 平台赋能：结合更新的 Antigravity 智能体开发平台，3.5 Flash 能够部署协作式子智能体（subagents）以解决大规模问题。在监督下，它能可靠地执行多步骤工作流和编码任务。
实际应用场景：
- 资产管理：根据动态标准自动重命名和分类非结构化资产。
- 代码重构：将混乱的遗留代码库转换为 Next.js 架构。
- 游戏开发：利用两个智能体（构建者和玩家）在快速自我改进循环中，六小时内合成 AlphaZero 论文并编写出可完全运行的游戏。
- 创意生成：生成更丰富、更具交互性的 Web UI 和图形，例如将纯文本描述转化为交互式硬件概念，或在 60 秒内生成结账流程的不同 UX 方案。

现实世界的影响与案例

3.5 Flash 的智能体能力已在多个行业产生实质性影响：

Shopify：并行运行子智能体，分析复杂数据以进行全球规模的商家增长预测。
Macquarie Bank（麦格理银行）：试点利用 3.5 Flash 处理超过 100 页的复杂文档，通过推理检索相关信息并提供低延迟的可靠建议，从而加速客户入职流程。
Salesforce：将 3.5 Flash 集成到 Agentforce 中，通过部署保留上下文并执行复杂多轮工具调用的多个子智能体，可靠地自动化复杂的企业管理任务。
Ramp：结合多模态理解（处理复杂发票）和对历史模式的推理，实现更智能、更可靠的 OCR（光学字符识别）。
Xero：部署智能体自主管理长达数周的复杂工作流，如识别供应商并收集 1099 税表信息，帮助中小企业自动化繁琐的管理任务。
Databricks：使用智能体工作流监控和检索实时信息，在海量数据集上进行推理以诊断问题、识别修复方案并向数据科学家提出建议。

个人 AI 智能体：Gemini Spark

Gemini 3.5 Flash 现已成为全球 Gemini App 和 Google Search AI Mode 的默认模型。基于此，Google 推出了全新的个人 AI 智能体 Gemini Spark：

全天候服务：Gemini Spark 全天候运行，在用户的指导下导航数字生活并代为执行操作。
发布计划：目前正向受信任的测试人员逐步推出，并计划于下周面向美国 Google AI Ultra 订阅用户开放 Beta 版。

此外，3.5 Flash 增强的编码能力也提升了 Search 的体验，引入了 24/7 工作的信息智能体，并解锁了更多动态生成式 UI 体验。

前沿安全保障

Gemini 3.5 的开发遵循了 Google 的 Frontier Safety Framework（前沿安全框架）。通过加强网络安全和 CBRN（化学、生物、放射性和核）安全防护，模型生成有害内容的可能性降低，同时误拒安全查询的情况也得到改善。这得益于新的、更先进的安全训练和缓解措施，包括可解释性工具，这些工具有助于在模型提供响应之前检查和理解其内部推理过程。

关键要点

双轨发布策略：首发 Gemini 3.5 Flash，主打速度与智能体/编码能力；Gemini 3.5 Pro 已在内部测试，预计下月推出。
性能突破：3.5 Flash 在编码和智能体基准测试中超越 Gemini 3.1 Pro，速度比同类前沿模型快 4 倍，实现了“前沿智能”与“低延迟”的统一。
智能体生态：依托 Antigravity 平台，3.5 Flash 能够部署子智能体处理长周期、多步骤的复杂任务，显著降低时间和金钱成本。
行业落地：已在 Shopify、Macquarie Bank、Salesforce、Ramp、Xero 和 Databricks 等知名企业实现落地，涵盖金融、电商、数据科学等领域。
个人 AI 升级：3.5 Flash 成为 Gemini App 和 Search AI Mode 的默认模型，并驱动全新个人智能体 Gemini Spark 的推出，提供全天候个人助理服务。
安全优先：遵循前沿安全框架，通过增强型安全训练和可解释性工具，提升模型的安全性和可靠性。

意义与影响

Gemini 3.5 的发布标志着 Google 在 AI 智能体领域的战略重心转移。通过 Gemini 3.5 Flash，Google 证明了高性能模型不再需要以牺牲速度为代价，这使得 AI 能够真正嵌入到需要快速响应的实时工作流中。

对于开发者而言，Antigravity 平台和 Gemini API 的整合提供了一套强大的工具链，使得构建和部署协作式智能体变得前所未有的简单。对于企业用户，3.5 Flash 在金融、数据分析和自动化管理方面的实际应用案例，展示了 AI 从“辅助工具”向“自主执行者”转变的巨大潜力。

此外，Gemini Spark 的推出将前沿智能带入个人日常生活，预示着个人 AI 助手将从简单的问答机器进化为能够主动管理数字生活的智能伙伴。总体而言，Gemini 3.5 系列不仅提升了模型的技术指标，更通过强调“行动力（Action）”，重新定义了人机协作的边界。

查看原文 →blog.google