← 返回信息流
技术博客Google AI Blog·15 天前

Gemini 3.5:融合前沿智能与行动能力

原标题:Gemini 3.5: frontier intelligence with action

速览

谷歌在Google I/O大会上发布了最新模型系列Gemini 3.5。该系列模型的核心突破在于将前沿智能与行动能力深度融合。这一发布标志着AI模型从单纯的信息处理向具备执行能力的智能体迈进。

AI 深度解读

Gemini 3.5:具备行动能力的前沿智能

Google 正式发布了其最新一代模型家族 Gemini 3.5,标志着在构建更具能力、更智能的 AI 代理(Agents)方面取得了重大突破。此次发布以 Gemini 3.5 Flash 为首发版本,旨在将前沿智能与实际行动能力相结合,特别是在复杂长周期任务和代码生成领域展现出卓越性能。

背景

随着 AI 从单纯的“对话”向“行动”转变,市场对能够处理复杂、多步骤工作流的智能代理需求日益增长。传统的旗舰模型虽然在智能水平上表现优异,但在速度和成本上往往难以满足大规模实时应用的需求。

Google 此次推出 Gemini 3.5 系列,旨在解决这一痛点。该系列模型不仅继承了 Gemini 3 强大的多模态基础,更专注于提升“代理(Agentic)”能力——即模型自主规划、执行任务、调用工具并与其他代理协作的能力。目前,Gemini 3.5 Flash 已全面开放,而性能更强的 Gemini 3.5 Pro 也在内部测试中,预计将于下月推出。

核心内容

1. Gemini 3.5 Flash:速度与性能的完美平衡

Gemini 3.5 Flash 是 Google 迄今为止最强的代理和代码模型。它在保持 Flash 系列一贯的高速推理能力同时,实现了媲美大型旗舰模型的性能。

  • 性能指标领先:在 Terminal-Bench 2.1(76.2%)、GDPval-AA(1656 Elo)和 MCP Atlas(83.6%)等极具挑战性的代码和代理基准测试中,3.5 Flash 均超越了 Gemini 3.1 Pro。在多模态理解方面,其在 CharXiv Reasoning 测试中得分高达 84.2%。
  • 极致速度:在输出令牌每秒(tokens per second)的指标上,3.5 Flash 比其它前沿模型快 4 倍。
  • 行业评级:在 Artificial Analysis 指数中,3.5 Flash 位于右上角象限,证明了其能够在不牺牲质量的前提下提供极低延迟,打破了以往“质量与延迟不可兼得”的困境。

2. 规模化代理任务:从规划到执行

3.5 Flash 的核心优势在于处理长周期(long-horizon)代理任务。以往需要开发人员数天或审计人员数周才能完成的工作,3.5 Flash 能在极短时间内以不到其他前沿模型一半的成本完成。

  • Antigravity 平台赋能:结合更新的 Google Antigravity 开发平台,3.5 Flash 能够部署协作式子代理(subagents)来规模化解决复杂问题。在监督下,它能可靠地执行多步工作流和编码任务。
  • 实际应用场景
    • 资产管理:自动根据动态标准重命名和分类非结构化资产。
    • 代码重构:将混乱的遗留代码库转换为 Next.js 架构。
    • 游戏开发:利用“构建者”和“玩家”两个代理在快速自我改进循环中,6小时内合成 AlphaZero 论文并编写出可完全玩的游戏。
    • 创意生成:生成更丰富、更具交互性的 Web UI 和图形,例如将纯文本描述转化为交互式硬件原型,或在 60 秒内生成多种结账流程的 UX 方案。

3. 现实世界的影响:企业级落地

Gemini 3.5 Flash 的代理能力已在多个行业合作伙伴中产生实质性影响,主要解决工作流中的繁琐环节和复杂性:

  • Shopify:并行运行子代理,分析长期复杂数据,从而在全球范围内更准确地预测商家增长。
  • 麦格理银行(Macquarie Bank):试点利用 3.5 Flash 加速客户入职流程,通过推理处理 100 多页的复杂文档,检索相关信息并提供低延迟的可靠建议。
  • Salesforce:将 3.5 Flash 集成到 Agentforce 中,通过部署保留上下文并执行复杂多轮工具调用的多个子代理,可靠地自动化复杂的企业管理任务。
  • Ramp:结合多模态理解(复杂发票)和对历史模式的推理,实现更智能、更可靠的 OCR(光学字符识别)。
  • Xero:部署代理自主管理长达数周的复杂工作流,如识别供应商和收集 1099 税表信息,帮助小企业自动化繁琐的管理任务。
  • Databricks:使用代理工作流监控和检索实时信息,在海量数据集中推理以诊断问题、识别修复方案并向数据科学家提出建议。

4. 个人 AI 代理:Gemini Spark

3.5 Flash 现已成为全球 Gemini 应用和搜索 AI 模式的默认模型。Google 展示了如何利用其代理能力打造全新的个人 AI 体验:

  • Gemini Spark:这是一个全新的个人 AI 代理,基于 3.5 Flash 构建。它 24/7 全天候运行,在用户的指导下导航数字生活并代为执行操作。目前正向受信任的测试人员开放,并计划下周面向美国 Google AI Ultra 订阅者推出 Beta 版。
  • 搜索增强:3.5 Flash 的智能编码能力也提升了搜索体验,引入了 24/7 工作的信息代理,并解锁了更动态的生成式 UI 体验(例如生成交互式视觉图表解释复杂概念)。

5. 安全与合规

Gemini 3.5 的开发遵循 Google 的“前沿安全框架(Frontier Safety Framework)”。通过新的、更先进的安全训练和缓解措施,包括在模型提供响应前检查其内部推理过程的解释性工具,Google 加强了网络安全和 CBRN(化学、生物、放射性和核)防护。这使得模型更不容易生成有害内容,同时也减少了误拒安全查询的情况。

关键要点

  • 首发版本:Gemini 3.5 Flash 现已全面可用,Gemini 3.5 Pro 预计下月推出。
  • 性能突破:3.5 Flash 在代码和代理基准测试中超越 Gemini 3.1 Pro,速度比其它前沿模型快 4 倍。
  • 核心能力:专注于长周期、多步骤的代理任务,能够自主规划、构建和迭代以解决现实世界问题。
  • 平台支持:深度集成于 Google Antigravity 平台,支持部署协作式子代理以规模化处理复杂用例。
  • 企业落地:已在 Shopify、Salesforce、麦格理银行、Databricks 等巨头企业中实现自动化工作流、数据分析及代码重构等实际应用。
  • 个人应用:作为 Gemini Spark(个人 AI 代理)和搜索 AI 模式的底层模型,提供全天候的数字生活辅助。
  • 安全性:遵循前沿安全框架,通过增强训练和内部推理检查机制,提升内容安全性和减少误判。

意义与影响

Gemini 3.5 的发布标志着 AI 模型从“被动响应”向“主动行动”的关键转折。

首先,它重新定义了“性价比”的标准。通过 Flash 系列实现的前沿性能,Google 证明了用户无需在智能质量和推理延迟之间做出妥协。这对于需要实时反馈和大规模并发处理的商业应用至关重要。

其次,代理(Agent)成为新的计算范式。3.5 Flash 强调的“长周期任务”和“子代理协作”能力,意味着 AI 不再仅仅是问答机器,而是能够像员工一样,独立或协作完成从代码重构到财务审计等复杂工作流。这将极大地降低开发者和企业的运营成本,提升生产力。

最后,AI 深度融入个人生活。通过 Gemini Spark 和搜索 AI 模式的升级,前沿智能正变得触手可及。AI 代理将全天候服务于个人用户,处理从日程管理到信息检索等日常事务,使 AI 真正成为个人数字生活的延伸。

总体而言,Gemini 3.5 不仅是一次模型迭代,更是 Google 在构建通用智能代理生态系统上的重要一步,为开发者、企业和普通用户提供了更具实用价值的智能工具。

查看原文 →blog.google