← 返回信息流
技术博客Google AI Blog·5 天前

11个Gemini Omni和Gemini 3.5实战演示

原标题:11 demos of Gemini Omni and Gemini 3.5 in action

速览

Google 在 I/O 2026 大会上正式发布了 Gemini Omni 和 Gemini 3.5 模型。本文通过11个视频演示,直观展示了这两款新模型在多项任务中的实际表现与能力边界。这标志着 Google 在生成式 AI 领域的最新技术进展。

AI 深度解读

Google I/O 2026 深度解读:Gemini Omni 与 Gemini 3.5 实战演示

在 Google I/O 2026 大会上,Google 正式发布了其最新的模型系列:Gemini OmniGemini 3.5。这两大产品代表了 Google 在生成式 AI 领域的最新突破,分别侧重于多模态内容的极致创作与智能体(Agent)的高效执行。

以下是对此次发布内容的完整解读与深度分析。

背景

随着 AI 技术从单纯的“对话”向“行动”和“复杂内容生成”演进,Google 此次发布的两款模型旨在解决两个核心痛点:

  1. 视频创作的门槛与灵活性:传统视频编辑需要复杂的软件操作,而 Gemini Omni 试图通过自然语言交互,让用户能够基于现实世界知识生成和编辑高质量视频。
  2. 智能体的速度与能力平衡:大型旗舰模型虽然强大但速度慢、成本高,而轻量级模型往往能力不足。Gemini 3.5 系列(首发 3.5 Flash)旨在结合前沿智能与执行速度,特别是在长周期任务(long-horizon tasks)中提供实时效用。

此外,Google 还引入了 Antigravity 这一新的执行框架,作为支撑 Gemini 3.5 智能体能力的底层引擎,并推出了个人 AI 助手 Gemini Spark

核心内容

1. Gemini Omni:通过对话重塑视频创作

Gemini Omni 是 Google 全新推出的模型,其核心能力是“从任何输入创建任何内容”,目前首发功能聚焦于视频生成与编辑。

  • 多模态输入与生成:用户可以结合图像、音频、视频和文本作为输入,生成基于 Gemini 现实世界知识的高质量视频。
  • 自然语言视频编辑:这是 Omni 的差异化亮点。用户可以通过自然语言指令对视频进行编辑,且指令具有累积效应。
    • 一致性保持:在多次编辑中,角色保持一致,物理规律合理,场景能记住之前的状态。
    • 无限创意可能:用户可以改变特定细节或整体环境,将视频转化为原本无法实拍的内容。
  • 实战演示案例
    • 材质替换:将雕塑材质变为气泡。
    • 动作重构:将普通视频中的动作重新想象,例如在玻璃球内创建包含无限递归房间和手的视觉循环。
    • 多轮迭代编辑:以一段小提琴演奏视频为例,通过多轮对话依次实现:改变环境、使小提琴隐形、调整摄像机角度为过肩镜头。整个过程场景逻辑连贯,未丢失原始场景线索。

2. Gemini 3.5 Flash:前沿智能与执行速度的结合

Gemini 3.5 是 Google 最新一代模型家族,强调“前沿智能与行动的结合”。首发版本为 3.5 Flash,旨在为智能体和编码任务提供旗舰级性能,同时保持 Flash 系列特有的速度。

  • 长周期智能体任务:3.5 Flash 擅长处理复杂的长周期任务。在 Antigravity 框架的支持下,它能执行多步骤工作流,例如自动重命名和分类非结构化资产。
  • 协作式子智能体(Sub-agents):结合更新的 Antigravity 框架,3.5 Flash 可以部署协作式子智能体,以解决大规模、高要求的问题。它在监督下能可靠地执行多步骤工作流和编码任务。
  • 可视化与图形生成:3.5 Flash 利用子智能体创建复杂的数学概念可视化。例如,以极快速度生成 64 种分形变体来展示圆周率(Pi)的概念。
  • 迭代式编码加速:在 AI Studio 上,3.5 Flash 能在 60 秒内生成结账流程的不同用户体验(UX)设计方案,展示了其在快速迭代中的编码能力。

3. 搜索与个人 AI 体验的升级

Gemini 3.5 Flash 的能力已深度整合进 Google 的日常产品中,特别是搜索和个人助手。

  • 默认模型升级:3.5 Flash 现已成为全球 Gemini 应用和搜索中 AI Mode 的默认模型。
  • 信息智能体(Information Agents)
    • 功能:在后台全天候(24/7)运行,智能推理信息,在恰当时机提供精准更新。
    • 示例:追踪用户喜爱运动员的球鞋联名或签名款发布动态,并提供包含链接的综合更新。
    • 可用性:今年夏天首先向美国地区的 Google AI Pro 和 Ultra 订阅用户开放。
  • 生成式 UI(Generative UI)
    • 功能:根据问题即时构建理想格式的响应,包括可视化工具和模拟。
    • 示例:利用 3.5 Flash 构建解释 Gyroid 图案的交互式可视化图表。
    • 可用性:今年夏天对所有搜索用户免费开放。
  • 自定义体验构建
    • 针对婚礼策划、健身计划等持续任务,搜索将构建仪表盘、追踪器或迷你应用。
    • 未来几个月,用户将在搜索中利用 Antigravity 创建自定义体验(首先面向美国地区的 Pro/Ultra 用户)。
  • Gemini Spark:个人 AI 智能体
    • 定位:运行在 Gemini 3.5 上,使用 Antigravity 框架的个人 AI 智能体。
    • 能力:24/7 运行,在用户指令下代为执行数字生活任务,深度集成 Gmail、Docs、Slides 等 Workspace 工具。
    • 示例:创建无坚果零食清单并直接添加到 Instacart 购物车。
    • 可用性:现已面向美国地区的 Google AI Ultra 订阅用户开放。

4. 发布范围与可用性

  • Gemini Omni Flash
    • 通过 Gemini 应用和 Google Flow 向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出。
    • 在 YouTube Shorts 和 YouTube Create App 上免费向所有用户开放。
    • 未来几周将通过 API 向开发者和企业客户推出。
  • Gemini 3.5 Flash
    • 通过 Google Antigravity、Google AI Studio 和 Android Studio 中的 Gemini API、Gemini Enterprise Agent Platform 以及 Gemini Enterprise 全面可用。
    • 在搜索的 AI Mode 中向所有人开放。
    • 正在向全球 Gemini 应用的所有用户推出。

关键要点

  • Gemini Omni 的核心突破:在于“对话式视频编辑”。它不仅能生成视频,还能通过多轮自然语言指令,保持角色一致性和物理逻辑,对现有视频进行深度修改(如改变材质、环境、摄像机角度)。
  • Gemini 3.5 Flash 的定位:是“速度与性能的平衡点”。它在保持 Flash 系列高速度的同时,提供了接近旗舰模型的性能,特别擅长长周期、多步骤的智能体任务。
  • Antigravity 框架的重要性:这是支撑 Gemini 3.5 智能体能力的核心引擎。它允许模型部署协作式子智能体,处理大规模、复杂的自动化工作流(如资产分类、代码生成、可视化构建)。
  • 搜索功能的质变:Google 搜索不再仅仅是链接列表,而是转变为“生成式 UI”和“信息智能体”平台。它能全天候监控信息、即时生成定制化图表/应用,并直接执行操作(如添加到购物车)。
  • Gemini Spark 的出现:标志着 Google 正式推出个人 AI 智能体。它不同于传统的聊天机器人,而是 24/7 运行的、深度集成于 Workspace 生态的“数字代理人”,目前仅对顶级订阅用户开放。
  • 分层发布策略
    • Omni 侧重于创意消费端(YouTube 用户、订阅用户)。
    • 3.5 Flash 侧重于生产力与开发端(API、企业平台、搜索底层)。
    • Spark 侧重于高端个人助理市场。

意义与影响

查看原文 →blog.google