技术博客Google AI Blog·5 天前

11个Gemini Omni和Gemini 3.5实战演示

原标题：11 demos of Gemini Omni and Gemini 3.5 in action

速览

Google 在 I/O 2026 大会上正式发布了 Gemini Omni 和 Gemini 3.5 模型。本文通过11个视频演示，直观展示了这两款新模型在多项任务中的实际表现与能力边界。这标志着 Google 在生成式 AI 领域的最新技术进展。

AI 深度解读

Google I/O 2026 深度解读：Gemini Omni 与 Gemini 3.5 实战演示

在 Google I/O 2026 大会上，Google 正式发布了其最新的模型系列：Gemini Omni 和 Gemini 3.5。这两大产品代表了 Google 在生成式 AI 领域的最新突破，分别侧重于多模态内容的极致创作与智能体（Agent）的高效执行。

以下是对此次发布内容的完整解读与深度分析。

背景

随着 AI 技术从单纯的“对话”向“行动”和“复杂内容生成”演进，Google 此次发布的两款模型旨在解决两个核心痛点：

视频创作的门槛与灵活性：传统视频编辑需要复杂的软件操作，而 Gemini Omni 试图通过自然语言交互，让用户能够基于现实世界知识生成和编辑高质量视频。
智能体的速度与能力平衡：大型旗舰模型虽然强大但速度慢、成本高，而轻量级模型往往能力不足。Gemini 3.5 系列（首发 3.5 Flash）旨在结合前沿智能与执行速度，特别是在长周期任务（long-horizon tasks）中提供实时效用。

此外，Google 还引入了 Antigravity 这一新的执行框架，作为支撑 Gemini 3.5 智能体能力的底层引擎，并推出了个人 AI 助手 Gemini Spark。

核心内容

1. Gemini Omni：通过对话重塑视频创作

Gemini Omni 是 Google 全新推出的模型，其核心能力是“从任何输入创建任何内容”，目前首发功能聚焦于视频生成与编辑。

多模态输入与生成：用户可以结合图像、音频、视频和文本作为输入，生成基于 Gemini 现实世界知识的高质量视频。
自然语言视频编辑：这是 Omni 的差异化亮点。用户可以通过自然语言指令对视频进行编辑，且指令具有累积效应。
- 一致性保持：在多次编辑中，角色保持一致，物理规律合理，场景能记住之前的状态。
- 无限创意可能：用户可以改变特定细节或整体环境，将视频转化为原本无法实拍的内容。
实战演示案例：
- 材质替换：将雕塑材质变为气泡。
- 动作重构：将普通视频中的动作重新想象，例如在玻璃球内创建包含无限递归房间和手的视觉循环。
- 多轮迭代编辑：以一段小提琴演奏视频为例，通过多轮对话依次实现：改变环境、使小提琴隐形、调整摄像机角度为过肩镜头。整个过程场景逻辑连贯，未丢失原始场景线索。

2. Gemini 3.5 Flash：前沿智能与执行速度的结合

Gemini 3.5 是 Google 最新一代模型家族，强调“前沿智能与行动的结合”。首发版本为 3.5 Flash，旨在为智能体和编码任务提供旗舰级性能，同时保持 Flash 系列特有的速度。

长周期智能体任务：3.5 Flash 擅长处理复杂的长周期任务。在 Antigravity 框架的支持下，它能执行多步骤工作流，例如自动重命名和分类非结构化资产。
协作式子智能体（Sub-agents）：结合更新的 Antigravity 框架，3.5 Flash 可以部署协作式子智能体，以解决大规模、高要求的问题。它在监督下能可靠地执行多步骤工作流和编码任务。
可视化与图形生成：3.5 Flash 利用子智能体创建复杂的数学概念可视化。例如，以极快速度生成 64 种分形变体来展示圆周率（Pi）的概念。
迭代式编码加速：在 AI Studio 上，3.5 Flash 能在 60 秒内生成结账流程的不同用户体验（UX）设计方案，展示了其在快速迭代中的编码能力。

3. 搜索与个人 AI 体验的升级

Gemini 3.5 Flash 的能力已深度整合进 Google 的日常产品中，特别是搜索和个人助手。

默认模型升级：3.5 Flash 现已成为全球 Gemini 应用和搜索中 AI Mode 的默认模型。
信息智能体（Information Agents）：
- 功能：在后台全天候（24/7）运行，智能推理信息，在恰当时机提供精准更新。
- 示例：追踪用户喜爱运动员的球鞋联名或签名款发布动态，并提供包含链接的综合更新。
- 可用性：今年夏天首先向美国地区的 Google AI Pro 和 Ultra 订阅用户开放。
生成式 UI（Generative UI）：
- 功能：根据问题即时构建理想格式的响应，包括可视化工具和模拟。
- 示例：利用 3.5 Flash 构建解释 Gyroid 图案的交互式可视化图表。
- 可用性：今年夏天对所有搜索用户免费开放。
自定义体验构建：
- 针对婚礼策划、健身计划等持续任务，搜索将构建仪表盘、追踪器或迷你应用。
- 未来几个月，用户将在搜索中利用 Antigravity 创建自定义体验（首先面向美国地区的 Pro/Ultra 用户）。
Gemini Spark：个人 AI 智能体：
- 定位：运行在 Gemini 3.5 上，使用 Antigravity 框架的个人 AI 智能体。
- 能力：24/7 运行，在用户指令下代为执行数字生活任务，深度集成 Gmail、Docs、Slides 等 Workspace 工具。
- 示例：创建无坚果零食清单并直接添加到 Instacart 购物车。
- 可用性：现已面向美国地区的 Google AI Ultra 订阅用户开放。

4. 发布范围与可用性

Gemini Omni Flash：
- 通过 Gemini 应用和 Google Flow 向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出。
- 在 YouTube Shorts 和 YouTube Create App 上免费向所有用户开放。
- 未来几周将通过 API 向开发者和企业客户推出。
Gemini 3.5 Flash：
- 通过 Google Antigravity、Google AI Studio 和 Android Studio 中的 Gemini API、Gemini Enterprise Agent Platform 以及 Gemini Enterprise 全面可用。
- 在搜索的 AI Mode 中向所有人开放。
- 正在向全球 Gemini 应用的所有用户推出。

关键要点

Gemini Omni 的核心突破：在于“对话式视频编辑”。它不仅能生成视频，还能通过多轮自然语言指令，保持角色一致性和物理逻辑，对现有视频进行深度修改（如改变材质、环境、摄像机角度）。
Gemini 3.5 Flash 的定位：是“速度与性能的平衡点”。它在保持 Flash 系列高速度的同时，提供了接近旗舰模型的性能，特别擅长长周期、多步骤的智能体任务。
Antigravity 框架的重要性：这是支撑 Gemini 3.5 智能体能力的核心引擎。它允许模型部署协作式子智能体，处理大规模、复杂的自动化工作流（如资产分类、代码生成、可视化构建）。
搜索功能的质变：Google 搜索不再仅仅是链接列表，而是转变为“生成式 UI”和“信息智能体”平台。它能全天候监控信息、即时生成定制化图表/应用，并直接执行操作（如添加到购物车）。
Gemini Spark 的出现：标志着 Google 正式推出个人 AI 智能体。它不同于传统的聊天机器人，而是 24/7 运行的、深度集成于 Workspace 生态的“数字代理人”，目前仅对顶级订阅用户开放。
分层发布策略：
- Omni 侧重于创意消费端（YouTube 用户、订阅用户）。
- 3.5 Flash 侧重于生产力与开发端（API、企业平台、搜索底层）。
- Spark 侧重于高端个人助理市场。

意义与影响

查看原文 →blog.google