技术博客Google AI Blog·2026/5/29

Google I/O 2026 发布 Gemini Omni 与 Gemini 3.5 九大演示

原标题：9 demos of Gemini Omni and Gemini 3.5 in action

速览

Google 在 I/O 2026 大会上正式发布了新一代大模型 Gemini Omni 和 Gemini 3.5。此次发布重点展示了这两个模型在多项任务中的实际能力，并通过九个演示视频直观呈现了其技术突破。这标志着 Google 在人工智能领域的最新进展和竞争力提升。

AI 深度解读

9 个演示展示 Gemini Omni 和 Gemini 3.5 的实际能力

在 Google I/O 2026 大会上，Google 正式发布了其最新一代模型家族：Gemini Omni 和 Gemini 3.5。这一发布标志着生成式 AI 在视频创作、智能体（Agent）协作以及多模态交互领域迈出了关键一步。

背景

随着多模态大模型能力的不断演进，用户对于 AI 的需求已从单纯的文本或图像生成，转向更复杂的视频编辑、长周期任务执行以及深度融入日常生活的智能代理。Google 此次推出的两个新模型系列，分别针对这两个核心痛点进行了优化：

Gemini Omni：旨在解决“从任意输入创建任意内容”的问题，首发聚焦于视频生成与编辑。它利用自然语言交互，降低了视频制作的门槛，同时保持了角色一致性和物理逻辑的连贯性。
Gemini 3.5 系列：旨在将前沿智能与行动力（Action）相结合，重点构建更强大、更智能的智能体。首发型号为 Gemini 3.5 Flash，主打在保持 Flash 系列高速度的同时，提供媲美旗舰模型的性能，特别适用于复杂的长周期任务和编码工作。

此外，Google 还强调了其底层基础设施 Google Antigravity 在支撑这些模型高效运行、特别是处理多步骤工作流和子代理协作中的关键作用。

核心内容

Gemini Omni：通过对话重塑视频创作

Gemini Omni 的核心突破在于其能够通过自然语言指令对视频进行精细编辑。与传统视频编辑软件不同，Omni 允许用户通过对话式交互来修改视频内容，且每一轮指令都建立在前一轮的基础上，确保场景记忆、角色一致性和物理规律的连贯。

演示案例详解：

材质转换：
- 提示词：Make the sculpture out of bubbles.（让雕塑变成由气泡组成。）
- 效果：用户可以将视频中的实体对象瞬间转换为另一种材质，而无需重新拍摄。
动作与场景重构：
- 提示词：Dim the lights in the room. Put a black and white checkerboard room inside a glass sphere that floats tracking above the hand, inside it contains a recursive representation of the same hand holding the sphere, creating an infinite recursive of rooms. Camera slowly gets closer into the sphere, creating a video loop.（调暗房间灯光。在一个悬浮于手上方并追踪拍摄的玻璃球内放入黑白棋盘格房间，球内包含手持该球的递归影像，创造无限递归的房间效果。镜头缓慢推进球内，形成视频循环。）
- 效果：展示了 Omni 处理复杂视觉概念和递归逻辑的能力，能够生成极具艺术感和超现实主义的视觉效果。
多轮迭代编辑：
- 初始提示词：A video of a violinist playing a song.（一位小提琴家演奏歌曲的视频。）
- 第一轮编辑：Transport the violinist to the image environment（将小提琴家转移到图像环境中。）
- 第二轮编辑：Make the violin invisible（让小提琴隐形。）
- 第三轮编辑：Change the camera angle to be over the violinist’s shoulder.（将摄像机角度改为过肩视角。）
- 效果：展示了 Omni 在保持原始场景核心元素（如小提琴家）不变的前提下，逐步改变环境、物体可见性和镜头角度的能力。

Gemini 3.5 Flash：智能体与编码的前沿性能

Gemini 3.5 Flash 是该系列的首发型号，其设计目标是平衡速度与性能。它在多个维度上达到了大型旗舰模型的水平，同时保持了 Flash 系列特有的低延迟和高吞吐量，使其成为处理长周期智能体任务（Long-horizon agentic tasks）的理想选择。

演示案例详解：

大规模智能体任务处理：
- 场景：基于 Antigravity 框架，3.5 Flash 执行多步骤工作流，根据动态标准自动重命名和分类非结构化资产。
- 能力：当与更新后的 Antigravity 框架结合时，3.5 Flash 能够部署协作式子代理（Subagents），在监督下可靠地执行多步骤工作流和编码任务，处理最具挑战性的用例。
** richer 的 Web UI 与图形生成**：
- 场景：在 AI Studio 上，3.5 Flash 在 60 秒内为结账流程（Checkout flow）生成了不同的用户体验（UX）设计方案。
- 能力：基于 Gemini 3.5 强大的多模态基础，3.5 Flash 能够快速生成交互式和图形化的 Web 界面原型。
个人 AI 代理与搜索增强：
- 默认模型：3.5 Flash 现已成为全球 Gemini 应用和搜索中 AI Mode 的默认模型。
- 信息代理（Information Agents）：在后台 24/7 运行，智能推理并监控特定信息（如用户喜爱的运动员是否发布联名球鞋）。一旦有更新，代理会发送包含链接的综合报告。此功能夏季率先向 Google AI Pro & Ultra 订阅用户开放。
- 生成式 UI（Generative UI）：搜索功能现在可以利用 3.5 Flash 和 Antigravity 能力，即时构建定制化的生成式 UI，包括可视化工具和模拟演示。例如，搜索“Gyroid patterns”时，搜索会构建一个交互式视觉解释。此功能夏季将免费向所有搜索用户开放。
- 自定义体验：对于规划婚礼或建立健身习惯等持续任务，搜索可以构建仪表盘、追踪器或迷你应用。用户未来可在搜索中直接使用 Antigravity 创建自定义体验，美国地区的 Google AI Pro 和 Ultra 用户将率先体验。
Gemini Spark：个人 AI 代理：
- 描述：运行在 Gemini 3.5 上并使用 Antigravity 框架的个人 AI 代理。它 24/7 运行，在用户指导下导航数字生活并代为执行操作。
- 集成：深度集成 Gmail、Docs、Slides 等 Workspace 工具。
- 演示：Gemini Spark 创建了一份无坚果零食清单，并将其添加到 Instacart 购物车中。
- 可用性：现已面向美国地区的 Google AI Ultra 订阅用户开放。

发布与可用性

Gemini Omni Flash：正在向全球 Google AI Plus、Pro 和 Ultra 订阅用户通过 Gemini 应用和 Google Flow 推出。同时，YouTube Shorts 和 YouTube Create App 的用户可免费使用。未来几周将通过 API 向开发者和企业客户开放。
Gemini 3.5 Flash：已通过 Google Antigravity、Google AI Studio 和 Android Studio 中的 Gemini API、Gemini Enterprise Agent Platform 以及 Gemini Enterprise 全面可用。此外，它也是搜索中 AI Mode 的核心，并正在向全球 Gemini 应用用户开放。

关键要点

视频编辑范式转移：Gemini Omni 通过自然语言对话实现了视频内容的动态编辑，支持角色一致性、物理规律保持和场景记忆，使得非专业用户也能创作复杂视频。
速度与性能的平衡：Gemini 3.5 Flash 在保持 Flash 系列高速度的同时，在智能体和编码任务上达到了旗舰模型的性能水平，特别擅长处理长周期、多步骤的复杂任务。
Antigravity 框架的核心作用：Google 的 Antigravity 框架是支撑 3.5 Flash 执行多步骤工作流、部署子代理以及实现 24/7 持续运行的关键基础设施。
搜索功能的智能化升级：搜索不再仅是链接列表，而是通过 3.5 Flash 提供生成式 UI、交互式可视化和 24/7 后台信息代理，为用户提供即时、定制化的行动建议。
个人 AI 代理的落地：Gemini Spark 作为个人 AI 代理，深度集成 Workspace 工具，能够主动执行任务（如购物清单添加），标志着 AI 从“辅助工具”向“主动

查看原文 →blog.google