11个Gemini Omni和Gemini 3.5实战演示
原标题:11 demos of Gemini Omni and Gemini 3.5 in action
速览
Google 在 I/O 2026 大会上正式发布了 Gemini Omni 和 Gemini 3.5 模型。本文通过11个视频演示,直观展示了这两款新模型在多项任务中的实际表现与能力边界。这标志着 Google 在生成式 AI 领域的最新技术进展。
AI 深度解读
Google I/O 2026 深度解读:Gemini Omni 与 Gemini 3.5 实战演示
在 Google I/O 2026 大会上,Google 正式发布了其最新的模型系列:Gemini Omni 和 Gemini 3.5。这两大产品代表了 Google 在生成式 AI 领域的最新突破,分别侧重于多模态内容的极致创作与智能体(Agent)的高效执行。
以下是对此次发布内容的完整解读与深度分析。
背景
随着 AI 技术从单纯的“对话”向“行动”和“复杂内容生成”演进,Google 此次发布的两款模型旨在解决两个核心痛点:
- 视频创作的门槛与灵活性:传统视频编辑需要复杂的软件操作,而 Gemini Omni 试图通过自然语言交互,让用户能够基于现实世界知识生成和编辑高质量视频。
- 智能体的速度与能力平衡:大型旗舰模型虽然强大但速度慢、成本高,而轻量级模型往往能力不足。Gemini 3.5 系列(首发 3.5 Flash)旨在结合前沿智能与执行速度,特别是在长周期任务(long-horizon tasks)中提供实时效用。
此外,Google 还引入了 Antigravity 这一新的执行框架,作为支撑 Gemini 3.5 智能体能力的底层引擎,并推出了个人 AI 助手 Gemini Spark。
核心内容
1. Gemini Omni:通过对话重塑视频创作
Gemini Omni 是 Google 全新推出的模型,其核心能力是“从任何输入创建任何内容”,目前首发功能聚焦于视频生成与编辑。
- 多模态输入与生成:用户可以结合图像、音频、视频和文本作为输入,生成基于 Gemini 现实世界知识的高质量视频。
- 自然语言视频编辑:这是 Omni 的差异化亮点。用户可以通过自然语言指令对视频进行编辑,且指令具有累积效应。
- 一致性保持:在多次编辑中,角色保持一致,物理规律合理,场景能记住之前的状态。
- 无限创意可能:用户可以改变特定细节或整体环境,将视频转化为原本无法实拍的内容。
- 实战演示案例:
- 材质替换:将雕塑材质变为气泡。
- 动作重构:将普通视频中的动作重新想象,例如在玻璃球内创建包含无限递归房间和手的视觉循环。
- 多轮迭代编辑:以一段小提琴演奏视频为例,通过多轮对话依次实现:改变环境、使小提琴隐形、调整摄像机角度为过肩镜头。整个过程场景逻辑连贯,未丢失原始场景线索。
2. Gemini 3.5 Flash:前沿智能与执行速度的结合
Gemini 3.5 是 Google 最新一代模型家族,强调“前沿智能与行动的结合”。首发版本为 3.5 Flash,旨在为智能体和编码任务提供旗舰级性能,同时保持 Flash 系列特有的速度。
- 长周期智能体任务:3.5 Flash 擅长处理复杂的长周期任务。在 Antigravity 框架的支持下,它能执行多步骤工作流,例如自动重命名和分类非结构化资产。
- 协作式子智能体(Sub-agents):结合更新的 Antigravity 框架,3.5 Flash 可以部署协作式子智能体,以解决大规模、高要求的问题。它在监督下能可靠地执行多步骤工作流和编码任务。
- 可视化与图形生成:3.5 Flash 利用子智能体创建复杂的数学概念可视化。例如,以极快速度生成 64 种分形变体来展示圆周率(Pi)的概念。
- 迭代式编码加速:在 AI Studio 上,3.5 Flash 能在 60 秒内生成结账流程的不同用户体验(UX)设计方案,展示了其在快速迭代中的编码能力。
3. 搜索与个人 AI 体验的升级
Gemini 3.5 Flash 的能力已深度整合进 Google 的日常产品中,特别是搜索和个人助手。
- 默认模型升级:3.5 Flash 现已成为全球 Gemini 应用和搜索中 AI Mode 的默认模型。
- 信息智能体(Information Agents):
- 功能:在后台全天候(24/7)运行,智能推理信息,在恰当时机提供精准更新。
- 示例:追踪用户喜爱运动员的球鞋联名或签名款发布动态,并提供包含链接的综合更新。
- 可用性:今年夏天首先向美国地区的 Google AI Pro 和 Ultra 订阅用户开放。
- 生成式 UI(Generative UI):
- 功能:根据问题即时构建理想格式的响应,包括可视化工具和模拟。
- 示例:利用 3.5 Flash 构建解释 Gyroid 图案的交互式可视化图表。
- 可用性:今年夏天对所有搜索用户免费开放。
- 自定义体验构建:
- 针对婚礼策划、健身计划等持续任务,搜索将构建仪表盘、追踪器或迷你应用。
- 未来几个月,用户将在搜索中利用 Antigravity 创建自定义体验(首先面向美国地区的 Pro/Ultra 用户)。
- Gemini Spark:个人 AI 智能体:
- 定位:运行在 Gemini 3.5 上,使用 Antigravity 框架的个人 AI 智能体。
- 能力:24/7 运行,在用户指令下代为执行数字生活任务,深度集成 Gmail、Docs、Slides 等 Workspace 工具。
- 示例:创建无坚果零食清单并直接添加到 Instacart 购物车。
- 可用性:现已面向美国地区的 Google AI Ultra 订阅用户开放。
4. 发布范围与可用性
- Gemini Omni Flash:
- 通过 Gemini 应用和 Google Flow 向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出。
- 在 YouTube Shorts 和 YouTube Create App 上免费向所有用户开放。
- 未来几周将通过 API 向开发者和企业客户推出。
- Gemini 3.5 Flash:
- 通过 Google Antigravity、Google AI Studio 和 Android Studio 中的 Gemini API、Gemini Enterprise Agent Platform 以及 Gemini Enterprise 全面可用。
- 在搜索的 AI Mode 中向所有人开放。
- 正在向全球 Gemini 应用的所有用户推出。
关键要点
- Gemini Omni 的核心突破:在于“对话式视频编辑”。它不仅能生成视频,还能通过多轮自然语言指令,保持角色一致性和物理逻辑,对现有视频进行深度修改(如改变材质、环境、摄像机角度)。
- Gemini 3.5 Flash 的定位:是“速度与性能的平衡点”。它在保持 Flash 系列高速度的同时,提供了接近旗舰模型的性能,特别擅长长周期、多步骤的智能体任务。
- Antigravity 框架的重要性:这是支撑 Gemini 3.5 智能体能力的核心引擎。它允许模型部署协作式子智能体,处理大规模、复杂的自动化工作流(如资产分类、代码生成、可视化构建)。
- 搜索功能的质变:Google 搜索不再仅仅是链接列表,而是转变为“生成式 UI”和“信息智能体”平台。它能全天候监控信息、即时生成定制化图表/应用,并直接执行操作(如添加到购物车)。
- Gemini Spark 的出现:标志着 Google 正式推出个人 AI 智能体。它不同于传统的聊天机器人,而是 24/7 运行的、深度集成于 Workspace 生态的“数字代理人”,目前仅对顶级订阅用户开放。
- 分层发布策略:
- Omni 侧重于创意消费端(YouTube 用户、订阅用户)。
- 3.5 Flash 侧重于生产力与开发端(API、企业平台、搜索底层)。
- Spark 侧重于高端个人助理市场。
意义与影响
查看原文 →blog.google
