Google I/O 2026 发布 Gemini Omni 与 Gemini 3.5 九大演示
速览
Google 在 I/O 2026 大会上正式发布了新一代大模型 Gemini Omni 和 Gemini 3.5。此次发布重点展示了这两个模型在多项任务中的实际能力,并通过九个演示视频直观呈现了其技术突破。这标志着 Google 在人工智能领域的最新进展和竞争力提升。
AI 深度解读
9 个演示展示 Gemini Omni 和 Gemini 3.5 的实际能力
在 Google I/O 2026 大会上,Google 正式发布了其最新一代模型家族:Gemini Omni 和 Gemini 3.5。这一发布标志着生成式 AI 在视频创作、智能体(Agent)协作以及多模态交互领域迈出了关键一步。
背景
随着多模态大模型能力的不断演进,用户对于 AI 的需求已从单纯的文本或图像生成,转向更复杂的视频编辑、长周期任务执行以及深度融入日常生活的智能代理。Google 此次推出的两个新模型系列,分别针对这两个核心痛点进行了优化:
- Gemini Omni:旨在解决“从任意输入创建任意内容”的问题,首发聚焦于视频生成与编辑。它利用自然语言交互,降低了视频制作的门槛,同时保持了角色一致性和物理逻辑的连贯性。
- Gemini 3.5 系列:旨在将前沿智能与行动力(Action)相结合,重点构建更强大、更智能的智能体。首发型号为 Gemini 3.5 Flash,主打在保持 Flash 系列高速度的同时,提供媲美旗舰模型的性能,特别适用于复杂的长周期任务和编码工作。
此外,Google 还强调了其底层基础设施 Google Antigravity 在支撑这些模型高效运行、特别是处理多步骤工作流和子代理协作中的关键作用。
核心内容
Gemini Omni:通过对话重塑视频创作
Gemini Omni 的核心突破在于其能够通过自然语言指令对视频进行精细编辑。与传统视频编辑软件不同,Omni 允许用户通过对话式交互来修改视频内容,且每一轮指令都建立在前一轮的基础上,确保场景记忆、角色一致性和物理规律的连贯。
演示案例详解:
-
材质转换:
- 提示词:Make the sculpture out of bubbles.(让雕塑变成由气泡组成。)
- 效果:用户可以将视频中的实体对象瞬间转换为另一种材质,而无需重新拍摄。
-
动作与场景重构:
- 提示词:Dim the lights in the room. Put a black and white checkerboard room inside a glass sphere that floats tracking above the hand, inside it contains a recursive representation of the same hand holding the sphere, creating an infinite recursive of rooms. Camera slowly gets closer into the sphere, creating a video loop.(调暗房间灯光。在一个悬浮于手上方并追踪拍摄的玻璃球内放入黑白棋盘格房间,球内包含手持该球的递归影像,创造无限递归的房间效果。镜头缓慢推进球内,形成视频循环。)
- 效果:展示了 Omni 处理复杂视觉概念和递归逻辑的能力,能够生成极具艺术感和超现实主义的视觉效果。
-
多轮迭代编辑:
- 初始提示词:A video of a violinist playing a song.(一位小提琴家演奏歌曲的视频。)
- 第一轮编辑:Transport the violinist to the image environment(将小提琴家转移到图像环境中。)
- 第二轮编辑:Make the violin invisible(让小提琴隐形。)
- 第三轮编辑:Change the camera angle to be over the violinist’s shoulder.(将摄像机角度改为过肩视角。)
- 效果:展示了 Omni 在保持原始场景核心元素(如小提琴家)不变的前提下,逐步改变环境、物体可见性和镜头角度的能力。
Gemini 3.5 Flash:智能体与编码的前沿性能
Gemini 3.5 Flash 是该系列的首发型号,其设计目标是平衡速度与性能。它在多个维度上达到了大型旗舰模型的水平,同时保持了 Flash 系列特有的低延迟和高吞吐量,使其成为处理长周期智能体任务(Long-horizon agentic tasks)的理想选择。
演示案例详解:
-
大规模智能体任务处理:
- 场景:基于 Antigravity 框架,3.5 Flash 执行多步骤工作流,根据动态标准自动重命名和分类非结构化资产。
- 能力:当与更新后的 Antigravity 框架结合时,3.5 Flash 能够部署协作式子代理(Subagents),在监督下可靠地执行多步骤工作流和编码任务,处理最具挑战性的用例。
-
** richer 的 Web UI 与图形生成**:
- 场景:在 AI Studio 上,3.5 Flash 在 60 秒内为结账流程(Checkout flow)生成了不同的用户体验(UX)设计方案。
- 能力:基于 Gemini 3.5 强大的多模态基础,3.5 Flash 能够快速生成交互式和图形化的 Web 界面原型。
-
个人 AI 代理与搜索增强:
- 默认模型:3.5 Flash 现已成为全球 Gemini 应用和搜索中 AI Mode 的默认模型。
- 信息代理(Information Agents):在后台 24/7 运行,智能推理并监控特定信息(如用户喜爱的运动员是否发布联名球鞋)。一旦有更新,代理会发送包含链接的综合报告。此功能夏季率先向 Google AI Pro & Ultra 订阅用户开放。
- 生成式 UI(Generative UI):搜索功能现在可以利用 3.5 Flash 和 Antigravity 能力,即时构建定制化的生成式 UI,包括可视化工具和模拟演示。例如,搜索“Gyroid patterns”时,搜索会构建一个交互式视觉解释。此功能夏季将免费向所有搜索用户开放。
- 自定义体验:对于规划婚礼或建立健身习惯等持续任务,搜索可以构建仪表盘、追踪器或迷你应用。用户未来可在搜索中直接使用 Antigravity 创建自定义体验,美国地区的 Google AI Pro 和 Ultra 用户将率先体验。
-
Gemini Spark:个人 AI 代理:
- 描述:运行在 Gemini 3.5 上并使用 Antigravity 框架的个人 AI 代理。它 24/7 运行,在用户指导下导航数字生活并代为执行操作。
- 集成:深度集成 Gmail、Docs、Slides 等 Workspace 工具。
- 演示:Gemini Spark 创建了一份无坚果零食清单,并将其添加到 Instacart 购物车中。
- 可用性:现已面向美国地区的 Google AI Ultra 订阅用户开放。
发布与可用性
- Gemini Omni Flash:正在向全球 Google AI Plus、Pro 和 Ultra 订阅用户通过 Gemini 应用和 Google Flow 推出。同时,YouTube Shorts 和 YouTube Create App 的用户可免费使用。未来几周将通过 API 向开发者和企业客户开放。
- Gemini 3.5 Flash:已通过 Google Antigravity、Google AI Studio 和 Android Studio 中的 Gemini API、Gemini Enterprise Agent Platform 以及 Gemini Enterprise 全面可用。此外,它也是搜索中 AI Mode 的核心,并正在向全球 Gemini 应用用户开放。
关键要点
- 视频编辑范式转移:Gemini Omni 通过自然语言对话实现了视频内容的动态编辑,支持角色一致性、物理规律保持和场景记忆,使得非专业用户也能创作复杂视频。
- 速度与性能的平衡:Gemini 3.5 Flash 在保持 Flash 系列高速度的同时,在智能体和编码任务上达到了旗舰模型的性能水平,特别擅长处理长周期、多步骤的复杂任务。
- Antigravity 框架的核心作用:Google 的 Antigravity 框架是支撑 3.5 Flash 执行多步骤工作流、部署子代理以及实现 24/7 持续运行的关键基础设施。
- 搜索功能的智能化升级:搜索不再仅是链接列表,而是通过 3.5 Flash 提供生成式 UI、交互式可视化和 24/7 后台信息代理,为用户提供即时、定制化的行动建议。
- 个人 AI 代理的落地:Gemini Spark 作为个人 AI 代理,深度集成 Workspace 工具,能够主动执行任务(如购物清单添加),标志着 AI 从“辅助工具”向“主动
