AI 资讯量子位·3 小时前

视频版Nano Banana来了！内置Gemini世界知识；原版香蕉出图仅需4秒

AI 深度解读

背景

在当前的AI军备竞赛中，Coding能力几乎等同于模型智商的代名词，各大厂商纷纷死磕代码生成。相比之下，谷歌在多模态领域的持续深耕显得有些“特立独行”。尽管其Coding能力暂时落后于竞争对手，但在多模态这张牌桌上，谷歌可能是唯一能组齐一套牌的玩家。

此前，谷歌在Google I/O 2026大会上展示了多模态推理与视频生成深度结合的雏形，引发外界关注。如今，谷歌正式将技术落地，推出了两款极具针对性的模型：视频生成模型Gemini Omni Flash和图像生成模型Nano Banana 2 Lite。这两款模型的发布，不仅是对“多模态到底有什么用”这一质疑的回应，也展现了谷歌在垂直场景端到端商业化的野心。

核心内容

本次谷歌发布的核心是两款多模态模型，分别瞄准视频生成和图像生成赛道，并试图通过串联使用构建无缝的创作工作流。

1. Gemini Omni Flash：内置世界知识的视频生成模型 Gemini Omni Flash（被戏称为视频版Nano Banana）现已通过Gemini API和Google AI Studio正式向开发者开放。该模型将Gemini的多模态推理能力与视频生成、编辑深度结合，支持文本、图像和视频多种输入。其核心能力包括：

对话式视频编辑：用户可通过自然语言修改和精修视频；
多模态参考：组合图像、文本、视频输入以保持场景控制和一致性；
现实世界知识：调用Gemini在历史、生物、叙事逻辑等方面的知识构建视频，减少繁琐的Prompt描述；
文字与动作同步：通过简单提示词将文字和图形直接连接到视频动作。

在价格上，其输出成本为0.10美元/秒，与Veo

查看原文 →qbitai.com

视频版Nano Banana来了！内置Gemini世界知识；原版香蕉出图仅需4秒

AI 深度解读

背景

核心内容

相关推荐