← 返回信息流
AI 资讯量子位·3 小时前

视频版Nano Banana来了!内置Gemini世界知识;原版香蕉出图仅需4秒

AI 深度解读

背景

在当前的AI军备竞赛中,Coding能力几乎等同于模型智商的代名词,各大厂商纷纷死磕代码生成。相比之下,谷歌在多模态领域的持续深耕显得有些“特立独行”。尽管其Coding能力暂时落后于竞争对手,但在多模态这张牌桌上,谷歌可能是唯一能组齐一套牌的玩家。

此前,谷歌在Google I/O 2026大会上展示了多模态推理与视频生成深度结合的雏形,引发外界关注。如今,谷歌正式将技术落地,推出了两款极具针对性的模型:视频生成模型Gemini Omni Flash和图像生成模型Nano Banana 2 Lite。这两款模型的发布,不仅是对“多模态到底有什么用”这一质疑的回应,也展现了谷歌在垂直场景端到端商业化的野心。

核心内容

本次谷歌发布的核心是两款多模态模型,分别瞄准视频生成和图像生成赛道,并试图通过串联使用构建无缝的创作工作流。

1. Gemini Omni Flash:内置世界知识的视频生成模型 Gemini Omni Flash(被戏称为视频版Nano Banana)现已通过Gemini API和Google AI Studio正式向开发者开放。该模型将Gemini的多模态推理能力与视频生成、编辑深度结合,支持文本、图像和视频多种输入。其核心能力包括:

  • 对话式视频编辑:用户可通过自然语言修改和精修视频;
  • 多模态参考:组合图像、文本、视频输入以保持场景控制和一致性;
  • 现实世界知识:调用Gemini在历史、生物、叙事逻辑等方面的知识构建视频,减少繁琐的Prompt描述;
  • 文字与动作同步:通过简单提示词将文字和图形直接连接到视频动作。

在价格上,其输出成本为0.10美元/秒,与Veo

查看原文 →qbitai.com