← 返回信息流
AI 资讯雷峰网·3 小时前

HiDream-O1-Image-1.5 刷新国产图像生成模型纪录:砍掉 VAE,是图像模型的未来吗?

AI 深度解读

背景

智象未来(HiDream)近日发布了闭源图像生成模型HiDream-O1-Image-1.5,该模型在Artificial Analysis榜单上跃升至文生图模型排名第三位,超越Google的Nano Banana 2,仅次于OpenAI的两款模型。此前,其开源版HiDream-O1-Image(8B参数)曾以匿名身份登上AA榜,位列文生图开源模型全球第一。1.5版本的推出进一步巩固了智象未来在视觉生成大模型领域的第一梯队地位,并引发了行业对图像模型技术路线的深入思考,尤其是“砍掉VAE(变分自编码器)”和“先推理、后生成”机制的影响。

核心内容

HiDream-O1-Image-1.5的核心创新在于其技术架构和性能表现。模型采用了“先推理、后生成”机制,基于Gemma 4的Reasoning-Driven Prompt Agent模块,在生成前通过思维链(CoT)推理优化prompt理解。同时,它摒弃了传统文生图模型中的VAE组件,改用像素级统一Transformer(UiT)架构,将像素、文本token和控制条件映射到同一token空间,减少信息损耗。

为验证模型能力,本文作者进行了三组盲测对比,将HiDream-O1-Image-1.5与Google Nano Banana 2在相同prompt下生成图像,并从八个维度评估:Prompt遵循度、构图能力、摄影语言理解、材质表现、细节准确性、氛围塑造、主体设计能力和商业完成度。测试包括:

  • 白酒产品图:prompt要求生成高端中国白酒广告,包含羊脂玉瓷瓶、浮雕古诗《黄鹤楼》等细节。HiDream-1.5在中文文字渲染上表现优异,完整呈现古诗全文,而Nano Banana 2出现文字错误和模糊。
  • 小猫花园照片:prompt描述好奇小猫在童话花园中的场景。HiDream-1.5在主体辨识度和环境平衡上更优,小猫眼神和姿态更自然,而Nano Banana 2在氛围营造上突出但主体交互较弱。
  • 赛博格审讯室:prompt要求电影级OTS镜头、浅景深等摄影参数。HiDream-1.5准确执行镜头语言,光学分离效果明显,赛博格设计细节丰富;Nano Banana 2在氛围感上强但参数执行不稳定。

测试结果显示,HiDream-1.5在细节准确性、文字渲染和指令遵循上更具优势,而Nano Banana 2在创意和氛围塑造上更突出。但总体而言,两者在Benchmark下水平接近,差异主要体现在能力取向上:HiDream-1.5偏向工程师式的精确执行,Nano Banana 2则更像艺术家的创意发挥。

技术层面,CoT推理层解决了复杂指令的理解问题,将高信息密度prompt分解为独立约束(如镜头语言、主体、氛围),避免传统编码器的权重分配偏差。无VAE的UiT架构则消除了压缩-重建环节的信息损耗,特别提升了高频细节(如材质纹理)和文字渲染能力。例如,在中文文字渲染指标CVTG-2K上,HiDream-1.5达到0.978,超越GPT Image 2的0.961。

然而,这种架构也带来代价:CoT推理增加延迟,尤其对复杂prompt;无VAE导致计算量上升,需依赖蒸馏加速(如DMD+GAN蒸馏版需28步推理),可能影响生成多样性。模型还支持多宫格故事板生成和15种以上电影级镜头控制,适用于视频预演、广告分镜等场景。

智象未来的策略是开源8B版本培育社区生态(MIT协议,商业可用),闭源1.5版本面向高端商用。8B版本在Hugging Face趋势榜排名第四,下载量超1万,并被WaveSpeedAI和fal平台集成,降低了部署门槛。

关键要点

  • 性能排名:HiDream-O1-Image-1.5在Artificial Analysis榜单排名第三,超越Google Nano Banana 2,仅次于OpenAI模型。
  • 技术架构:采用CoT推理机制(基于Gemma 4的Prompt Agent)和无VAE的UiT架构,提升prompt理解精度和细节渲染能力。
  • 盲测优势:在中文文字渲染、细节准确性和指令遵循上优于Nano Banana 2,但在创意和氛围塑造上各有千秋。
  • 关键指标:中文文字渲染CVTG-2K达0.978,超越GPT Image 2;8B开源版在Gen
查看原文 →leiphone.com