HiDream-O1-Image-1.5登顶全球文生图榜单,商用版展现全能生成能力
速览
智象未来推出的商用版图像生成模型HiDream-O1-Image-1.5在Artificial Analysis榜单中登顶,超越多家国际大厂主流模型。该模型基于原生全模态架构UiT,在语义遵循、文字渲染及复杂排版等方面实现突破。其商用落地标志着该架构从技术验证正式进入生产验证阶段,具备强大的商业交付能力。
AI 深度解读
背景
近日,智象未来(HiDream.ai)推出的商用版图像生成模型 HiDream-O1-Image-1.5 在全球知名独立 AI 模型评测平台 Artificial Analysis 的 Text to Image Leaderboard 上取得突破性成绩。该模型一举登上中国图像生成模型榜首,评分仅次于 OpenAI,超越了 Google 的 Nano Banana 2(Gemini 3.1 Flash Image Preview)、NVIDIA 的 Cosmos3-Super-Text2Image 以及字节跳动的 Seedream 4.0 等国内外大厂主流模型。
这一成就并非偶然。半个月前,智象未来开源的 HiDream-O1-Image-Dev-2604 刚刚登顶该榜单的开源模型全球第一。短短数周内,其商用版本再次进入全球前三,连续登顶不仅印证了智象未来在图像生成领域的硬核实力,更标志着其已在视觉生成大模型的角逐中稳居全球第一梯队。
Artificial Analysis 的评测体系采用匿名对比、用户投票和 ELO 动态排名机制,旨在减少品牌认知偏差,更贴近真实用户在开放场景下的偏好。在此体系下,HiDream-O1-Image-1.5 在超过 4000 个样本对比中取得了 1265 ELO 的高分。这一表现不仅体现了其在图像质量上的竞争力,更反映了其在语义遵循、复杂画面生成、文字渲染和多主体控制等方面的综合能力提升。
核心内容
HiDream-O1-Image-1.5 的核心价值在于,它标志着智象未来业内率先将创新的 Unified Transformer (UiT) 原生全模态架构从“技术验证”阶段推进到了“生产验证”阶段。开源版本证明了像素级原生全模态架构可以在开放评测和开发者社区中跑通,而商用版本则进一步面向广告营销、品牌设计、电商视觉、游戏内容、影视分镜、IP 创作等高要求商业场景,展示了强化的图像质量、文字渲染、复杂排版、多主体一致性和视觉叙事能力。
在具体应用能力上,HiDream-O1-Image-1.5 展现了以下维度的全能表现:
- 人像摄影与艺术风格:具备摄影级画质和多风格适配能力。无论是魔幻光影、双人互动还是人物特写,模型在皮肤质感、服饰纹理、肢体关系和环境虚化等细节上表现自然。即使在广角、低机位、室内暖光等复杂构图下,也能保持人物比例、空间透视与画面叙事的协调。同时,它能精确理解并切换日系插画、动漫战斗、卡通海报和国风武侠等多种艺术风格,保持角色造型、构图关系与画面氛围的统一。
- 动物与自然风光:展现出对主体形态、运动状态与自然环境的精细建模能力。在动物结构、皮毛质感、动态表现及复杂光照、水下折射等高难度画面中保持真实感。在自然风光场景中,能精准捕捉大场景的空间层次、光影变化与环境氛围,在雪山湖泊、沙漠驼队等复杂地貌中保持纵深感、电影感和细节表现。
- 电商海报与文字渲染:这是该模型的一大亮点。在电商海报生成中,模型能综合把控商品主体、版式结构与文字信息,快速匹配视觉风格,并自然融合商品、场景、装饰元素与营销文案。面对中英文混排、多层级卖点和复杂排版任务,仍能保持较高的文字可读性、画面完整度与商业质感。此外,模型具备多层次复杂文字渲染能力,可将海报、计划书、结构拆解图、课堂白板等内容自然嵌入对应场景,兼顾排版秩序、图文关系与整体美感,甚至能处理中英文混排、数字公式、图表信息和多级标题。
- IP 形象设计与分镜叙事:在 IP 设计场景中,模型能稳定控制角色设定、表情变化与多视角一致性,围绕同一角色生成多角度视图和多种情绪表情,保持五官、发型、服饰与整体风格统一。在多宫格与分镜设计场景中,模型展现出对连续叙事、画面顺序与信息层级的理解能力,可在工具流程、任务推进、儿童绘本等多画面内容中生成逻辑连贯的分镜画面,并保持角色、场景与视觉风格统一,同时对宫格布局、编号、标题和关键文字具备较强组织能力。
关键要点
- 架构创新:原生全模态 UiT
- 传统文生图模型通常采用“文本编码器 + VAE + DiT / 扩散模型”的模块化路径,模块间需多次转换信息,易导致细节损耗和语义错位。
- HiDream-O1 采用 Unified Transformer (UiT) 架构,剔除了传统路径中的 VAE 和独立文本编码器。
- 将图像像素、文本 Token、视频体素以及音频、动作、空间关系等原始信号映射进同一个共享 Token 空间,直接与同一套 UiT 交互。
- 这种“原生全模态”设计使得所有模态在底层真正打通,为“Any to Any”(任意输入支持任意输出)的世界模型能力奠定基础。
- 评测成绩:全球领先
- 在 Artificial Analysis Text to Image Leaderboard 上,HiDream-O1-Image-1.5 获得 1265 ELO 分。
- 超越 Google Nano Banana 2、NVIDIA Cosmos3 和字节跳动 Seedream 4.0,成为评分仅次于 OpenAI 的中国大模型公司代表。
- 连续登顶开源版与商用版榜单,证明了中国大模型企业在全球顶级竞争中的实力。
- 商业落地能力
- 从“技术验证”迈向“生产验证”,面向广告营销、品牌设计、电商视觉、游戏内容、影视分镜等商业场景。
- 在文字渲染、复杂排版、多主体一致性、分镜叙事等复杂任务中表现优异,显著提升了内容生产效率。
- 技术演进路线
- HiDream-O1 系列(8B 开源版、Pro 版到 1.5 商用版)形成了清晰的能力演进曲线。
- 智象未来认为图像是通向视频生成和全模态世界建模的重要入口,通过稳定理解并生成图像中的主体、空间、材质、光影、文字和关系,为处理连续时间中的运动、因果、镜头和叙事提供底层能力。
意义与影响
HiDream-O1-Image-1.5 的强势表现,标志着图像生成模型的竞争正在从“更大参数”和“更好看画面”,推进到由架构能力、生产效率和工作流价值共同决定高度的新阶段。
- 验证了原生全模态架构的可行性:该模型的成功证明了基于像素级原生统一架构的路线,能够解决传统模块化架构在复杂图文融合、多主体一致性和分镜叙事中的痛点。这不仅是对 UiT 架构可行性的坚实验证,也为下一代多模态模型提供了坚实的底座。
- 推动“世界模型”的发展:当所有模态在底层被真正打通,模型才有可能走向真正的“Any to Any”。这不仅是图像生成模型的能力升级,也是世界模型所需要的基础能力——在统一架构中理解、生成并预测现实世界的不同状态。
- 提升中国 AI 企业的全球竞争力:在 OpenAI 等巨头主导的全球榜单中,中国大模型企业能够连续登顶并超越多家国际大厂主流模型,展示了中国 AI 企业在底层架构创新上的突破。
- 加速 AI 在垂直行业的落地:通过强化文字渲染、复杂排版和分镜叙事等能力,HiDream-O1-Image-1.5 为影视创作、游戏生产、广告营销等全模态智能体的真实应用场景提供了高效的生产支持,推动了生成式人工智能技术深入落地。
面向未来,智象未来将继续沿着原生全模态技术路线推进模型迭代,加速图像、视频、动作等多模态能力的融合,构建下一代内容生产与智能交互的人工智能基础设施。
