← 返回信息流
AI 资讯雷峰网·4 天前

商汤开源SenseNova U1:去VAE架构8B参数重定义生图上限

原标题:去掉 VAE 之后,商汤用 8B 参数重新定义了开源生图的上限

速览

商汤发布基于NEO-unify架构的SenseNova U1模型,彻底摒弃VAE和视觉编码器,直接在像素层面实现语言与视觉的端到端建模。该8B参数模型在理解、生成及编辑任务上达到同量级SOTA水平,并支持商用开源。此举标志着多模态从“模态集成”向“原生统一”的范式跨越,大幅降低落地门槛。

AI 深度解读

背景

在多模态人工智能领域,图像理解与图像生成长期以来被视为“两条腿走路”的技术路线。以 GPT-4V、LLaVA、Qwen-VL 为代表的视觉语言模型(VLM)专注于理解任务,而 Stable Diffusion、FLUX、DALL-E 3 等扩散模型则主导生成任务。尽管两者各有突破,但由于独立演进,形成了截然不同的架构范式。

2025年,GPT-4o 展示了统一多模态能力的潜力,但其本质仍是混合架构:理解依赖视觉编码器提取特征,生成则依赖集成的 DALL-E 3 等独立模块。这种物理上共享部分参数、但逻辑上模块接力完成任务的路径,导致了模型冗余、能力割裂以及交互障碍。业界一直渴望实现“同一个大脑”同时处理理解与生成,即真正的原生统一架构,以消除跨模块传递带来的信息损耗和效率低下问题。

核心内容

商汤(SenseTime)近期开源了 SenseNova U1 系列模型,基于其自主研发的 NEO-unify 架构,率先在单一模型架构上实现了多模态理解、推理与生成的原生统一。该系列模型以 Apache 2.0 协议开源,支持商用,并迅速推出了多种优化版本。

架构创新:摒弃 VAE 与视觉编码器 SenseNova U1 的核心突破在于彻底摒弃了传统扩散模型依赖的变分自编码器(VAE)和视觉编码器(VE)。传统架构像“说不同语言的人组成的工作组”,而 NEO-unify 架构让模型像“一个从一开始就同时掌握多项技能的人”。

  • 端到端像素建模:模型直接在像素层面和文本层面进行端到端学习,像素与词语的信息在同一个表征空间中共同参与每一层计算。
  • 消除信息损耗:VAE 的压缩过程本质上是有损的,且需要复杂的调参。原生像素-文本接口消除了跨模块对齐成本,保留了语义和像素细节。
  • MoT 主干架构:采用原生混合 Transformer(MoT)架构,解决语义抽象与像素细节共同表征、理解与生成协同、语言因果性与图像空间一致性三组矛盾。

模型规格与性能 本次开源的 SenseNova U1 Lite 包含两个主要规格:

  1. SenseNova-U1-8B-MoT:基于稠密骨干网络,理解分支参数约 9.37B,生成分支约 8.19B。
  2. SenseNova-U1-A3B-MoT:基于混合专家(MoE)骨干网络,理解分支约 30.54B,生成分支约 8.2B,每 token 激活 top-8 专家,实际活跃参数约 3B。

在基准测试中,8B-MoT 版本在涵盖图像理解、生成、编辑、空间智能和视觉推理的多项指标上达到同量级开源模型 SOTA 水平,部分指标甚至超越闭源商业模型。例如,GenEval 总分约 0.91-0.92,OneIG 中文文字渲染达 0.977,多模态理解 MMMU 达 80.55。

数据效率与推理优势

  • 高数据效率:相比类似统一模型 BAGEL,NEO-unify 在更少训练 token 下取得更好表现。MoT 架构让理解与生成共享上下文,互相提供监督信号,提高了训练数据利用率。
  • 推理加速:团队迅速推出了 8 步推理加速版、LoRA 微调版、GGUF 量化版及低显存 layer-offload 推理模式。8B-MoT 在生成质量比肩 Qwen-Image 2.0 Pro 等闭源模型的同时,推理响应速度显著更快。
  • 落地友好:推荐 16GB 显存运行标准版,8GB 显存可通过 GGUF 量化版运行,甚至支持在浏览器端通过“办公小浣熊”平台免 GPU 体验。

应用场景验证 在实际工作流测试中,SenseNova U1 展现了强大的结构化叙事和设计能力:

  • 连贯创作:能从线稿到上色完稿进行逻辑连贯的图文输出,保持画面一致性。
  • 复杂排版与信息图:能处理高信息密度的观影指南和剧情分析信息图,准确渲染中文文字,并实现杂志级的自适应排版审美,无需模板套作。
  • 异构知识合并:能自主从文本、图像等多格式来源合并知识点,提炼差异化分层信息,并构建合理的叙述逻辑。

关键要点

  • 架构范式转移:SenseNova U1 彻底去除了 VAE 和视觉编码器,实现了从“模态集成”到“原生统一”的跨越,解决了传统混合架构的信息损耗和模块割裂问题。
  • 开源与商用友好:采用 Apache 2.0 协议完全开源,支持商用。发布后两周内即推出加速、微调、量化等多种衍生版本,社区迭代迅速。
  • 小参数大能力:仅 8B 参量的模型在理解、生成、编辑等综合基准测试中达到 SOTA 水平,部分指标超越大型闭源模型,展现了极高的数据效率。
  • 原生像素-文本接口:通过在像素层面直接建模语言与视觉,保留了细粒度信息,使得冻结理解分支时,生成路径仍能恢复细节并完成图像编辑。
  • MoT 架构协同效应:原生混合 Transformer(MoT)让理解与生成共享上下文,既降低了内在冲突,又通过互相监督信号提升了训练稳定性和收敛速度。
  • 生产级落地能力:在中文文字渲染、复杂信息图生成、PPT 制作等高难度生产场景中表现优异,解决了汉字扭曲、排版混乱等长期痛点,具备直接替代人工设计流程的潜力。
  • 部署门槛降低:提供 GGUF 量化版和 layer-offload 模式,支持 8GB 显存运行,并通过 Web 端工具降低使用门槛,极大拓展了开发者生态。

意义与影响

SenseNova U1 的发布标志着多模态 AI 从“理解主导”向“理解与生成原生融合”的范式转变。

首先,它打破了理解与生成之间的信息壁垒。在 Agent 落地成为共识的今天,单一模型替代专用模型协作能显著降低存储、计算和部署成本。SenseNova U1 证明了统一架构并非折中方案,而是在表示能力、训练稳定性和数据效率上具有真实收益。

其次,它提升了多模态智能的上限。原生统一架构使得语言与视觉信息作为一个统一的复合体被建模,增强了复杂指令遵循能力和跨模态推理的可解释性。这种底层范式的创新,为通往 AGI 之路提供了新的技术路径,即通过深度融合的内核架构创新,而非单纯的规模扩大,来实现智能的突破。

最后,SenseNova U1 在竞争激烈的生图市场中开辟了差异化赛道。主流厂商如 GPT 系列、Qwen-VL 等在理解侧表现趋同,但在原生生成侧存在短板或依赖独立模块。SenseNova U1 凭借端到端的交付能力,直接切入企业办公场景(如信息图、PPT 生成),将技术优势转化为生产力,有望重新定义开源生图模型的能力上限和应用边界。

查看原文 →leiphone.com