理性讨论:国内外大模型扩图换背景能力对比
速览
本文针对大模型图像生成能力,对比了Seedream、Qwen、Banana及GPT-Image2在扩图与换背景场景下的实际效果。测试以原神角色芙宁娜为参考,要求替换背景并调整比例,旨在评估各模型在复杂指令下的可用性与画质。
AI 深度解读
背景
随着计算机视觉与大语言模型技术的快速迭代,AI 图像生成领域正经历从“生成”向“精细化控制”的深刻转变。在 Cosplay(角色扮演)摄影及同人创作领域,创作者对成片质量的要求日益严苛。原皮(基础服装)拍摄往往难以满足粉丝对“正片”视觉冲击力的期待,因此,利用 AI 技术进行背景替换、画面扩图及画质增强,已成为提升作品竞争力的关键手段。
近期,以 Pixel Cake(像素蛋糕)为代表的 AI 修图工具与各大模型厂商的接入,使得这一流程大幅简化,但也加剧了行业内的技术内卷。创作者不再满足于简单的滤镜处理,而是追求能够理解复杂场景、保持人物主体一致性并实现高保真输出的“一句话”工作流。在此背景下,对比国内外主流大模型在特定提示词下的扩图与换背景能力,成为评估模型实用价值的重要维度。
核心内容
本文基于 LINUX DO 社区的一篇讨论帖,聚焦于不同大模型在单一提示词驱动下的图像生成表现。作者以《原神》角色芙宁娜(Furina)的二创同人图为参考基准,测试了包括 Seedream、Qwen(通义千问)、Banana、GPT-Image2 在内的多款模型在“扩图”与“换背景”任务上的具体表现。
测试设定:
- 参考素材:一张《原神》角色芙宁娜的二创同人图。
- 核心任务:
- 背景替换:将原图背景替换为“水池与瀑布”场景。
- 画面扩图:根据人物主体(特别是身后下方的一块岩石)进行合理的内容填充与扩展。
- 比例调整:输出符合相机原图 4:3 比例的图像。
- 提示词(Prompt):
“我上传的参考图1,是原神角色芙宁娜的二创同人图,将背景替换为水池与瀑布,并合理扩图至相机原图4:3比例,人物主体芙宁娜身后下方有一块岩石,超高清8k,收藏级画质,典藏级品质,绝对的艺术品”
对比对象:
- Seedream
- Qwen
- Banana
- GPT-Image2
作者通过展示各模型生成的结果图,邀请社区用户评价哪款模型的“一句话扩图”更具可用性,以及哪款模型生成的图像更符合审美与逻辑预期。
关键要点
- 工作流简化趋势:当前 AI 图像编辑正趋向于“单步指令”化。用户无需复杂的节点配置或多次迭代,仅通过自然语言描述(如背景、比例、细节要求)即可实现复杂的图像重构。
- 关键测试维度:
- 主体一致性:模型是否能准确保留参考图中人物(芙宁娜)的特征,避免变形或身份丢失。
- 逻辑合理性:扩图部分(如岩石、水池)是否符合物理逻辑与画面透视,是否自然融入原图光影。
- 细节保真度:在提升分辨率(8k、收藏级画质)的同时,是否产生伪影、模糊或结构错误。
- 模型表现差异:不同模型在处理“参考图+文本指令”的融合能力上存在显著差异。部分模型可能在背景生成上更丰富,但在人物主体保持上较弱;另一些模型则可能在结构理解上更优,但艺术风格略显生硬。
- 社区驱动评估:此类对比并非基于客观量化指标,而是依赖创作者社区的主观审美与实用性反馈,反映了真实应用场景下的痛点与需求。
意义与影响
此次对比不仅是对几款模型技术能力的横向评测,更折射出 AI 工具在垂直创作领域(如 Cosplay、同人艺术)的落地现状。
- 降低创作门槛与提升效率:高效的“一句话”扩图能力意味着创作者可以将更多精力集中在创意构思与角色塑造上,而非繁琐的技术操作。这对于内容生产者而言,是提升产出效率的关键。
- 技术竞争焦点转移:随着基础生成能力的普及,竞争焦点已从“能否生成图像”转向“能否精准控制图像细节与结构”。对参考图理解能力、局部重绘精度以及语义对齐能力的比拼,将成为下一代图像模型的核心战场。
- 行业标准尚未统一:目前尚无公认的“最佳”模型,不同模型在不同场景下各有优劣。这提示创作者需根据具体需求(如更重人物保真还是更重背景氛围)灵活选择工具,同时也推动了模型厂商在垂直场景下的持续优化。
- 推动生态内卷与创新:正如文中提到的“卷到起飞”,激烈的市场竞争促使 Pixel Cake 等集成工具与底层大模型厂商不断迭代,最终将惠及终端用户,带来更高质量、更便捷的 AI 创作体验。
