← 返回信息流
Agent SkillLINUX DO · AI·2026/5/12

gpt-image-2生图模型分享及网关超时问题探讨

原标题:gpt-image-2 令人惊喜,已补充提示词

速览

本文分享了基于gpt-image-2模型的公益生图服务,并提供了城市微缩、天气可视化、字母建筑等6类创意提示词示例。同时,作者记录了在使用New API网关调用上游生图服务时遇到的504超时问题,并询问社区解决方案。

AI 深度解读

背景

近期,基于 gpt-image-2 模型的公益生图服务在 LINUX DO 社区引发关注。该服务通过 New API 网关进行统一调用,旨在为用户提供便捷、低成本的图像生成能力。然而,在实际部署与使用过程中,用户遇到了上游生图响应时间超过 60 秒导致 New API 网关返回 504 超时错误的问题。尽管在容器层面配置了 RELAY_TIMEOUT=180STREAMING_TIMEOUT=300 等超时参数,但部分场景下仍受限于网关默认行为。

为解决这一技术痛点,社区提供了“自定义模型供应商”直连方案作为替代,但为了保持工具链的统一性与便捷性,分享者整理了八套经过验证的高质量提示词(Prompts)与工作流。这些案例涵盖了从城市微缩景观、天气可视化、建筑创意、美食分解、菜谱生成到史诗级历史地图及旅游指南等多种复杂场景,展示了 gpt-image-2 在精细控制、风格统一及结构化输出方面的强大能力。

核心内容

本文分享了八种基于 gpt-image-2 的具体应用案例,每种案例均针对特定视觉需求设计了详细的提示词结构:

1. 城市 3D 微缩景观

该案例旨在生成逼真的地理俯瞰地图,并在特定地理位置升起城市的微型 3D 立体模型。

  • 视觉要求:融合地标建筑、自然景观与文化元素,与地图基底无缝衔接。
  • 风格细节:采用超写实材质与精细纹理,具备细腻景深。使用柔和影室灯光搭配微妙阴影,呈现电影级构图与高端微距摄影风格。
  • 规格:正方形 1:1 画幅,强调极致细节与真实比例。

2. 城市天气可视化

针对缺乏 Function Call 调用天气数据的应用场景,通过手动填入天气信息生成视觉化图片。

  • 构图:45° 俯视视角,竖版(9:16)居中构图,建筑置于中央。
  • 材质与光影:体现真实的 PBR 质感,材质细腻温润,光影柔和逼真。
  • 元素融合:动态天气效果与城市景观互动,背景选用纯色柔和色调。
  • 信息排版:图片正上方显示天气图标(无背景,可与建筑重叠),下方为日期(超小字)和温度范围(中号),图标上方为城市名(大号)。文字语言需与输入城市名称语言保持一致。

3. 城市字母建筑创意

利用建筑物形状模拟城市拼音字母,创造独特的城市景观。

  • 场景设定:明亮阳光下的现代街道。
  • 核心创意:建筑物形状独特,拼出【城市拼音】,颜色限定为亮红、白和蓝。
  • 视觉平衡:保持建筑物本身的真实感,字母相似性需微妙自然,避免过于突兀。

4. 美食垂直爆炸分解图

通过结构化 JSON 数据驱动生成超写实的美食垂直爆炸图,精确控制各组件位置与标签。

  • 结构定义:使用 JSON 格式定义 subject(主体)、layout(布局)、layers(层级组件)、background(背景)及 lighting_and_style(光影风格)。
  • 层级示例:以巧克力咖啡饮品为例,从顶部的可可粉微粒到底部的玻璃杯,中间包含巧克力酱、奶油、液态层、咖啡豆及糖晶体。
  • 风格要求:高级深色背景(石墨色至木炭色渐变),柔和受控的影棚光,每层下方有清晰分层阴影。超锐利微距写实主义,英文标签配合极简细指示线,8K 画质。

5. 食材制作分解(手绘菜谱)

利用大语言模型生成食材清单,并转化为手绘风格的菜谱插图。

  • 案例对象:经典汤煮螺蛳粉。
  • 内容拆解
    • 汤底:螺蛳与猪骨焯水,加入姜片、葱结、香料(八角、香叶等)熬煮,辅以料酒、生抽、蚝油。
    • 配菜:酸笋(特色臭味来源)、酸豆角、油炸腐竹、炸花生米、木耳、黄花菜、青菜。
    • 米粉处理:干米粉煮至变白后焖制,过凉水防粘连。
    • 组装:米粉、青菜、配菜入碗,淋上滚烫汤底,可选加辣椒油。

6. 照片拼图(Collage)

通过结构化参数生成社交媒体风格的时尚照片拼图。

  • 数据结构:使用 JSON 定义 subject(主体)、clothing(服饰)、hair(发型)、face(表情)、accessories(配饰)、environment(环境)、lighting(光线)、camera(镜头角度)及 style(风格)。
  • 场景示例:年轻女性在冬季森林中的 3x3 网格拼图。
  • 细节:包括棕色泰迪大衣、白色短上衣、灰色运动裤等服饰;背景为雪林道路、松树及黑色 SUV;光线为柔和阴天日光;风格为生活方式拼图、社交动态照片堆叠,强调活力与写实。

7. 史诗级 3D 历史文明地图

生成具有时间叠层效果的史诗级 3D 等距地图场景。

  • 视觉主体:巨大的【中华文明】古地图从展开的羊皮卷轴中浮现,占据整个画面。
  • 地形表现:墨线化为生动地形,山脉拔地而起,城市层层堆叠,河流闪光,边界以金色柔光燃烧。
  • 时间维度:多个文明层(如燕蓟遗存、元大都、明清古城、现代都市)在时间叠层中交错,仿佛时间被折叠。
  • 细节与氛围:雕刻的时间线盘旋于地图,刻有重要年代,所有文字为【中文】。极致比例对比,密集微观细节,戏剧性金色夕照光线,体积感尘埃氛围,电影级景深,8K 画质。

8. 城市旅游指南信息图

生成现代、干净、高端编辑风格的旅游信息海报。

  • 布局:1080x1080 正方形,中心为【南宁】的 3D 地图剪影或光泽纸雕地图,带有首都标记。
  • 板块设计
    • SECTION 1 快速事实:首都、人口、货币、语言、时区、最佳旅行时间,采用现代圆角气泡/徽章样式。
    • SECTION 2 省份/地区:列出省份,配以迷你图标(山、河、沙漠等)和简短标签,通过细线连接至地图。
    • SECTION 3 主要城市:5-8 个关键城市,通过图钉和线条标注,避免杂乱。
    • SECTION 4 特色食物:4-6 种著名食物,配以迷你插图或照片风格剪影,标注口味描述。
    • SECTION 5 文化与亮点:著名节日、传统音乐/舞蹈、地标、自然亮点,使用简洁矢量图标。
    • SECTION 6 旅行贴士:4-6 个编号面板,包含飞机、火车、酒店等图标,采用玻璃拟态(Glassmorphism)面板与柔和渐变。
  • 整体风格:现代无衬线字体,高可读性,强网格对齐,留白充足,受国旗启发的点缀色,适合社交媒体传播。

关键要点

  • 技术痛点与解决方案:New API 网关默认 60s 超时可能导致长耗时生图任务失败(504 错误)。虽然容器内可设置 RELAY_TIMEOUTSTREAMING_TIMEOUT,但若需彻底解决,可考虑使用自定义模型供应商直连,或在网关层优化超时策略。
  • 结构化提示词的重要性:对于复杂场景(如美食分解、旅游指南),使用 JSON 或结构化段落定义主体、布局、层级
查看原文 →linux.do