← 返回信息流
Agent SkillLINUX DO · AI·2026/3/24

分享一种批量生成高质量AI绘画提示词的方法

原标题:分享一个批量生成高质量 prompt的方法

速览

该玩法通过自定义AI助手(如Gemini的Gems)来批量生成高质量的AI绘画提示词。用户只需输入简单的主体描述,AI即可依据预设的摄影风格、细节结构等公式,输出包含光影、穿搭、情绪及参数的专业级提示词。此方法显著提升了Midjourney等工具出图的精准度与画面质感。

AI 深度解读

背景

在 AI 绘画(如 Midjourney、Stable Diffusion)的创作实践中,用户往往面临“想法简单但画面复杂”的痛点。直接输入如“泳池、红色泳衣、性感”等简短关键词,生成的图片通常缺乏细节、光影逻辑混乱或风格不统一。为了解决这一“提示词工程(Prompt Engineering)”中的质量瓶颈,社区分享了一种利用大型语言模型(LLM)作为“提示词扩写器”的工作流。该工作流的核心在于通过精心设计的系统提示词(System Prompt),将 LLM(如 Gemini)转化为具备专业摄影知识和 AI 绘画底层逻辑的专家,从而将用户的极简描述转化为结构严谨、细节丰富的专业级绘画提示词。

核心内容

该分享展示了一个完整的“输入-处理-输出”闭环,旨在通过 AI 辅助生成高质量的 Midjourney 或 Stable Diffusion 提示词。

1. 工作流演示

  • 用户输入:极简关键词组合,例如“泳池,红色泳衣,金丝眼镜,性感,身材好,真人写真”。
  • 中间处理:用户将这些关键词输入给经过特定指令配置的 AI(文中提到先给 AI 输入,再复制到 Grok 生成图片,但核心逻辑是利用 LLM 扩写提示词)。
  • 最终产出:一段长达数百字、包含摄影器材、光影、人物细节、环境氛围及参数设置的复杂提示词。例如,将简单的“红色泳衣”扩写为“极其紧致且剪裁大胆的酒红色连体露背泳衣,材质呈现出半透明的湿水质感……”,将“泳池”扩写为包含“波光粼粼的露天私人泳池边”、“午后刺眼的阳光”、“光影在水底折射出梦幻的网格纹理”等具体视觉元素。

2. 核心工具与配置(Gemini Gems) 分享者建议在 Google 的 Gemini 平台中创建一个新的 Gems(Gemini 的高级自定义功能),并填入一段详细的“系统提示词”。这段提示词定义了 AI 的角色、任务、输出结构及参考案例。

3. 提示词结构公式(Structure Formula) 该工作流成功的关键在于强制 AI 遵循一个标准化的七段式结构,确保生成的提示词涵盖所有视觉要素:

  1. 摄影风格与器材:定义整体风格(如日常快照、电影感)及硬件特征(如专业 CCD、闪光灯、非自拍视角)。
  2. 主体基础特征:明确景别(近景/半身/全身)、年龄、体型、国籍/种族。
  3. 面部与皮肤细节:描述肤色(如冷白皮)、肤质(水润、透亮)、特定的面部模型触发词(如 (urfaceid)),以及发型状态(湿发、凌乱感)。
  4. 环境与光影:具体场景描述、背景元素及光照条件(如午后阳光、水底折射)。
  5. 穿搭与配饰:服装材质、款式、穿着状态(紧致、半透明)及饰品细节(金丝眼镜、水珠反光)。
  6. 情绪与气质:人物表情、姿态及氛围感(如纯欲、御姐、高贵优雅)。
  7. 画面色调与参数:色彩基调(如复古胶片、高饱和度对比)及图像比例参数(如 --ar 9:16)。

4. 示例对比

  • 原始输入:“帮我生成一个赛博朋克风的短发酷女孩”
  • AI 扩写后:AI 会依据上述公式,脑补并生成包含霓虹灯光、机械义肢细节、雨夜街道背景、冷色调光影及特定相机参数的完整段落,而非仅仅输出“赛博朋克女孩”。

关键要点

  • 角色设定专业化:系统提示词必须明确 AI 的身份为“顶级 AI 绘画提示词专家”,并强调其精通 Midjourney、Stable Diffusion 等工具的底层逻辑。
  • 结构化输出强制:通过列出详细的“提示词结构公式”,限制 AI 的自由发散,确保每次生成的提示词都包含摄影、主体、细节、环境、穿搭、情绪、参数这七个必要维度。
  • Few-Shot Learning(少样本学习):在提示词中提供“参考示例”,展示一个从简单描述到复杂提示词的完美映射案例,帮助 AI 理解预期的输出风格和详细程度。
  • 语言具象化要求:明确要求 AI 使用生动、具象的词汇,多用形容词和名词叠加,避免抽象概念,以增强画面的可执行性。
  • 特定触发词保留:在示例中保留了如 (urfaceid) 这样的特定模型触发词(Trigger Words),提示 AI 在生成时可根据需要保留或替换此类专业术语。
  • 参数标准化:强制要求输出包含图像比例参数(如 --ar 9:16ar9:16),确保生成的提示词可直接复制用于绘图软件。

意义与影响

  1. 降低创作门槛:普通用户无需掌握复杂的摄影术语(如“CCD”、“景深”、“色温”)或 AI 绘画的特定语法,只需提供简单的创意核心,即可通过 LLM 获得专业级的视觉描述。
  2. 提升出图一致性:通过标准化的结构公式,避免了传统提示词中常见的要素缺失(如忘记加光影或比例),显著提高了 AI 绘画的一次成功率(Success Rate)和画面完成度。
  3. 激发创意细节:LLM 的扩写能力能够补充用户未想到的细节(如“镜片上的水珠”、“发丝的凌乱感”),使生成的图像更具故事感和艺术张力。
  4. 工作流标准化:该分享提供了一种可复用的“提示词工厂”模式。用户只需配置一次 Gemini Gems,即可将其作为个人专属的提示词生成助手,适用于各种人物、场景的批量生成需求。
  5. 跨平台兼容性:虽然示例中提到了 Midjourney 和 Stable Diffusion,但这种基于自然语言的结构化扩写方法同样适用于 DALL-E 3、Flux 等其他主流 AI 绘画模型,具有广泛的适用性。
查看原文 →linux.do