Agent SkillLINUX DO · AI·1 小时前

开发者分享Vibe Coding实战：AI自动解析剧本生成高质量分镜与提示词

原标题：随便聊一聊自己VibeCoding AI短剧应用过程中的一些小心思！！

速览

该实践展示了如何利用AI自动从小说或剧本中提取人物、场景及物品资产，并生成结构化的建模提示词。通过强化对人物关系、空间逻辑及剧情连贯性的理解，解决了传统创作中提示词编写难、画面缺乏逻辑的问题。最终实现了从剧本到高质量分镜脚本及生图指令的自动化流程，提升了AI短剧制作的效率与质量。

AI 深度解读

背景

随着 AI 生成内容（AIGC）技术的普及，短剧和动漫创作正经历从“人工主导”向“AI 辅助”甚至“AI 主导”的范式转移。然而，创作者在实际操作中普遍面临两大痛点：一是提示词（Prompt）工程门槛高，难以稳定输出高质量、风格统一的人物与场景；二是分镜逻辑混乱，生成的画面缺乏叙事连贯性、空间逻辑错误以及人物关系错位。

在此背景下，作者基于个人兴趣开发了一款名为 VibeCoding 的 AI 短剧应用工作流。该应用旨在通过自动化解析剧本、结构化生成提示词、优化分镜脚本及统一语音资产，解决上述痛点，实现从小说/剧本到高质量短剧视频的高效转化。作者通过实测打戏与真人剧情片段展示了该工作流的直出效果，并详细拆解了其背后的底层逻辑与功能模块。

核心内容

1. 剧本自动化解析与提示词工程 应用的核心起点是将小说或剧本导入系统，自动解析每一集的剧情内容，并提取关键资产（人物、场景、物品）。这一过程旨在解决创作者“不知如何写高质量提示词”的难题。系统通过让 AI 学习专业提示词结构，自动输出高质量的人物、场景及物品建模提示词。

人物提示词逻辑：不仅识别面部特征、性别、发型、服饰等基础信息，更强调对“人物关系”的理解。系统能区分主角（帅气漂亮）、配角（其次）及反派（丑陋或个性鲜明），并锁定风格及负面提示词，避免人物形象千篇一律。
场景提示词逻辑：强调多维空间立体理解。通过描述前、中、后景布局、参照物对比、物品比例、光影环境及材质细节，确保生成的场景具有空间感和立体感，而非扁平的 2D 贴图。
物品提示词逻辑：相对简化，主要从多维视角描述物品的比例与细节。
核心原则：提示词不仅描述主体，还需添加边界约束（负面提示词），并明确人物关系、场景主体及空间逻辑。

2. 分镜脚本的结构化生成 应用不仅生成图片，更核心的是生成具备叙事逻辑的分镜脚本。作者指出，单纯追求画面酷炫而忽略连贯性的分镜毫无价值。合格的脚本需满足以下标准：

前后剧情连贯，无跳跃或无厘头转折。
人物在场景中的站位合理，空间理解到位。
人物与物品的绑定关系及摆放位置合理。
台词内容连贯，人物关系（队友/敌人）清晰。
常见错误示例：场景像贴纸、人物永远看镜头、队友与敌人混战、人物手持无关物品（如火锅）等。
提示词结构示例：作者提供了基于 GPT-2 和 Gemini 3.1 生图模型的英文与中文提示词范例。范例中详细描述了场景（如竹林）、人物站位（前景、中景、远景）、视线方向（锁定中心而非镜头）及拍摄角度（高位广角、电影级光影），强调了空间纵深和环境压迫感。

3. 分镜图转视频的逻辑优化 视频质量取决于分镜图的质量及视频提示词的准确性。

提示词结构：一致性锁定说明 + 主体动作具体描述 + 环境音 + 负面提示词。
长度控制：视频提示词不宜过多或过少。
- 过少：模型无法理解主体运动轨迹，导致动作僵硬、不自然。
- 过多：分散模型注意力，导致多个意图无法同时完美呈现，且增加解析体积，降低生成速度。
核心原则：一个视频提示词应聚焦一个中心思想，避免跨度太大的分镜需求。

4. 语音与人物资产绑定 尽管 Seedance 2.0、可灵 3.0、海螺 2.3 等主流视频模型支持音画同步，但常出现台词与口型不同步或“外星语”现象。

解决方案：应用提供语音配音功能，支持将特定声音绑定至资产库中的人物。
优势：即使上传自定义配音，也能保证全片人物声音的一致性，弥补视频模型音画同步的不足。

5. 单图与多图创作功能

单图：基础创作。
多图（9 宫格）：用于增强视频叙事的紧凑感，特别适用于打斗戏份，使分镜更紧张。
多图连续性画面：用于首尾帧的视频叙事，丰富内容并提升连贯性。

6. 版本迭代 当前应用为 2.0 版本，效果良好，后续计划进行小修小补，并升级后端接口及各模型的适配性。

关键要点

提示词工程的核心是“关系”与“空间”：人物提示词需理解角色在剧情中的定位（主角/反派）；场景提示词需构建前中后景的空间逻辑，避免 2D 平面感。
分镜脚本重于画面美感：合格的 AI 分镜必须包含剧情连贯性、合理站位、正确的人物/物品关系及清晰的视线引导，否则生成的视频将缺乏叙事逻辑。
视频提示词遵循“少而精”原则：聚焦单一中心思想，避免信息过载导致模型注意力分散或生成质量下降。
资产绑定解决一致性难题：通过预先绑定人物声音资产，确保长视频或多镜头切换中角色声音的统一，弥补现有视频模型音画同步的缺陷。
工作流自动化：从剧本导入到提示词生成、分镜脚本输出，实现了全流程的自动化，降低了 AI 短剧创作的门槛。

意义与影响

该工作流展示了 AI 在垂直领域（短剧/动漫创作）的深度应用潜力。它不仅仅是一个工具，更是一套将非结构化文本（剧本）转化为结构化视觉资产（分镜/视频）的方法论。

降低创作门槛：通过自动化解析和提示词生成，解决了创作者在提示词工程上的痛点，使非技术背景的编剧或导演也能高效产出高质量视觉内容。
提升叙事质量：强调分镜的逻辑性、空间感和人物关系，纠正了当前 AI 视频生成中常见的“画面精美但逻辑混乱”的问题，推动了 AI 视频从“视觉奇观”向“叙事载体”的转变。
标准化生产流程：通过资产绑定（声音、人物形象）和结构化提示词，为 AI 短剧的工业化生产提供了可复制的标准流程，有助于提升整体生产效率和质量稳定性。
技术适配与优化：作者对视频提示词长度与模型表现关系的洞察，以及对主流模型（如 Seedance、可灵、海螺）局限性的补充方案，为行业提供了宝贵的实践经验。

查看原文 →linux.do

开发者分享Vibe Coding实战：AI自动解析剧本生成高质量分镜与提示词

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐