Agent SkillLINUX DO · AI·1 小时前

AI视频生成实战：用剧情提示词打造一分钟玄幻打斗分镜

原标题：AI视频生成练习（二）用简单的剧情生成一个一分钟的打斗场面

速览

本文介绍了一种基于Agent Skill和提示词工程的AI视频生成玩法。作者通过构建《血月照玄火》的微剧情，详细拆解了8个打斗分镜的提示词设计，涵盖角色形象保持、动作逻辑及电影级视觉风格。该案例展示了如何利用AI工具将文字剧情转化为高质量的视频分镜，为AI内容创作提供实操参考。

AI 深度解读

背景

随着 AI 视频生成技术（如 Sora、Runway、Pika 等）的迭代，创作者从早期的单镜头测试逐步迈向复杂叙事场景的构建。然而，多角色互动、长时长（如一分钟）及高动态打斗场面仍是当前 AI 视频生成的难点。

本文分享来自 LINUX DO 社区，作者通过一个名为《血月照玄火》的虚构武侠微剧情，进行了一次“双人场景”的 AI 视频生成实战演练。该练习旨在探索如何从文本剧情转化为具体的视觉分镜，并通过标准化的提示词（Prompt）工程，控制角色一致性、动作逻辑及电影级视觉风格，最终尝试合成一段完整的打斗短片。

核心内容

作者首先构建了一个包含两位核心角色的武侠故事片段，随后将其拆解为 8 个关键分镜，并详细定义了每个分镜的视觉指令，最后通过 Codex 模型生成结构化提示词进行视频生成测试。

1. 剧情设定与角色定义

故事背景设定在江南荒山废弃古观，核心冲突为“长生仙门”与“罗刹教”的对决。

抱朴子（C1）：长生仙门老祖。形象特征为白发蓬松、大胡须、身着蓝袍，气质为正道道祖。掌握技能为“青帝玄火指”，火焰特效表现为青色、炽烈且带有木生之气。
厉血天（C2）：罗刹教魔帝。形象特征为黑发高盘、双目翻白（空洞眼神）、身着红黑锦袍，气质为冷酷魔帝。掌握技能为“血月临空万骨枯”，特效表现为血色神芒、阴寒、压制性极强。

2. 分镜拆解与视觉指令

作者将一分钟的打斗拆解为 8 个分镜，每个分镜均包含详细的动作描述、镜头语言及风格约束：

分镜 1：废观突袭，玄火先至
- 动作：抱朴子从屋脊凌空扑下，指尖爆发青帝玄火；厉血天侧身旋转避开，袖袍扫出血色气压压偏火焰。
- 镜头：低角度跟拍下落 -> 环绕厉血天侧脸特写 -> 宽景展示火浪吞没废观。
- 风格：电影级写实主义，高端 2D 动画质感，克制色彩。
分镜 2：血月初现，玄火被枯
- 动作：抱朴子贴地疾冲，火柱直冲厉血天；厉血天身后升起巨大血月，血月神芒与玄火相撞，火焰被阴寒气侵蚀成灰。
- 镜头：跟随火柱高速推进 -> 超近景观察厉血天冷眼 -> 后拉展示宏大尺度。
- 细节：强调火焰“枯败”而非单纯光效消失，地面石块被挤压弹起。
分镜 3：三指火龙夹击
- 动作：抱朴子空中连点三指，化作三条玄火长龙夹击；厉血天双袖横扫，血月神芒化成血色冰针斩断火龙。
- 镜头：高速横移穿过火龙 -> 绕至厉血天背后仰拍血月 -> 跟随火龙破碎坠地。
- 逻辑：抱朴子动作轻盈快速，厉血天防守沉重束缚。
分镜 4：近身交锋，魔帝压制
- 动作：两人贴身肉搏。抱朴子旋身掌击肩颈，厉血天红袖如铁鞭抽击手腕；抱朴子扫腿，厉血天踏碎石板反制。
- 镜头：近距离手持感跟拍，强调打击瞬间的动态模糊、碎石飞溅及衣袍甩动。
- 氛围：压迫感强，无夸张光环，强调物理打击感。
分镜 5：燃血玄火，正道强攻
- 动作：抱朴子咬破舌尖，真血入火，玄火颜色变为青中带金，火势暴涨。他踏空而起，一指刺向厉血天，形成玄火漩涡。
- 镜头：跟随腾空旋转 -> 快速俯冲指尖 -> 定格两股力量碰撞宽景。
- 视觉：仪式感强烈但克制，热浪扭曲空气。
分镜 6：血月临空万骨枯
- 动作：厉血天双臂抬起，血月升至中天，血色神芒如雨幕倾泻；抱朴子以青火屏障抵抗，周围草木瞬间枯败成白灰。
- 镜头：从脚下裂缝推至颤抖手指 -> 仰拍厉血天与血月剪影 -> 广角展示青火被压低。
- 注意：表现为阴冷侵蚀，避免血腥写实。
分镜 7：玄火崩散，道祖受创
- 动作：力量碰撞顶点。厉血天踏出一步，血色冲击波压碎抱朴子的玄火屏障。抱朴子倒飞撞碎石墙，口中喷血。
- 镜头：极近拍裂纹 -> 后拉跟随倒飞 -> 撞墙瞬间动态模糊 -> 低角度仰拍厉血天剪影。
- 节奏：动作沉重、快速、直接。
分镜 8：仇怨结下，红袍远去
- 动作：抱朴子从废墟撑起，打出最后一道细窄玄火；厉血天背身离去，袖袍震散玄火。
- 台词：抱朴子：“今日之辱，长生仙门记下了。” 厉血天：“随你。”
- 镜头：跟随玄火 -> 环绕厉血天红袍侧影 -> 缓慢后拉远景，废观焦黑，血月退去。

3. 提示词工程与生成流程

作者采用结构化提示词模板，通过 Codex 模型辅助生成，包含以下模块：

角色参考 (Ref)：严格定义 C1 和 C2 的外貌、服装及能力。
环境 (Environment)：夜晚古代庭院废墟，月光、碎石、尘土、火焰与血光交织。
动作路径 (Action Path)：详细描述角色位移、攻击、防御及环境互动（如碎石飞溅、尘浪扩散）。
情感指导 (Emotional Guidance)：定义效价（肃杀->杀意->毁灭）和唤醒度（中等->高峰->沉寂）。
视觉风格 (Visual Style)：风格化国风武侠玄幻史诗，水墨写意结合特效，动态手持摄像机，戏剧性光影。
音频 (Audio)：无配乐，仅保留环境音、衣袂声、法术爆裂声。
面板节奏 (Panel Rhythm)：将 10 秒视频拆分为 10 个关键帧（P01-P10），指定焦距（16mm, 24mm, 35mm, 50mm）、镜头运动（俯拍、横摇、特写）及内容。
负面提示 (Negative Prompt)：排除慢动作、静止、3D 渲染感、低质量、卡通、水印、现代元素及血腥画面。

4. 测试结果

问题：分镜数量过多（8 个分镜对应较长时长），导致 AI 模型无法完全识别所有情节，部分故事板细节未能准确呈现。
结论：当前 AI 视频生成在处理复杂多角色、长叙事序列时存在局限性，建议后续缩短分镜数量或单次生成时长，以提高执行准确率。

关键要点

角色一致性控制：在提示词中必须严格锁定角色的外貌特征（发型、服装、面部细节）和气质，通过“参考图片”

查看原文 →linux.do