Agent SkillLINUX DO · AI·2026/4/10

求教AI漫剧全流程：如何基于ComfyUI实现人物一致性分镜视频生成

原标题：想研究AI漫剧，探索了几天还是没有跑通全流程，真心求教社区各位佬们

速览

该帖子讨论利用AI技术自动生成漫剧的工作流。作者已成功实现从小说文本提取人物特征、生成提示词及绘制人物图片，但卡在最后一步。目前急需解决如何结合人物图片与分镜描述，在本地ComfyUI环境中生成具备人物一致性的分镜视频。

AI 深度解读

背景

在人工智能内容生成领域，将静态文本转化为动态视觉叙事（即“AI漫剧”）是近期社区关注的热点方向。然而，从文本到最终视频的全流程自动化仍存在显著的技术断层。一位用户在 LINUX DO 社区发起讨论，分享了其独自探索数天后的进展与瓶颈。该用户的目标是构建一个端到端的自动化工作流：输入短篇小说或作文，由 AI 自动生成具备人物一致性的分镜视频。尽管目前已在文本处理、角色设计及静态图像生成环节取得阶段性成果，但在“人物一致性”与“分镜视频生成”这两个核心难点上尚未跑通，因此向社区寻求基于 ComfyUI 本地部署的解决方案。

核心内容

该用户描述的 AI 漫剧生成工作流目前处于半自动化阶段，具体步骤如下：

文本解析与特征提取：首先输入短篇小说或作文，利用文本大模型（LLM）自动提取故事中人物的外貌特征描述。
提示词工程：文本大模型根据提取的外貌特征，生成用于图像生成的详细提示词（Prompts）。
角色图像生成：文生图大模型（Text-to-Image Model）根据上述提示词，生成对应的人物静态图片。
分镜脚本生成：文本大模型进一步处理原文，生成分镜片段的详细描述，包括场景、动作和镜头语言。
当前瓶颈：用户目前缺失的关键环节是“视频生成”。具体而言，需要解决如何结合第 3 步生成的“人物图片”和第 4 步生成的“分镜描述”，生成具备人物一致性的分镜视频。

用户特别强调，希望获得能够直接在本地 ComfyUI 环境中部署的工作流方案，以解决上述视频生成难题。

关键要点

目标明确：实现从“纯文本故事”到“AI 漫剧视频”的全流程自动化。
现有流程已通：
- LLM 负责理解文本并提取人物特征。
- LLM 负责将特征转化为图像生成提示词。
- 文生图模型负责生成高质量的人物静态参考图。
- LLM 负责生成具体的分镜脚本描述。
核心痛点：人物一致性（Character Consistency）与视频生成。
- 如何在视频生成过程中，确保不同分镜中的人物形象保持统一（如发型、服饰、面部特征不变）。
- 如何将静态人物图与动态分镜描述结合，生成连贯的视频片段。
技术偏好：倾向于使用 ComfyUI 进行本地部署和工作流搭建，这表明用户关注可控性、隐私性以及本地算力资源的利用。
社区互动：该话题在 LINUX DO 社区引发了 8 位参与者的讨论，共计 20 个帖子，显示出该问题在 AI 创作者群体中的普遍性和挑战性。

意义与影响

这一案例反映了当前 AI 视频生成领域从“单帧图像生成”向“长视频/叙事性视频生成”演进过程中的典型挑战。

技术瓶颈的普遍性：虽然文生图模型（如 Stable Diffusion、Midjourney）已相对成熟，但保持长序列视频中的角色一致性仍是行业难题。该用户的探索路径（先静态后动态）是许多创作者尝试的标准范式，其遇到的瓶颈具有代表性。
ComfyUI 的工作流价值：用户寻求 ComfyUI 解决方案，凸显了节点式工作流在复杂 AI 任务编排中的优势。ComfyUI 允许用户精确控制数据流，例如通过 ControlNet、IP-Adapter 或 AnimateDiff 等节点来强制保持角色一致性，这比使用黑盒式 API 更具灵活性和可调试性。
对 AI 内容创作生态的推动：此类社区讨论促进了“文本-图像-视频”全链路技术的迭代。解决这一痛点将极大降低漫剧、动画短片的制作门槛，使非专业创作者也能利用 LLM 和生成式 AI 快速产出高质量视觉内容，推动 AIGC 在娱乐和教育领域的普及。

查看原文 →linux.do

求教AI漫剧全流程：如何基于ComfyUI实现人物一致性分镜视频生成

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐