【开源Skill】高质量的可编辑的PPT生成方式
AI 深度解读
背景
在教育、商业演示等场景中,PPT 的制作长期面临两难选择:使用传统模板工具(如 PowerPoint、Keynote)虽便于编辑,但视觉呈现往往死板、同质化严重,甚至带有浓重的 H5 风格,难以满足高质量展示需求;而近年来涌现的 AI PPT 生成技能、MCP 或开源框架,虽在视觉上有所突破,却普遍存在模板固定、规整但缺乏灵气的痛点。
NyxTide 开发的 ppt-image-first 提供了一种新思路——基于 AI 生图的方式生成图片形式的 PPT,其视觉质量极高且生动。然而,这种“图片化”的输出也带来了新的致命缺陷:文案被固化在图片中,后期如需修改文字内容,必须重新生图,极大地增加了编辑成本。如何在保留 AI 生图带来的顶级视觉质感的同时,恢复文案的可编辑性,成为了亟待解决的工程问题。
核心内容
针对上述痛点,社区开发者基于 NyxTide 的 ppt-image-first 进行了二次扩展,推出了开源项目 ppt-craft-editable。该项目的核心逻辑并非推翻原有的生图流程,而是将 ppt-image-first 的最终稿件作为“效果图”,以此为基础进行逆向拆解与重构,从而实现视觉与可编辑性的平衡。
其完整工作流主要分为两个阶段:
阶段一:视觉定调(继承自 ppt-image-first) 该阶段沿用原有的 AI 生图逻辑,生成图片形式的 PPT。此时的产物视觉效果一流、生动,但文字无法直接修改。对于后期无编辑需求的场景,此阶段的产出已完全够用。
阶段二:可编辑化重构(二次扩展核心) 当用户需要进入编辑流程时,系统会将阶段一的图片作为视觉参考,执行以下操作:
- 背景生成:让 AI 基于效果图,生成风格尽可能高度还原或贴近的背景图(还原度取决于当前生图模型的能力)。
- 文案填充与渲染:通过计算,将原有的文案提取出来,并填充至背景中合适的位置进行渲染,最终输出包含可编辑文本层的 PPT 文件。
在阶段二的过程中,开发者还引入了“文字审计”和“背景审计”页面,允许用户在页面上进行框选操作,以便对生成的背景和文字位置进行多次微调,直至风格满意。文字的具体样式(如字体、颜色、大小等)则保留在最终的 PPT 文件中,由用户自行调整。
常见疑问与边界说明:
- 为何无法 100% 复刻阶段一的图片样式? 受限于当前生图模型的能力,AI 生成的背景难以做到像素级还原,只能做到风格贴近。
- 能否跳过阶段一? 可以。用户只需在初始指令后追加“给我做成可编辑的”,即可直接走可编辑的生成路径。
- 未来规划:开发者计划实现导出 PDF 格式 PPT 的理论可编辑化,目前该
