Agent SkillLINUX DO · AI·6 小时前

【开源Skill】高质量的可编辑的PPT生成方式

AI 深度解读

背景

在教育、商业演示等场景中，PPT 的制作长期面临两难选择：使用传统模板工具（如 PowerPoint、Keynote）虽便于编辑，但视觉呈现往往死板、同质化严重，甚至带有浓重的 H5 风格，难以满足高质量展示需求；而近年来涌现的 AI PPT 生成技能、MCP 或开源框架，虽在视觉上有所突破，却普遍存在模板固定、规整但缺乏灵气的痛点。

NyxTide 开发的 ppt-image-first 提供了一种新思路——基于 AI 生图的方式生成图片形式的 PPT，其视觉质量极高且生动。然而，这种“图片化”的输出也带来了新的致命缺陷：文案被固化在图片中，后期如需修改文字内容，必须重新生图，极大地增加了编辑成本。如何在保留 AI 生图带来的顶级视觉质感的同时，恢复文案的可编辑性，成为了亟待解决的工程问题。

核心内容

针对上述痛点，社区开发者基于 NyxTide 的 ppt-image-first 进行了二次扩展，推出了开源项目 ppt-craft-editable。该项目的核心逻辑并非推翻原有的生图流程，而是将 ppt-image-first 的最终稿件作为“效果图”，以此为基础进行逆向拆解与重构，从而实现视觉与可编辑性的平衡。

其完整工作流主要分为两个阶段：

阶段一：视觉定调（继承自 ppt-image-first） 该阶段沿用原有的 AI 生图逻辑，生成图片形式的 PPT。此时的产物视觉效果一流、生动，但文字无法直接修改。对于后期无编辑需求的场景，此阶段的产出已完全够用。

阶段二：可编辑化重构（二次扩展核心） 当用户需要进入编辑流程时，系统会将阶段一的图片作为视觉参考，执行以下操作：

背景生成：让 AI 基于效果图，生成风格尽可能高度还原或贴近的背景图（还原度取决于当前生图模型的能力）。
文案填充与渲染：通过计算，将原有的文案提取出来，并填充至背景中合适的位置进行渲染，最终输出包含可编辑文本层的 PPT 文件。

在阶段二的过程中，开发者还引入了“文字审计”和“背景审计”页面，允许用户在页面上进行框选操作，以便对生成的背景和文字位置进行多次微调，直至风格满意。文字的具体样式（如字体、颜色、大小等）则保留在最终的 PPT 文件中，由用户自行调整。

常见疑问与边界说明：

为何无法 100% 复刻阶段一的图片样式？ 受限于当前生图模型的能力，AI 生成的背景难以做到像素级还原，只能做到风格贴近。
能否跳过阶段一？ 可以。用户只需在初始指令后追加“给我做成可编辑的”，即可直接走可编辑的生成路径。
未来规划：开发者计划实现导出 PDF 格式 PPT 的理论可编辑化，目前该

查看原文 →linux.do

【开源Skill】高质量的可编辑的PPT生成方式

AI 深度解读

背景

核心内容

相关推荐