Agent SkillLINUX DO · AI·2 天前

开源PPTX-Template-Skills：让AI Agent按模板自动生成PPT

原标题：让Agent使用PPT模板生成新的PPT | PPTX-Template-Skills

速览

该项目包含两个Skill，分别负责解析PPT模板结构和填充内容，将模板转化为机器可读的spec.json契约。AI Agent读取契约后，可自动替换文字、图标及配图，同时保留模板原有的视觉逻辑和样式。项目支持弱模型运行，并兼容Claude Code等具备Skill机制的Agent工具。

AI 深度解读

背景

在办公场景中，制作演示文稿（PPT）往往是一项耗时且重复性高的工作。尽管 AI 技术日新月异，但大多数通用大模型在处理 PPT 生成时，仍面临“视觉逻辑丢失”和“排版错乱”的难题。传统的 AI 生成方式通常难以精准保留模板原有的几何结构、对齐方式、主题色及段落样式，导致生成的内容虽然文字正确，但视觉呈现效果大打折扣，最终仍需大量人工调整。

开发者 CxyZyr 基于这一痛点，历时半个月开发了一款名为 PPTX-Template-Skills 的开源项目。该项目旨在通过构建一套标准化的“解析-生成”工作流，让 AI Agent 能够像人类设计师一样，理解 PPT 模板的结构，并严格按照模板的视觉逻辑填充内容，从而大幅降低手动调整排版的时间成本。

核心内容

PPTX-Template-Skills 的核心设计理念是将 PPT 的生成过程解耦为两个可组合的 Skill（技能/模块）：解析模板与生成内容。其执行流程可以概括为：模板.pptx → [解析] → spec.json → [生成] → 填好的新 PPT。

1. 解析 Skill：构建机器可读的“填充契约”

解析模块是整套工作流的基础。它负责深入读取 .pptx 模板文件，对 PPT 中的每一个形状（Shape）进行精细化分类和角色识别。

元素分类：将形状识别为标题、正文、卡片、图标、Logo、配图、图表、表格等特定类型。
角色识别：识别每一页 PPT 的整体布局角色。
输出产物：生成一份名为 spec.json 的文件。这份文件是一份机器可读的“填充契约”，它详细记录了模板的视觉逻辑、元素位置关系及样式约束，而非简单的文本提取。

2. 生成 Skill：按契约填充内容

生成模块读取 spec.json 后，按照严格的顺序和规则进行内容填充：

填充顺序：文字 → 图标 → Logo → 配图。
视觉保留：在填充过程中，严格保留模板原本的几何结构、对齐方式、主题色和段落样式，确保新 PPT 与原始模板在视觉上保持一致。
图像替换：支持自动替换图像和 Icon 图标。对于图像部分，项目集成了 Tavily API，用户配置对应的 API Key 后，Agent 可自动从网络检索并匹配相关图像。若未提供图像或检索失败，则保持模板原有图像不变。

3. 技术实现与兼容性

Agent 集成：该项目专为支持 Skill 机制的 AI Agent 设计，如 Claude Code 或 Codex。用户只需将仓库中的 skills/ 目录放入 Agent 的 skill 目录，并通过自然语言指令（如“按 skill 流程，用这个模板生成 PPT”）即可触发工作流。
弱模型适配：项目经过测试，证明其逻辑具有较好的可迁移性，能够在算力较弱的模型上运行。例如，使用 deepseek-v4-flash 进行测试时，API 调用耗时约 5 分钟，输入 token 约 69.7k，输出 token 约 28.9k，且成功生成了符合要求的文件。
视觉校验机制：收尾阶段包含视觉校验步骤。如果模型不支持自动视觉校验，该步骤会被自动跳过以节省时间。开发者也允许用户要求 Agent 跳过此步骤以进一步加速生成。

关键要点

双模块架构：项目包含两个核心 Skill，分别负责“解析模板生成契约”和“依据契约生成 PPT”，实现了结构与内容的分离。
标准化契约：通过生成 spec.json 作为中间件，将非结构化的 PPT 模板转化为结构化的机器可读数据，解决了 AI 难以理解复杂排版逻辑的问题。
视觉逻辑保留：核心优势在于生成过程中严格保留模板的几何、对齐、主题色和段落样式，避免了传统 AI 生成 PPT 常见的排版崩坏问题。
智能图像匹配：集成 Tavily API 实现图像的自动检索与替换，同时支持用户预先提供图像材料以提高匹配准确率。
弱模型可行性：已在 deepseek-v4-flash 等轻量级模型上验证可行性，降低了使用门槛和成本。
人工修正必要：尽管在几十个模板上测试稳定，但仍存在小瑕疵，建议人工进行细微修正；弱模型可能存在“偷懒”行为，需人工监督。
开源与社区：项目完全开源，遵循 LINUX DO 社区推广规范，欢迎提交 Issue 和 PR，特别是针对特殊模板的适配反馈。

意义与影响

PPTX-Template-Skills 的出现标志着 AI 在办公自动化领域从“内容生成”向“结构化排版生成”的深入迈进。其意义主要体现在以下几个方面：

填补技术空白：目前大多数 AI PPT 工具侧重于内容大纲生成或整体风格模仿，缺乏对现有企业级模板的精准适配能力。该项目通过“解析-契约-生成”的路径，为解决“如何在保留原有品牌视觉规范的前提下快速生成内容”这一难题提供了可行的技术方案。
提升 Agent 实用性：通过定义清晰的 Skill 接口和中间数据格式（spec.json），该项目展示了如何让通用 AI Agent 具备处理复杂文档结构的能力，为其他类似文档自动化任务（如 Word 报告、Excel 报表）提供了参考范式。
降低使用门槛：支持弱模型运行且兼容主流 Agent 工具（如 Claude Code），使得中小团队或个人开发者无需依赖昂贵的闭源 API 即可实现高质量的 PPT 自动化生成，推动了相关技术的普及。
推动标准化探索：项目提出的“填充契约”概念，实质上是在探索一种文档结构的标准化描述语言。这种思路有助于推动办公软件与 AI 模型之间的数据交互标准化，未来可能成为 AI 辅助办公文档处理的重要基础设施之一。

尽管目前仍需要人工介入进行最终校验，且对复杂模板的适配能力有待进一步验证，但该项目为 AI 驱动的专业文档生成开辟了一条务实且高效的技术路径。

查看原文 →linux.do